Однією з головних проблем, з якими стикається мультимодальне навчання, є необхідність об'єднання гетерогенних модальностей, таких як текст, аудіо та відео, а мультимодальні моделі повинні поєднувати сигнали з різних джерел. Однак ці модальності мають різні характеристики, які складно поєднати з однією моделлю. Наприклад, відео та текст мають різну частоту дискретизації.
Нещодавно дослідницька група з Google DeepMind розділила мультимодальну модель на кілька незалежних, спеціалізованих авторегресійних моделей, які обробляють вхідні дані на основі характеристик кожної модальності.
Зокрема, дослідження пропонує мультимодальну модель Mirasol3B. Mirasol3B складається з авторегресійного компонента для модального режиму тимчасової синхронізації (аудіо та відео) та авторегресійного компонента для контекстної модальності. Ці модальності не обов'язково вирівняні в часі, але є послідовними.
Адреса:
Mirasol3B досягає рівня SOTA в мультимодальних тестах, перевершуючи більші моделі. Вивчаючи більш компактні представлення, контролюючи довжину послідовності представлень аудіо-відео функцій і моделюючи на основі часової відповідності, Mirasol3B може ефективно задовольнити високі обчислювальні вимоги мультимодальних входів.
Інструкція зі вступу
Mirasol3B — це мультимодальна модель аудіо-відео-тексту, в якій авторегресивне моделювання роз'єднане на авторегресійні компоненти для вирівняних у часі модальностей (наприклад, аудіо, відео) та авторегресійні компоненти для контекстуальних модальностей, не вирівняних у часі (наприклад, текст). Mirasol3B використовує ваги перехресної уваги для координації процесу навчання цих компонентів. Таке розв'язування робить розподіл параметрів всередині моделі більш обґрунтованим, а також виділяє достатню ємність модальностям (відео та аудіо) і робить загальну модель більш легкою.
Як показано на малюнку 1 нижче, Mirasol3B складається в основному з двох навчальних компонентів: авторегресійного компонента, призначеного для обробки (майже) синхронних мультимодальних входів, таких як відео + аудіо, і своєчасного об'єднання входів.
У дослідженні також пропонується сегментувати вирівняну в часі модальність на часові періоди, в яких вивчаються аудіо-відео спільні репрезентації. Зокрема, у цьому дослідженні пропонується механізм навчання модальних спільних ознак під назвою «Комбінатор». «Комбайнер» поєднує модальні функції одного періоду часу, що призводить до більш компактного представлення.
«Combiner» витягує первинне просторово-часове представлення з оригінального модального входу, фіксує динамічні характеристики відео та поєднує його з функціями синхронного звуку, так що модель може отримувати мультимодальні входи з різною швидкістю та добре працює при обробці довших відео.
«Комбайнер» ефективно задовольняє потреби модального представлення, яке є одночасно ефективним та інформативним. Він може повністю охоплювати події та дії у відео та інших модальностях, які відбуваються одночасно, і може бути використаний у подальших авторегресійних моделях для вивчення довгострокових залежностей.
Для того, щоб обробляти відео- та аудіосигнали, а також вміщувати довші відео/аудіо входи, вони розбиваються на (приблизно синхронізовані в часі) фрагменти, які потім вчаться синтезувати аудіовізуальні представлення за допомогою «Combiner». Другий компонент має справу з контекстуальними, або зміщеними в часі сигналами, такими як глобальна текстова інформація, яка, як правило, все ще є безперервною. Він також є авторегресивним і використовує об'єднаний латентний простір як вхід перехресної уваги.
Навчальний компонент Video + Audio має параметри 3B, тоді як компонент без аудіо – 2,9B. Більшість напівпараметрів використовується для авторегресійної моделі аудіо + відео. Mirasol3B зазвичай обробляє відео з 128 кадрами, але він також може обробляти довші (наприклад, 512 кадрів) відео.
У зв'язку з конструкцією розділу та архітектурою моделі «Combiner», додавання більшої кількості кадрів, або збільшення розміру та кількості блоків лише трохи збільшить параметри, що вирішує проблему, що довші відео вимагають більше параметрів та більшого обсягу пам'яті.
Експерименти та результати
У дослідженні було протестовано та оцінено Mirasol3B на стандартному бенчмарку VideoQA, довготривалому тесті VideoQA та бенчмарку Audio+Video.
Як показано в таблиці 1 нижче, результати тестів набору даних VideoQA MSRVTTQA показують, що Mirasol3B перевершує поточну модель SOTA, а також більші моделі, такі як PaLI-X і Flamingo.
Що стосується довгих відеозапитань і відповідей, Mirasol3B був протестований і оцінений на наборах даних ActivityNet-QA, NExTQA, і результати показані в таблиці 2 нижче:
Нарешті, дослідження вирішило використовувати KineticsSound, VGG-Sound та Epic-Sound для тестів аудіо-відео з відкритими генеративними оцінками, як показано в таблиці 3 нижче:
Зацікавлені читачі можуть прочитати оригінал статті, щоб дізнатися більше про дослідження.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Малий та ефективний: DeepMind запускає мультимодальне рішення Mirasol 3B
Джерело статті: Серце машини
Однією з головних проблем, з якими стикається мультимодальне навчання, є необхідність об'єднання гетерогенних модальностей, таких як текст, аудіо та відео, а мультимодальні моделі повинні поєднувати сигнали з різних джерел. Однак ці модальності мають різні характеристики, які складно поєднати з однією моделлю. Наприклад, відео та текст мають різну частоту дискретизації.
Нещодавно дослідницька група з Google DeepMind розділила мультимодальну модель на кілька незалежних, спеціалізованих авторегресійних моделей, які обробляють вхідні дані на основі характеристик кожної модальності.
Зокрема, дослідження пропонує мультимодальну модель Mirasol3B. Mirasol3B складається з авторегресійного компонента для модального режиму тимчасової синхронізації (аудіо та відео) та авторегресійного компонента для контекстної модальності. Ці модальності не обов'язково вирівняні в часі, але є послідовними.
Mirasol3B досягає рівня SOTA в мультимодальних тестах, перевершуючи більші моделі. Вивчаючи більш компактні представлення, контролюючи довжину послідовності представлень аудіо-відео функцій і моделюючи на основі часової відповідності, Mirasol3B може ефективно задовольнити високі обчислювальні вимоги мультимодальних входів.
Інструкція зі вступу
Mirasol3B — це мультимодальна модель аудіо-відео-тексту, в якій авторегресивне моделювання роз'єднане на авторегресійні компоненти для вирівняних у часі модальностей (наприклад, аудіо, відео) та авторегресійні компоненти для контекстуальних модальностей, не вирівняних у часі (наприклад, текст). Mirasol3B використовує ваги перехресної уваги для координації процесу навчання цих компонентів. Таке розв'язування робить розподіл параметрів всередині моделі більш обґрунтованим, а також виділяє достатню ємність модальностям (відео та аудіо) і робить загальну модель більш легкою.
Як показано на малюнку 1 нижче, Mirasol3B складається в основному з двох навчальних компонентів: авторегресійного компонента, призначеного для обробки (майже) синхронних мультимодальних входів, таких як відео + аудіо, і своєчасного об'єднання входів.
«Combiner» витягує первинне просторово-часове представлення з оригінального модального входу, фіксує динамічні характеристики відео та поєднує його з функціями синхронного звуку, так що модель може отримувати мультимодальні входи з різною швидкістю та добре працює при обробці довших відео.
«Комбайнер» ефективно задовольняє потреби модального представлення, яке є одночасно ефективним та інформативним. Він може повністю охоплювати події та дії у відео та інших модальностях, які відбуваються одночасно, і може бути використаний у подальших авторегресійних моделях для вивчення довгострокових залежностей.
Навчальний компонент Video + Audio має параметри 3B, тоді як компонент без аудіо – 2,9B. Більшість напівпараметрів використовується для авторегресійної моделі аудіо + відео. Mirasol3B зазвичай обробляє відео з 128 кадрами, але він також може обробляти довші (наприклад, 512 кадрів) відео.
У зв'язку з конструкцією розділу та архітектурою моделі «Combiner», додавання більшої кількості кадрів, або збільшення розміру та кількості блоків лише трохи збільшить параметри, що вирішує проблему, що довші відео вимагають більше параметрів та більшого обсягу пам'яті.
Експерименти та результати
У дослідженні було протестовано та оцінено Mirasol3B на стандартному бенчмарку VideoQA, довготривалому тесті VideoQA та бенчмарку Audio+Video.
Як показано в таблиці 1 нижче, результати тестів набору даних VideoQA MSRVTTQA показують, що Mirasol3B перевершує поточну модель SOTA, а також більші моделі, такі як PaLI-X і Flamingo.