Штучний інтелект отримав капчу Google, і остання мультимодальна велика модель є більш точною, ніж розуміння простору GPT-4V

Першоджерело: Qubits

Джерело зображення: Створено Unbounded AI

Google CAPTCHA не може зупинити штучний інтелект!

Найновіша мультимодальна велика модель дозволяє легко знайти всі світлофори на зображенні та точно обводить конкретне місце.

Продуктивність безпосередньо перевершує GPT-4V.

Це мультимодальна велика модель «Тхір», представлена дослідницькою групою Apple і Колумбійського університету.

Він має сильніші можливості графічного та текстового співвідношення, що підвищує точність великих моделей у завданні «бачити, говорити та відповідати».

Наприклад, дуже маленьку частину (область 1) на малюнку нижче також можна виділити як шок.

GPT-4V відповів неправильно і погано показав себе в дрібних частинах.

Отже, як це робить Тхір?

** "Покажіть трохи" зображення великої моделі зрозуміти **

Основна проблема, яку вирішує Ferret, полягає в тому, щоб наблизити просторове розуміння як посилання, так і заземлення.

Посилання стосуються того, що модель точно розуміє семантику даного регіону, тобто яке місце вона може знати.

Позиціонування полягає в тому, щоб надати семантику, щоб модель могла знайти відповідну ціль на графіку.

Для людей ці дві здібності є природним поєднанням, але багато існуючих мультимодальних моделей використовують лише посилання та позиціонування.

Тому Феррет запропонував новий тип методу представлення змішаних областей, який може поєднувати дискретні координати та неперервні об'єкти для представлення областей на зображенні.

Це дозволяє моделі розрізняти об'єкти, які майже ідентичні обмежувальним рамкам.

Наприклад, у випадку з двома об'єктами на малюнку нижче, якщо використовується тільки дискретна обмежувальна рамка, модель буде відчувати себе дуже «заплутаною». У поєднанні з безперервними змішаними представленнями довільної форми ця задача добре вирішується.

Для того, щоб виділити безперервні особливості різних областей, у статті запропоновано візуальний семплер просторового сприйняття, здатний обробляти різницю розрідженості між різними формами.

В результаті, Ferret може приймати різноманітні регіональні вхідні дані, такі як точки, обмежувальні рамки та вільні форми, і розуміти їх семантику.

На виході він може автоматично генерувати координати кожного прив'язаного об'єкта на основі тексту.

Для досягнення цієї мети архітектура моделі Ferret включає такі компоненти, як кодер зображення, просторово обізнаний візуальний семплер і мовна модель (LLM).

Ferret поєднує в собі дискретні координати і безперервні особливості, щоб сформувати гібридне представлення регіону.

Це представлення призначене для розв'язання задачі представлення областей різних форм і форматів, включаючи точки, обмежувальні рамки та фігури довільної форми.

Кожна координата в дискретних координатах квантується до дискретної координати цільового кадру, і це квантування забезпечує стійкість моделі до різних розмірів зображення.

Безперервні об'єкти витягуються за допомогою візуального семплера просторового сприйняття, який використовує двійкові маски та карти ознак для випадкової вибірки точок у межах ROI та отримання ознак за допомогою білінійної інтерполяції.

Ці об'єкти обробляються модулем просторової обізнаності, натхненним 3D-моделлю хмари точок, конденсуються в єдиний вектор і відображаються у великій мовній моделі (LLM) для подальшої обробки.

Щоб розширити можливості Ferret, автори статті також створили набір даних під назвою GRIT.

Цей набір даних містить 1,1 мільйона вибірок і охоплює чотири основні категорії: окремі об'єкти, зв'язки між об'єктами, регіональні описи та регіональні комплексні міркування.

Набір даних GRIT включає дані, перетворені з публічних наборів даних, дані налаштування інструкцій, згенеровані за допомогою ChatGPT і GPT-4, а також додаткові 95 тисяч складних негативних зразків для підвищення надійності моделі.

Експериментальні результати показують, що модель не тільки демонструє чудову продуктивність у класичних завданнях реферування та локалізації, але й значно перевершує інші існуючі моделі MLLM у мультимодальному діалозі, заснованому на регіоні та потребі локалізації.

Крім того, у дослідженні пропонується Ferret-Bench, який може оцінювати посилання/локалізацію, семантику, знання та здатність міркувати локальних областей зображення.

Модель Ferret, яка оцінювалася на LLaVA-Bench і Ferret-Bench, відмінно впоралася з усіма завданнями, особливо з трьома новими завданнями, які вимагали референтного і візуального обґрунтування.

Більш того, спостерігається значне поліпшення деталей опису образу, і спостерігається значне зниження галюцинацій.

Вся китайська команда

Велика модель Ferret спільно представлена дослідницькою групою Apple AI/ML та Колумбійського університету з повністю китайською лінійкою.

Є Хаосюань і Чжан Хаотянь як спільна робота.

Зараз Ю Хаосюань є доктором філософії в галузі комп'ютерних наук в Університеті Колума і приєднається до команди Apple AI/ML після закінчення навчання. Закінчив Сідянський університет у 2018 році.

Його наукові інтереси включають розуміння візуальної мови, генерацію тексту та зображень та візуальної мови.

Зараз Чжан Хаотянь є дослідником візуального інтелекту в команді AI/ML компанії Apple.

Перш ніж приєднатися до Apple, Хаотянь отримав ступінь доктора філософії у Вашингтонському університеті та ступінь бакалавра в Шанхайському університеті Цзяо Тун.

Він є одним із провідних авторів книги GLIP/GLIPv2, яка була номінована на премію CVPR2022 Best Paper Award.

Крім того, до складу команди входять Гань Чже, Ван Цзируй, Цао Лянлян, Ян Інфей та інші колишні видатні дослідники мультимодальних великих моделей Google і Microsoft.

Паперова адреса:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити