Искусственный интеллект получил капчу Google, и последняя мультимодальная большая модель более точна, чем GPT-4V, понимание пространства

Первоисточник: Qubits

Источник изображения: Generated by Unbounded AI

Google CAPTCHA не может остановить ИИ!

Новейшая мультимодальная большая модель позволяет легко найти все светофоры на снимке и точно обводит конкретное место.

Производительность напрямую превосходит GPT-4V.

Речь идет о мультимодальной большой модели «Хорёк», привезённой исследовательской группой Apple и Колумбийского университета.

Он обладает более сильными возможностями корреляции графики и текста, что повышает точность больших моделей в задаче «видеть, говорить и отвечать».

Например, очень маленькая часть (область 1) на рисунке ниже также может быть выделена как ударная волна.

GPT-4V отвечал неправильно и плохо работал в мелких частях.

Итак, как же Хорек это делает?

** "Покажи немного" изображение большой модели понять **

Основная проблема, которую решает Феррет, заключается в том, чтобы приблизить пространственное понимание как привязки, так и заземления.

Ссылки относятся к тому, что модель точно понимает семантику данного региона, то есть то, что она может знать.

Позиционирование заключается в том, чтобы задать семантику, чтобы модель могла найти соответствующую цель на графике.

Для людей эти две способности являются естественной комбинацией, но многие существующие мультимодальные модели используют только ссылки и позиционирование.

Поэтому Ферре предложил новый тип метода представления смешанных областей, который может сочетать дискретные координаты и непрерывные объекты для представления регионов на изображении.

Это позволяет модели различать объекты, которые практически идентичны ограничивающим рамкам.

Например, в случае с двумя объектами на рисунке ниже, если используется только дискретная ограничительная рамка, модель будет чувствовать себя очень «запутанной». В сочетании с непрерывными смешанными представлениями свободной формы эта проблема хорошо решается.

Для извлечения непрерывных признаков различных областей в работе предлагается визуальный выборщик пространственного восприятия, способный обрабатывать различия разреженности между различными формами.

В результате Ferret может принимать различные региональные входные данные, такие как точки, ограничивающие прямоугольники и свободные фигуры, и понимать их семантику.

В выходных данных он может автоматически генерировать координаты каждого привязанного объекта на основе текста.

Для достижения этой цели архитектура модели Ferret включает в себя такие компоненты, как кодировщик изображений, пространственно-ориентированный визуальный сэмплер и языковая модель (LLM).

Ferret сочетает в себе дискретные координаты и непрерывные объекты, чтобы сформировать представление гибридной области.

Это представление предназначено для решения задачи представления областей различных форм и форматов, включая точки, ограничительные рамки и фигуры произвольной формы.

Каждая координата в дискретных координатах квантована до дискретной координаты целевого кадра, и это квантование обеспечивает устойчивость модели к различным размерам изображения.

Непрерывные объекты извлекаются с помощью визуального выборщика пространственного восприятия, который использует двоичные маски и карты признаков для случайной выборки точек в пределах ROI и получения признаков с помощью билинейной интерполяции.

Эти объекты обрабатываются модулем пространственной осведомленности, вдохновленным 3D-моделью облака точек, конденсируются в один вектор и сопоставляются с большой языковой моделью (LLM) для дальнейшей обработки.

Чтобы расширить возможности Ferret, в документе также был создан набор данных под названием GRIT.

Этот набор данных содержит 1,1 млн выборок и охватывает четыре основные категории: отдельные объекты, отношения между объектами, описания для конкретных регионов и комплексные рассуждения на основе региона.

Набор данных GRIT включает в себя данные, преобразованные из общедоступных наборов данных, данные настройки инструкций, сгенерированные с помощью ChatGPT и GPT-4, а также дополнительные 95 тыс. сложных отрицательных образцов для повышения надежности модели.

Результаты экспериментов показывают, что модель не только демонстрирует превосходную производительность в классических задачах референсирования и локализации, но и значительно превосходит другие существующие модели MLLM в мультимодальном диалоге, основанном на регионе и необходимости локализации.

Кроме того, в исследовании предлагается Ferret-Bench, который может оценивать референцию/локализацию, семантику, знание и способность к рассуждению локальных областей изображения.

Модель Ferret, которая была оценена на LLaVA-Bench и Ferret-Bench, преуспела во всех задачах, особенно в трех новых задачах, которые требовали референциального и визуального заземления.

Более того, отмечается значительное улучшение деталей описания образа, а также значительное уменьшение галлюцинаций.

Вся китайская команда

Большая модель Ferret разработана совместно командой Apple AI/ML и исследовательской группой Колумбийского университета, а также полностью китайской линейкой.

Есть Хаосюань и Чжан Хаотянь как совместная работа.

Ю Хаосюань получил степень доктора философии в области компьютерных наук в Университете Колума и после окончания учебы присоединится к команде Apple по искусственному интеллекту и машинному обучению. В 2018 году окончил Сидяньский университет.

В сферу его научных интересов входят понимание визуального языка, генерация текста и изображения и визуальный язык.

В настоящее время Чжан Хаотянь (Zhang Haotian) работает исследователем визуального интеллекта в команде Apple по искусственному интеллекту и машинному обучению.

До прихода в Apple Хаотянь получил степень доктора философии в Вашингтонском университете и степень бакалавра в Шанхайском университете Цзяо Тун.

Он является одним из ведущих авторов GLIP/GLIPv2, которая была номинирована CVPR2022 премию Best Paper Award.

Кроме того, в команду входят Гань Чжэ, Ван Цзыжуй, Цао Ляньлян, Ян Иньфэй и другие бывшие выдающиеся исследователи мультимодальных больших моделей Google и Microsoft.

Адрес доклада:

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить