Новейшая мультимодальная большая модель позволяет легко найти все светофоры на снимке и точно обводит конкретное место.
Производительность напрямую превосходит GPT-4V.
Речь идет о мультимодальной большой модели «Хорёк», привезённой исследовательской группой Apple и Колумбийского университета.
Он обладает более сильными возможностями корреляции графики и текста, что повышает точность больших моделей в задаче «видеть, говорить и отвечать».
Например, очень маленькая часть (область 1) на рисунке ниже также может быть выделена как ударная волна.
GPT-4V отвечал неправильно и плохо работал в мелких частях.
Итак, как же Хорек это делает?
** "Покажи немного" изображение большой модели понять **
Основная проблема, которую решает Феррет, заключается в том, чтобы приблизить пространственное понимание как привязки, так и заземления.
Ссылки относятся к тому, что модель точно понимает семантику данного региона, то есть то, что она может знать.
Позиционирование заключается в том, чтобы задать семантику, чтобы модель могла найти соответствующую цель на графике.
Для людей эти две способности являются естественной комбинацией, но многие существующие мультимодальные модели используют только ссылки и позиционирование.
Поэтому Ферре предложил новый тип метода представления смешанных областей, который может сочетать дискретные координаты и непрерывные объекты для представления регионов на изображении.
Это позволяет модели различать объекты, которые практически идентичны ограничивающим рамкам.
Например, в случае с двумя объектами на рисунке ниже, если используется только дискретная ограничительная рамка, модель будет чувствовать себя очень «запутанной». В сочетании с непрерывными смешанными представлениями свободной формы эта проблема хорошо решается.
Для извлечения непрерывных признаков различных областей в работе предлагается визуальный выборщик пространственного восприятия, способный обрабатывать различия разреженности между различными формами.
В результате Ferret может принимать различные региональные входные данные, такие как точки, ограничивающие прямоугольники и свободные фигуры, и понимать их семантику.
В выходных данных он может автоматически генерировать координаты каждого привязанного объекта на основе текста.
Для достижения этой цели архитектура модели Ferret включает в себя такие компоненты, как кодировщик изображений, пространственно-ориентированный визуальный сэмплер и языковая модель (LLM).
Ferret сочетает в себе дискретные координаты и непрерывные объекты, чтобы сформировать представление гибридной области.
Это представление предназначено для решения задачи представления областей различных форм и форматов, включая точки, ограничительные рамки и фигуры произвольной формы.
Каждая координата в дискретных координатах квантована до дискретной координаты целевого кадра, и это квантование обеспечивает устойчивость модели к различным размерам изображения.
Непрерывные объекты извлекаются с помощью визуального выборщика пространственного восприятия, который использует двоичные маски и карты признаков для случайной выборки точек в пределах ROI и получения признаков с помощью билинейной интерполяции.
Эти объекты обрабатываются модулем пространственной осведомленности, вдохновленным 3D-моделью облака точек, конденсируются в один вектор и сопоставляются с большой языковой моделью (LLM) для дальнейшей обработки.
Чтобы расширить возможности Ferret, в документе также был создан набор данных под названием GRIT.
Этот набор данных содержит 1,1 млн выборок и охватывает четыре основные категории: отдельные объекты, отношения между объектами, описания для конкретных регионов и комплексные рассуждения на основе региона.
Набор данных GRIT включает в себя данные, преобразованные из общедоступных наборов данных, данные настройки инструкций, сгенерированные с помощью ChatGPT и GPT-4, а также дополнительные 95 тыс. сложных отрицательных образцов для повышения надежности модели.
Результаты экспериментов показывают, что модель не только демонстрирует превосходную производительность в классических задачах референсирования и локализации, но и значительно превосходит другие существующие модели MLLM в мультимодальном диалоге, основанном на регионе и необходимости локализации.
Кроме того, в исследовании предлагается Ferret-Bench, который может оценивать референцию/локализацию, семантику, знание и способность к рассуждению локальных областей изображения.
Модель Ferret, которая была оценена на LLaVA-Bench и Ferret-Bench, преуспела во всех задачах, особенно в трех новых задачах, которые требовали референциального и визуального заземления.
Более того, отмечается значительное улучшение деталей описания образа, а также значительное уменьшение галлюцинаций.
Вся китайская команда
Большая модель Ferret разработана совместно командой Apple AI/ML и исследовательской группой Колумбийского университета, а также полностью китайской линейкой.
Есть Хаосюань и Чжан Хаотянь как совместная работа.
Ю Хаосюань получил степень доктора философии в области компьютерных наук в Университете Колума и после окончания учебы присоединится к команде Apple по искусственному интеллекту и машинному обучению. В 2018 году окончил Сидяньский университет.
В сферу его научных интересов входят понимание визуального языка, генерация текста и изображения и визуальный язык.
В настоящее время Чжан Хаотянь (Zhang Haotian) работает исследователем визуального интеллекта в команде Apple по искусственному интеллекту и машинному обучению.
До прихода в Apple Хаотянь получил степень доктора философии в Вашингтонском университете и степень бакалавра в Шанхайском университете Цзяо Тун.
Он является одним из ведущих авторов GLIP/GLIPv2, которая была номинирована CVPR2022 премию Best Paper Award.
Кроме того, в команду входят Гань Чжэ, Ван Цзыжуй, Цао Ляньлян, Ян Иньфэй и другие бывшие выдающиеся исследователи мультимодальных больших моделей Google и Microsoft.
Адрес доклада:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Искусственный интеллект получил капчу Google, и последняя мультимодальная большая модель более точна, чем GPT-4V, понимание пространства
Первоисточник: Qubits
Google CAPTCHA не может остановить ИИ!
Новейшая мультимодальная большая модель позволяет легко найти все светофоры на снимке и точно обводит конкретное место.
Например, очень маленькая часть (область 1) на рисунке ниже также может быть выделена как ударная волна.
** "Покажи немного" изображение большой модели понять **
Основная проблема, которую решает Феррет, заключается в том, чтобы приблизить пространственное понимание как привязки, так и заземления.
Ссылки относятся к тому, что модель точно понимает семантику данного региона, то есть то, что она может знать.
Позиционирование заключается в том, чтобы задать семантику, чтобы модель могла найти соответствующую цель на графике.
Для людей эти две способности являются естественной комбинацией, но многие существующие мультимодальные модели используют только ссылки и позиционирование.
Это позволяет модели различать объекты, которые практически идентичны ограничивающим рамкам.
Например, в случае с двумя объектами на рисунке ниже, если используется только дискретная ограничительная рамка, модель будет чувствовать себя очень «запутанной». В сочетании с непрерывными смешанными представлениями свободной формы эта проблема хорошо решается.
В результате Ferret может принимать различные региональные входные данные, такие как точки, ограничивающие прямоугольники и свободные фигуры, и понимать их семантику.
В выходных данных он может автоматически генерировать координаты каждого привязанного объекта на основе текста.
Ferret сочетает в себе дискретные координаты и непрерывные объекты, чтобы сформировать представление гибридной области.
Это представление предназначено для решения задачи представления областей различных форм и форматов, включая точки, ограничительные рамки и фигуры произвольной формы.
Каждая координата в дискретных координатах квантована до дискретной координаты целевого кадра, и это квантование обеспечивает устойчивость модели к различным размерам изображения.
Непрерывные объекты извлекаются с помощью визуального выборщика пространственного восприятия, который использует двоичные маски и карты признаков для случайной выборки точек в пределах ROI и получения признаков с помощью билинейной интерполяции.
Эти объекты обрабатываются модулем пространственной осведомленности, вдохновленным 3D-моделью облака точек, конденсируются в один вектор и сопоставляются с большой языковой моделью (LLM) для дальнейшей обработки.
Этот набор данных содержит 1,1 млн выборок и охватывает четыре основные категории: отдельные объекты, отношения между объектами, описания для конкретных регионов и комплексные рассуждения на основе региона.
Набор данных GRIT включает в себя данные, преобразованные из общедоступных наборов данных, данные настройки инструкций, сгенерированные с помощью ChatGPT и GPT-4, а также дополнительные 95 тыс. сложных отрицательных образцов для повышения надежности модели.
Модель Ferret, которая была оценена на LLaVA-Bench и Ferret-Bench, преуспела во всех задачах, особенно в трех новых задачах, которые требовали референциального и визуального заземления.
Вся китайская команда
Большая модель Ferret разработана совместно командой Apple AI/ML и исследовательской группой Колумбийского университета, а также полностью китайской линейкой.
Есть Хаосюань и Чжан Хаотянь как совместная работа.
Ю Хаосюань получил степень доктора философии в области компьютерных наук в Университете Колума и после окончания учебы присоединится к команде Apple по искусственному интеллекту и машинному обучению. В 2018 году окончил Сидяньский университет.
В сферу его научных интересов входят понимание визуального языка, генерация текста и изображения и визуальный язык.
До прихода в Apple Хаотянь получил степень доктора философии в Вашингтонском университете и степень бакалавра в Шанхайском университете Цзяо Тун.
Он является одним из ведущих авторов GLIP/GLIPv2, которая была номинирована CVPR2022 премию Best Paper Award.
Адрес доклада: