La IA tiene captcha de Google, y el último modelo multimodal grande es más preciso que la comprensión del espacio GPT-4V

Fuente original: Qubits

Fuente de la imagen: Generado por Unbounded AI

¡El CAPTCHA de Google no puede detener a la IA!

El último modelo multimodal grande facilita la búsqueda de todos los semáforos en la imagen y rodea con precisión la ubicación específica.

El rendimiento supera directamente al GPT-4V.

Se trata del modelo multimodal de gran tamaño "Ferret" traído por el equipo de investigación de Apple y la Universidad de Columbia.

Tiene capacidades de correlación gráfica y de texto más sólidas, lo que mejora la precisión de los modelos grandes en la tarea de "ver, hablar y responder".

Por ejemplo, la parte muy pequeña (región 1) en la siguiente figura también se puede distinguir como un choque.

El GPT-4V no respondió correctamente y no funcionó bien en partes pequeñas.

Entonces, ¿cómo lo hace Ferret?

** "Apunta un poco" imagen gran modelo entender **

El problema central que resuelve Ferret es hacer más cercana la comprensión espacial tanto de la referencia como de la conexión a tierra.

Las referencias se refieren a que el modelo comprenda exactamente la semántica de una región determinada, es decir, qué ubicación puede conocer.

El posicionamiento consiste en dar semántica para que el modelo pueda encontrar el objetivo correspondiente en el gráfico.

Para los humanos, estas dos habilidades son una combinación natural, pero muchos modelos multimodales existentes solo usan referencias y posicionamientos.

Por lo tanto, Ferret propuso un nuevo tipo de método de representación de regiones mixtas que puede combinar coordenadas discretas y características continuas para representar regiones en una imagen.

Esto permite que el modelo distinga objetos que son casi idénticos a los cuadros delimitadores.

Por ejemplo, en el caso de los dos objetos de la figura siguiente, si solo se utiliza el cuadro delimitador discreto, el modelo se sentirá muy "confundido". Combinado con representaciones combinadas continuas de forma libre, este problema está bien resuelto.

Con el fin de extraer características continuas de diversas regiones, el artículo propone un muestreador visual de percepción espacial capaz de manejar diferencias de dispersión entre diferentes formas.

Como resultado, Ferret puede aceptar una variedad de entradas regionales, como puntos, cuadros delimitadores y formas libres, y comprender su semántica.

En la salida, puede generar automáticamente las coordenadas de cada objeto anclado en función del texto.

Para lograr esto, la arquitectura del modelo Ferret incluye componentes como un codificador de imágenes, un muestreador visual con reconocimiento espacial y un modelo de lenguaje (LLM).

Ferret combina coordenadas discretas y entidades continuas para formar una representación de región híbrida.

Esta representación está diseñada para resolver el desafío de representar áreas de varias formas y formatos, incluidos puntos, cuadros delimitadores y formas libres.

Cada coordenada en coordenadas discretas se cuantifica en una coordenada discreta de un fotograma de destino, y esta cuantificación garantiza la solidez del modelo a diferentes tamaños de imagen.

Las entidades continuas son extraídas por el muestreador visual de percepción espacial, que utiliza máscaras binarias y mapas de entidades para muestrear aleatoriamente puntos dentro del ROI y obtener entidades a través de la interpolación bilineal.

Estas entidades se procesan mediante un módulo de reconocimiento espacial inspirado en un modelo de nube de puntos 3D, se condensan en un único vector y se asignan a un modelo de lenguaje grande (LLM) para su posterior procesamiento.

Para aumentar las capacidades de Ferret, el documento también creó un conjunto de datos llamado GRIT.

Este conjunto de datos contiene 1,1 millones de muestras y cubre cuatro categorías principales: objetos individuales, relaciones entre objetos, descripciones específicas de la región y razonamiento complejo basado en la región.

El conjunto de datos GRIT incluye datos convertidos a partir de conjuntos de datos públicos, datos de ajuste de instrucciones generados a través de ChatGPT y GPT-4, y se proporcionan 95K muestras negativas difíciles adicionales para mejorar la solidez del modelo.

Los resultados experimentales muestran que el modelo no solo muestra un rendimiento superior en las tareas clásicas de referenciación y localización, sino que también supera con creces a otros modelos MLLM existentes en el diálogo multimodal basado en la región y la necesidad de localización.

Además, el estudio propone un Ferret-Bench que puede evaluar la referencia/localización, la semántica, el conocimiento y la capacidad de razonamiento de las áreas locales de una imagen.

El modelo Ferret, que se evaluó en LLaVA-Bench y Ferret-Bench, se destacó en todas las tareas, especialmente en las tres nuevas tareas que requerían una conexión a tierra referencial y visual.

Además, hay una mejora significativa en los detalles de la descripción de la imagen, y hay una disminución significativa de las alucinaciones.

Equipo chino

El modelo grande Ferret es traído conjuntamente por el equipo de investigación de IA/ML de Apple y la Universidad de Columbia, con una línea totalmente china.

Hay Haoxuan y Zhang Haotian como un trabajo conjunto.

You Haoxuan ahora tiene un doctorado en ciencias de la computación de la Universidad de Colum y se unirá al equipo de IA/ML de Apple después de graduarse. Se graduó de la Universidad de Xidian en el 2018.

Sus intereses de investigación incluyen la comprensión del lenguaje visual, la generación de texto-imagen y el lenguaje visual.

Zhang Haotian es ahora investigador de inteligencia visual en el equipo de IA/ML de Apple.

Antes de unirse a Apple, Haotian recibió su doctorado de la Universidad de Washington y su licenciatura de la Universidad Jiao Tong de Shanghái.

Es uno de los autores principales de GLIP/GLIPv2, que ha sido nominado para CVPR2022 Premio al Mejor Artículo.

Además, el equipo incluye a Gan Zhe, Wang Zirui, Cao Liangliang, Yang Yinfei y otros ex investigadores de modelos grandes multimodales de Google y Microsoft.

Dirección del papel:

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)