A IA tem o Google captcha, e o mais recente modelo multimodal grande é mais preciso do que a compreensão do espaço GPT-4V

Fonte original: Qubits

Fonte da imagem: Gerado por Unbounded AI

O Google CAPTCHA não pode parar a IA!

O mais recente modelo multimodal grande torna mais fácil encontrar todos os semáforos na imagem e circunda com precisão a localização específica.

O desempenho excede diretamente o GPT-4V.

Este é o grande modelo multimodal "Ferret" trazido pela equipe de pesquisa da Apple e da Universidade de Columbia.

Tem capacidades gráficas e de correlação de texto mais fortes, o que melhora a precisão de modelos grandes na tarefa de "ver, falar e responder".

Por exemplo, a parte muito pequena (região 1) na figura abaixo também pode ser distinguida como um choque.

O GPT-4V não respondeu corretamente e não teve um bom desempenho em pequenas partes.

Então, como o furão faz isso?

** "Aponte um pouco" imagem grande modelo entender **

O problema central que Ferret resolve é tornar a compreensão espacial tanto da referência quanto da fundamentação mais próxima.

As referências referem-se a fazer com que o modelo compreenda exatamente a semântica de uma determinada região, ou seja, qual é a localização que ele pode conhecer.

Posicionamento é dar semântica para que o modelo possa encontrar o alvo correspondente no gráfico.

Para os seres humanos, essas duas habilidades são uma combinação natural, mas muitos modelos multimodais existentes usam apenas referência e posicionamento.

Portanto, Ferret propôs um novo tipo de método de representação de região mista que pode combinar coordenadas discretas e características contínuas para representar regiões em uma imagem.

Isso permite que o modelo distinga objetos que são quase idênticos às caixas delimitadoras.

Por exemplo, no caso dos dois objetos na figura abaixo, se apenas a caixa delimitadora discreta for usada, o modelo se sentirá muito "confuso". Combinado com representações mistas contínuas de forma livre, este problema está bem resolvido.

A fim de extrair características contínuas de diversas regiões, o artigo propõe um amostrador visual de perceção espacial capaz de lidar com diferenças de esparsidade entre diferentes formas.

Como resultado, Ferret pode aceitar uma variedade de entradas regionais, como pontos, caixas delimitadoras e formas livres e entender sua semântica.

Na saída, ele pode gerar automaticamente as coordenadas de cada objeto ancorado com base no texto.

Para conseguir isso, a arquitetura do modelo Ferret inclui componentes como um codificador de imagem, um amostrador visual espacialmente consciente e um modelo de linguagem (LLM).

O furão combina coordenadas discretas e características contínuas para formar uma representação de região híbrida.

Esta representação foi projetada para resolver o desafio de representar áreas de várias formas e formatos, incluindo pontos, caixas delimitadoras e formas livres.

Cada coordenada em coordenadas discretas é quantizada para uma coordenada discreta de um quadro de destino, e essa quantização garante a robustez do modelo para diferentes tamanhos de imagem.

As características contínuas são extraídas pelo amostrador visual de perceção espacial, que usa máscaras binárias e mapas de feições para amostragem aleatória de pontos dentro do ROI e obter características através de interpolação bilinear.

Esses recursos são processados por um módulo de consciência espacial inspirado em um modelo de nuvem de pontos 3D, condensado em um único vetor e mapeado para um modelo de linguagem grande (LLM) para processamento posterior.

Para aumentar as capacidades do Ferret, o jornal também criou um conjunto de dados chamado GRIT.

Esse conjunto de dados contém 1,1 milhão de amostras e abrange quatro categorias principais: objetos individuais, relações entre objetos, descrições específicas de região e raciocínio complexo baseado em região.

O conjunto de dados GRIT inclui dados convertidos de conjuntos de dados públicos, dados de ajuste de instruções gerados através do ChatGPT e GPT-4, e mais 95K amostras negativas difíceis são fornecidas para melhorar a robustez do modelo.

Os resultados experimentais mostram que o modelo não só mostra um desempenho superior em tarefas clássicas de referência e localização, mas também excede em muito outros modelos de MLLM existentes em diálogo multimodal com base na região e necessidade de localização.

Além disso, o estudo propõe um Ferret-Bench que pode avaliar a referência/localização, semântica, conhecimento e capacidade de raciocínio de áreas locais de uma imagem.

O modelo Ferret, que foi avaliado em LLaVA-Bench e Ferret-Bench, destacou-se em todas as tarefas, especialmente nas três novas tarefas que exigiram fundamentação referencial e visual.

Além disso, há uma melhoria significativa nos detalhes da descrição da imagem, e há uma diminuição significativa nas alucinações.

Toda a Equipa Chinesa

O modelo Ferret big é trazido em conjunto pela equipe de pesquisa de IA/ML da Apple e da Universidade de Columbia, com uma linha totalmente chinesa.

Há Haoxuan e Zhang Haotian como um trabalho conjunto.

You Haoxuan é agora um Ph.D. em ciência da computação pela Universidade de Colum e se juntará à equipe de IA / ML da Apple após a formatura. Ele se formou na Universidade Xidian em 2018.

Os seus interesses de investigação incluem a compreensão da linguagem visual, geração de texto-imagem e linguagem visual.

Zhang Haotian é agora um investigador de inteligência visual na equipa de IA/ML da Apple.

Antes de ingressar na Apple, Haotian recebeu seu Ph.D. pela Universidade de Washington e seu diploma de bacharel pela Shanghai Jiao Tong University.

É um dos principais autores do GLIP/GLIPv2, que foi nomeado para CVPR2022 Best Paper Award.

Além disso, a equipe inclui Gan Zhe, Wang Zirui, Cao Liangliang, Yang Yinfei e outros ex-pesquisadores de grandes modelos multimodais do Google e da Microsoft.

Endereço em papel:

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)