As alucinações de objetos multimodais caíram 23%! UNC Stanford e outros lançaram o modificador universal LURE: compatível com qualquer LVLM, especializado nas três principais causas da ilusão

Fonte original: New Zhiyuan

Fonte da imagem: Gerado por Unbounded AI

Desde a estreia da multimodalidade GPT, os grandes modelos multimodais de código aberto têm surgido um após o outro.

No campo da inteligência artificial, os modelos em larga escala que integram múltiplas modalidades têm sido considerados como a direção principal do desenvolvimento pela maioria dos pesquisadores e pela indústria, e também são considerados os componentes centrais da construção de assistentes de IA de uso geral.

Durante o período em que o GPT-4V não foi realmente revelado, alguns pesquisadores no país e no exterior lançaram alguns trabalhos representativos, como LLaVa, MiniGPT-4, Mplug-Owl, etc., esses modelos de código aberto demonstraram um desempenho muito poderoso em rastreamento de instruções naturais e recursos de raciocínio visual.

No entanto, há um problema que tem incomodado muitos investigadores: embora estes grandes modelos multimodais consigam compreender imagens reais, também são atormentados por graves problemas de alucinação: surgem frequentemente problemas como ler imagens e dizer disparates, inventar disparates, etc., que têm um impacto muito negativo em tarefas de linguagem visual, como a sumarização visual e o raciocínio.

Em outubro deste ano, pesquisadores de Chapel Hill, Stanford, Columbia, Rutgers e outras universidades da Carolina do Norte analisaram sistematicamente as três causas de alucinações em LVLMs e propuseram uma solução universal, LURE (LVLM Hallucination Revisor), para corrigir alucinações de objetos em LVLMs reconstruindo uma descrição que contém menos alucinações alucinações) podem ser perfeitamente integrados com qualquer LVLM.

Endereço:

Endereço do código:

O projeto do LURE baseia-se numa análise estatística rigorosa dos principais fatores que produzem ilusões de objetos, incluindo coocorrência (alguns objetos aparecem frequentemente numa imagem com outros objetos), incerteza (objetos com elevada incerteza durante a descodificação LVLM) e localização de objetos (alucinações aparecem frequentemente mais tarde no texto gerado).

Os pesquisadores avaliaram o LURE em seis LVLMs de código aberto e melhoraram as métricas de avaliação da alucinação de objetos universais em 23% em comparação com os melhores métodos anteriores; Quando se trata de GPT e avaliação humana, o LURE sai consistentemente na frente.

De onde vêm as alucinações e por que elas ocorrem? **

Os pesquisadores realizaram uma análise sistemática das causas das alucinações em LVLMs, que podem ser atribuídas aos seguintes três fatores:

1. Coocorrência e pseudo-correlação entre objetos

De acordo com as estatísticas das descrições correspondentes de diferentes pares de LVLMs para as imagens no conjunto de treinamento, os pesquisadores descobriram que a maioria dos objetos na descrição de alucinações terá uma alta pontuação de coocorrência, ou seja, os objetos alucinatórios têm uma alta probabilidade de serem objetos que muitas vezes aparecem juntos.

Por exemplo, se houver grama e céu em uma imagem, é provável que os objetos alucinógenos na descrição alucinógena possam ser árvores e pássaros, já que esses objetos geralmente aparecem juntos no conjunto de treinamento.

2. Incerteza no processo de descodificação

Ao mesmo tempo, é provável que o objeto alucinatório seja um objeto que não é muito certo no processo de decodificação, e essa incerteza fará com que o modelo selecione incorretamente um objeto com uma probabilidade semelhante e menos certeza no processo de decodificação, resultando em uma ilusão na descrição.

3. Relação de localização

Ao mesmo tempo, os pesquisadores observaram um grande número de descrições de alucinações e descobriram que as alucinações apareceram na segunda metade da descrição da imagem de resposta do modelo, o que pode ser que o erro da saída anterior do modelo desencadeou uma bola de neve de alucinações subsequentes.

A fim de verificar a confiabilidade da análise acima, os pesquisadores também fizeram uma demonstração teórica detalhada da contribuição desses três fatores para a alucinação.

Introdução de instruções

Então, como reduzir essas alucinações? **

A fim de reduzir as alucinações de LVLMs, a equipe de pesquisa propôs a primeira solução multimodal de mitigação de alucinações, LURE: com base nos fatores-chave da análise acima, LURE pode integrar-se perfeitamente com qualquer LVLM através do corretor de alucinação de objeto para corrigir descrições imprecisas.

Processo de Formação

Fluxo de inferência

Experiências e Resultados

O resultado?

Em todos os seis LVLMs de código aberto, o LURE provou sua eficácia.

Reduziu significativamente as alucinações de objetos em pelo menos 23% sob várias métricas de avaliação, como CHAIR, avaliação GPT e avaliação humana.

Neste artigo, MiniGPT-4 llama7B é usado como um modelo de referência para treinar LURE, e então integrado em 6 LVLMs de código aberto, LURE pode reduzir muito a ilusão na saída do modelo em comparação com o resto da linha de base que reduz as ilusões:

Os pesquisadores também conduziram experimentos de ablação para provar que o algoritmo LURE é adequado para uma variedade de LVLMs

Não depende do desvio de desempenho do conjunto de dados em si.

Além disso, todos os três fatores analisados anteriormente mostraram melhora significativa após o LURE pós-tratamento:

Como a avaliação da alucinação não tem outras métricas de avaliação além da clássica CHAIR, os pesquisadores também analisaram se as métricas tradicionais de tradução automática são adequadas para a avaliação da alucinação:

Estudo de caso

Recursos:

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)