O DeepMind permite que modelos grandes aprendam indução e dedução, e a precisão do GPT-4 melhora em 13,7%

Fonte da imagem: Gerado por Unbounded AI

Atualmente, grandes modelos de linguagem (LLMs) mostram capacidades impressionantes em tarefas de inferência, especialmente quando dados exemplos e etapas intermediárias. No entanto, os métodos muitas vezes dependem de conhecimento tácito em LLM, e LLM dá respostas incorretas quando o conhecimento tácito é errado ou inconsistente com a tarefa.

Agora, pesquisadores do Google, do Mila Institute e de outras instituições de pesquisa exploraram em conjunto uma nova maneira de permitir que o LLM aprenda regras de inferência e proponha uma nova estrutura chamada Hypotheses-to-Theories (HtT). Esta nova abordagem não só melhora o raciocínio em várias etapas, mas também tem as vantagens da interpretabilidade, transferibilidade e assim por diante.

Endereço em papel:

Experimentos sobre problemas de raciocínio numérico e relacional mostram que a HtT melhora os métodos existentes com 11-27% mais precisão. As regras aprendidas também podem ser transferidas para diferentes modelos ou diferentes formas do mesmo problema.

Introdução ao método

Em resumo, a estrutura HtT consiste em duas fases – uma fase indutiva e uma fase dedutiva, semelhante ao treinamento e teste em aprendizado de máquina tradicional.

Na fase de indução, o LLM é primeiro solicitado a gerar e validar regras para um conjunto de exemplos de treinamento. O estudo usa o CoT para declarar regras e derivar respostas, julgar a frequência e a precisão das regras e coletar regras que muitas vezes aparecem e levam a respostas corretas para formar uma base de regras.

Com uma boa base de regras, o próximo passo é estudar como aplicar essas regras para resolver o problema. Para este fim, na fase dedutiva, o estudo adiciona uma base de regras e pede ao LLM para recuperar regras da base de regras para dedução, transformando inferência implícita em inferência explícita.

No entanto, o estudo descobriu que mesmo LLMs muito poderosos, como o GPT-4, lutam para recuperar as regras certas em cada etapa. Para este fim, o estudo desenvolveu um truque de marcação XML para melhorar as capacidades de recuperação de contexto do LLM.

Resultados Experimentais

Para avaliar a HtT, o estudo foi comparado com dois problemas de inferência em várias etapas. Os resultados experimentais mostram que a HtT melhora o método de menor amostragem. Os autores também conduziram extensos estudos de ablação para fornecer uma compreensão mais abrangente da HtT.

Avaliam novas abordagens para problemas de raciocínio numérico e relacional. No raciocínio numérico, observaram uma melhoria de 21,0% na precisão com o GPT-4. Na inferência relacional, o GPT-4 melhorou a precisão em 13,7%, enquanto o GPT-3,5 se beneficiou ainda mais, dobrando o desempenho. O ganho de desempenho advém principalmente da redução da ilusão de regularidade.

Especificamente, a Tabela 1 abaixo mostra os resultados nos conjuntos de dados aritméticos de base-16, base-11 e base-9. De todos os sistemas básicos, o CoT 0-shot tem o pior desempenho em ambos os LLMs.

A TABELA 2 APRESENTA OS RESULTADOS DA COMPARAÇÃO DE DIFERENTES MÉTODOS NO CLUTRR. Pode-se observar que o CoT 0-shot tem o pior desempenho em GPT3.5 e GPT4. Para o método de dicas de poucas fotos, o desempenho de CoT e LtM é semelhante. Em termos de precisão média, o HtT supera consistentemente o método cue de ambos os modelos em 11,1-27,2%. Vale a pena notar que GPT3.5 não é ruim em recuperar regras CLUTRR e se beneficia mais de HtT do que GPT4, provavelmente porque há menos regras em CLUTRR do que em aritmética.

Vale a pena mencionar que, usando as regras do GPT4, o desempenho do CoT no GPT3.5 melhora em 27,2%, o que é mais do que o dobro do desempenho do CoT e próximo do desempenho do CoT no GPT4. Portanto, os autores acreditam que a HtT pode servir como uma nova forma de destilação de conhecimento de LLM forte para LLM fraco.

A Tabela 3 mostra que o HtT melhora significativamente o desempenho do GPT-4 (versão texto). Para GPT3.5, essa melhoria não é significativa, pois muitas vezes produz erros além da ilusão de regras ao processar a entrada de texto.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)