Atualmente, grandes modelos de linguagem (LLMs) mostram capacidades impressionantes em tarefas de inferência, especialmente quando dados exemplos e etapas intermediárias. No entanto, os métodos muitas vezes dependem de conhecimento tácito em LLM, e LLM dá respostas incorretas quando o conhecimento tácito é errado ou inconsistente com a tarefa.
Agora, pesquisadores do Google, do Mila Institute e de outras instituições de pesquisa exploraram em conjunto uma nova maneira de permitir que o LLM aprenda regras de inferência e proponha uma nova estrutura chamada Hypotheses-to-Theories (HtT). Esta nova abordagem não só melhora o raciocínio em várias etapas, mas também tem as vantagens da interpretabilidade, transferibilidade e assim por diante.
Endereço em papel:
Experimentos sobre problemas de raciocínio numérico e relacional mostram que a HtT melhora os métodos existentes com 11-27% mais precisão. As regras aprendidas também podem ser transferidas para diferentes modelos ou diferentes formas do mesmo problema.
Introdução ao método
Em resumo, a estrutura HtT consiste em duas fases – uma fase indutiva e uma fase dedutiva, semelhante ao treinamento e teste em aprendizado de máquina tradicional.
Na fase de indução, o LLM é primeiro solicitado a gerar e validar regras para um conjunto de exemplos de treinamento. O estudo usa o CoT para declarar regras e derivar respostas, julgar a frequência e a precisão das regras e coletar regras que muitas vezes aparecem e levam a respostas corretas para formar uma base de regras.
Com uma boa base de regras, o próximo passo é estudar como aplicar essas regras para resolver o problema. Para este fim, na fase dedutiva, o estudo adiciona uma base de regras e pede ao LLM para recuperar regras da base de regras para dedução, transformando inferência implícita em inferência explícita.
No entanto, o estudo descobriu que mesmo LLMs muito poderosos, como o GPT-4, lutam para recuperar as regras certas em cada etapa. Para este fim, o estudo desenvolveu um truque de marcação XML para melhorar as capacidades de recuperação de contexto do LLM.
Resultados Experimentais
Para avaliar a HtT, o estudo foi comparado com dois problemas de inferência em várias etapas. Os resultados experimentais mostram que a HtT melhora o método de menor amostragem. Os autores também conduziram extensos estudos de ablação para fornecer uma compreensão mais abrangente da HtT.
Avaliam novas abordagens para problemas de raciocínio numérico e relacional. No raciocínio numérico, observaram uma melhoria de 21,0% na precisão com o GPT-4. Na inferência relacional, o GPT-4 melhorou a precisão em 13,7%, enquanto o GPT-3,5 se beneficiou ainda mais, dobrando o desempenho. O ganho de desempenho advém principalmente da redução da ilusão de regularidade.
Especificamente, a Tabela 1 abaixo mostra os resultados nos conjuntos de dados aritméticos de base-16, base-11 e base-9. De todos os sistemas básicos, o CoT 0-shot tem o pior desempenho em ambos os LLMs.
A TABELA 2 APRESENTA OS RESULTADOS DA COMPARAÇÃO DE DIFERENTES MÉTODOS NO CLUTRR. Pode-se observar que o CoT 0-shot tem o pior desempenho em GPT3.5 e GPT4. Para o método de dicas de poucas fotos, o desempenho de CoT e LtM é semelhante. Em termos de precisão média, o HtT supera consistentemente o método cue de ambos os modelos em 11,1-27,2%. Vale a pena notar que GPT3.5 não é ruim em recuperar regras CLUTRR e se beneficia mais de HtT do que GPT4, provavelmente porque há menos regras em CLUTRR do que em aritmética.
Vale a pena mencionar que, usando as regras do GPT4, o desempenho do CoT no GPT3.5 melhora em 27,2%, o que é mais do que o dobro do desempenho do CoT e próximo do desempenho do CoT no GPT4. Portanto, os autores acreditam que a HtT pode servir como uma nova forma de destilação de conhecimento de LLM forte para LLM fraco.
A Tabela 3 mostra que o HtT melhora significativamente o desempenho do GPT-4 (versão texto). Para GPT3.5, essa melhoria não é significativa, pois muitas vezes produz erros além da ilusão de regras ao processar a entrada de texto.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
O DeepMind permite que modelos grandes aprendam indução e dedução, e a precisão do GPT-4 melhora em 13,7%
Atualmente, grandes modelos de linguagem (LLMs) mostram capacidades impressionantes em tarefas de inferência, especialmente quando dados exemplos e etapas intermediárias. No entanto, os métodos muitas vezes dependem de conhecimento tácito em LLM, e LLM dá respostas incorretas quando o conhecimento tácito é errado ou inconsistente com a tarefa.
Agora, pesquisadores do Google, do Mila Institute e de outras instituições de pesquisa exploraram em conjunto uma nova maneira de permitir que o LLM aprenda regras de inferência e proponha uma nova estrutura chamada Hypotheses-to-Theories (HtT). Esta nova abordagem não só melhora o raciocínio em várias etapas, mas também tem as vantagens da interpretabilidade, transferibilidade e assim por diante.
Experimentos sobre problemas de raciocínio numérico e relacional mostram que a HtT melhora os métodos existentes com 11-27% mais precisão. As regras aprendidas também podem ser transferidas para diferentes modelos ou diferentes formas do mesmo problema.
Introdução ao método
Em resumo, a estrutura HtT consiste em duas fases – uma fase indutiva e uma fase dedutiva, semelhante ao treinamento e teste em aprendizado de máquina tradicional.
Com uma boa base de regras, o próximo passo é estudar como aplicar essas regras para resolver o problema. Para este fim, na fase dedutiva, o estudo adiciona uma base de regras e pede ao LLM para recuperar regras da base de regras para dedução, transformando inferência implícita em inferência explícita.
No entanto, o estudo descobriu que mesmo LLMs muito poderosos, como o GPT-4, lutam para recuperar as regras certas em cada etapa. Para este fim, o estudo desenvolveu um truque de marcação XML para melhorar as capacidades de recuperação de contexto do LLM.
Para avaliar a HtT, o estudo foi comparado com dois problemas de inferência em várias etapas. Os resultados experimentais mostram que a HtT melhora o método de menor amostragem. Os autores também conduziram extensos estudos de ablação para fornecer uma compreensão mais abrangente da HtT.
Avaliam novas abordagens para problemas de raciocínio numérico e relacional. No raciocínio numérico, observaram uma melhoria de 21,0% na precisão com o GPT-4. Na inferência relacional, o GPT-4 melhorou a precisão em 13,7%, enquanto o GPT-3,5 se beneficiou ainda mais, dobrando o desempenho. O ganho de desempenho advém principalmente da redução da ilusão de regularidade.
Vale a pena mencionar que, usando as regras do GPT4, o desempenho do CoT no GPT3.5 melhora em 27,2%, o que é mais do que o dobro do desempenho do CoT e próximo do desempenho do CoT no GPT4. Portanto, os autores acreditam que a HtT pode servir como uma nova forma de destilação de conhecimento de LLM forte para LLM fraco.