O DeepMind permite que modelos grandes aprendam indução e dedução, e a precisão do GPT-4 melhora em 13,7%

巴比特_ · 2023-10-14T06:07:02+00:00

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ffd367b189-dd1a6f-69ad2a) Fonte da imagem: Gerado por Unbounded AIAtualmente, grandes modelos de linguagem (LLMs) mostram capacidades impressionantes em tarefas de inferência, especialmente quando dados exemplos e etapas intermediárias. No entanto, os métodos muitas vezes dependem de conhecimento tácito em LLM, e LLM dá respostas incorretas quando o conhecimento tácito é errado ou inconsistente com a tarefa.Agora, pesquisadores do Google, do Mila Institute e de outras instituições de pesquisa exploraram em conjunto uma nova maneira de permitir que o LLM aprenda regras de inferência e proponha uma nova estrutura chamada Hypotheses-to-Theories (HtT). Esta nova abordagem não só melhora o raciocínio em várias etapas, mas também tem as vantagens da interpretabilidade, transferibilidade e assim por diante.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9d63fa595d-dd1a6f-69ad2a) Endereço em papel:Experimentos sobre problemas de raciocínio numérico e relacional mostram que a HtT melhora os métodos existentes com 11-27% mais precisão. As regras aprendidas também podem ser transferidas para diferentes modelos ou diferentes formas do mesmo problema. ## **Introdução ao método** Em resumo, a estrutura HtT consiste em duas fases – uma fase indutiva e uma fase dedutiva, semelhante ao treinamento e teste em aprendizado de máquina tradicional.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3607e1160d-dd1a6f-69ad2a) Na fase de indução, o LLM é primeiro solicitado a gerar e validar regras para um conjunto de exemplos de treinamento. O estudo usa o CoT para declarar regras e derivar respostas, julgar a frequência e a precisão das regras e coletar regras que muitas vezes aparecem e levam a respostas corretas para formar uma base de regras.Com uma boa base de regras, o próximo passo é estudar como aplicar essas regras para resolver o problema. Para este fim, na fase dedutiva, o estudo adiciona uma base de regras e pede ao LLM para recuperar regras da base de regras para dedução, transformando inferência implícita em inferência explícita.No entanto, o estudo descobriu que mesmo LLMs muito poderosos, como o GPT-4, lutam para recuperar as regras certas em cada etapa. Para este fim, o estudo desenvolveu um truque de marcação XML para melhorar as capacidades de recuperação de contexto do LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4a898320f9-dd1a6f-69ad2a) **Resultados Experimentais**Para avaliar a HtT, o estudo foi comparado com dois problemas de inferência em várias etapas. Os resultados experimentais mostram que a HtT melhora o método de menor amostragem. Os autores também conduziram extensos estudos de ablação para fornecer uma compreensão mais abrangente da HtT.Avaliam novas abordagens para problemas de raciocínio numérico e relacional. No raciocínio numérico, observaram uma melhoria de 21,0% na precisão com o GPT-4. Na inferência relacional, o GPT-4 melhorou a precisão em 13,7%, enquanto o GPT-3,5 se beneficiou ainda mais, dobrando o desempenho. O ganho de desempenho advém principalmente da redução da ilusão de regularidade.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-71e15afe44-dd1a6f-69ad2a) Especificamente, a Tabela 1 abaixo mostra os resultados nos conjuntos de dados aritméticos de base-16, base-11 e base-9. De todos os sistemas básicos, o CoT 0-shot tem o pior desempenho em ambos os LLMs.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-19e04741d8-dd1a6f-69ad2a) A TABELA 2 APRESENTA OS RESULTADOS DA COMPARAÇÃO DE DIFERENTES MÉTODOS NO CLUTRR. Pode-se observar que o CoT 0-shot tem o pior desempenho em GPT3.5 e GPT4. Para o método de dicas de poucas fotos, o desempenho de CoT e LtM é semelhante. Em termos de precisão média, o HtT supera consistentemente o método cue de ambos os modelos em 11,1-27,2%. Vale a pena notar que GPT3.5 não é ruim em recuperar regras CLUTRR e se beneficia mais de HtT do que GPT4, provavelmente porque há menos regras em CLUTRR do que em aritmética.Vale a pena mencionar que, usando as regras do GPT4, o desempenho do CoT no GPT3.5 melhora em 27,2%, o que é mais do que o dobro do desempenho do CoT e próximo do desempenho do CoT no GPT4. Portanto, os autores acreditam que a HtT pode servir como uma nova forma de destilação de conhecimento de LLM forte para LLM fraco.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1b148a426b-dd1a6f-69ad2a) A Tabela 3 mostra que o HtT melhora significativamente o desempenho do GPT-4 (versão texto). Para GPT3.5, essa melhoria não é significativa, pois muitas vezes produz erros além da ilusão de regras ao processar a entrada de texto.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-34c583517d-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7cb28b6cd4-dd1a6f-69ad2a)

巴比特_

2023-10-14 06:07:02

Fonte da imagem: Gerado por Unbounded AI

Atualmente, grandes modelos de linguagem (LLMs) mostram capacidades impressionantes em tarefas de inferência, especialmente quando dados exemplos e etapas intermediárias. No entanto, os métodos muitas vezes dependem de conhecimento tácito em LLM, e LLM dá respostas incorretas quando o conhecimento tácito é errado ou inconsistente com a tarefa.

Agora, pesquisadores do Google, do Mila Institute e de outras instituições de pesquisa exploraram em conjunto uma nova maneira de permitir que o LLM aprenda regras de inferência e proponha uma nova estrutura chamada Hypotheses-to-Theories (HtT). Esta nova abordagem não só melhora o raciocínio em várias etapas, mas também tem as vantagens da interpretabilidade, transferibilidade e assim por diante.

Endereço em papel:

Experimentos sobre problemas de raciocínio numérico e relacional mostram que a HtT melhora os métodos existentes com 11-27% mais precisão. As regras aprendidas também podem ser transferidas para diferentes modelos ou diferentes formas do mesmo problema.

Introdução ao método

Em resumo, a estrutura HtT consiste em duas fases – uma fase indutiva e uma fase dedutiva, semelhante ao treinamento e teste em aprendizado de máquina tradicional.

Na fase de indução, o LLM é primeiro solicitado a gerar e validar regras para um conjunto de exemplos de treinamento. O estudo usa o CoT para declarar regras e derivar respostas, julgar a frequência e a precisão das regras e coletar regras que muitas vezes aparecem e levam a respostas corretas para formar uma base de regras.

Com uma boa base de regras, o próximo passo é estudar como aplicar essas regras para resolver o problema. Para este fim, na fase dedutiva, o estudo adiciona uma base de regras e pede ao LLM para recuperar regras da base de regras para dedução, transformando inferência implícita em inferência explícita.

No entanto, o estudo descobriu que mesmo LLMs muito poderosos, como o GPT-4, lutam para recuperar as regras certas em cada etapa. Para este fim, o estudo desenvolveu um truque de marcação XML para melhorar as capacidades de recuperação de contexto do LLM.

Resultados Experimentais

Para avaliar a HtT, o estudo foi comparado com dois problemas de inferência em várias etapas. Os resultados experimentais mostram que a HtT melhora o método de menor amostragem. Os autores também conduziram extensos estudos de ablação para fornecer uma compreensão mais abrangente da HtT.

Avaliam novas abordagens para problemas de raciocínio numérico e relacional. No raciocínio numérico, observaram uma melhoria de 21,0% na precisão com o GPT-4. Na inferência relacional, o GPT-4 melhorou a precisão em 13,7%, enquanto o GPT-3,5 se beneficiou ainda mais, dobrando o desempenho. O ganho de desempenho advém principalmente da redução da ilusão de regularidade.

Especificamente, a Tabela 1 abaixo mostra os resultados nos conjuntos de dados aritméticos de base-16, base-11 e base-9. De todos os sistemas básicos, o CoT 0-shot tem o pior desempenho em ambos os LLMs.

A TABELA 2 APRESENTA OS RESULTADOS DA COMPARAÇÃO DE DIFERENTES MÉTODOS NO CLUTRR. Pode-se observar que o CoT 0-shot tem o pior desempenho em GPT3.5 e GPT4. Para o método de dicas de poucas fotos, o desempenho de CoT e LtM é semelhante. Em termos de precisão média, o HtT supera consistentemente o método cue de ambos os modelos em 11,1-27,2%. Vale a pena notar que GPT3.5 não é ruim em recuperar regras CLUTRR e se beneficia mais de HtT do que GPT4, provavelmente porque há menos regras em CLUTRR do que em aritmética.

Vale a pena mencionar que, usando as regras do GPT4, o desempenho do CoT no GPT3.5 melhora em 27,2%, o que é mais do que o dobro do desempenho do CoT e próximo do desempenho do CoT no GPT4. Portanto, os autores acreditam que a HtT pode servir como uma nova forma de destilação de conhecimento de LLM forte para LLM fraco.

A Tabela 3 mostra que o HtT melhora significativamente o desempenho do GPT-4 (versão texto). Para GPT3.5, essa melhoria não é significativa, pois muitas vezes produz erros além da ilusão de regras ao processar a entrada de texto.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

1 Curtidas

Recompensa
1
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
Gate 2025 Q2 Report Released
15k Popularidade
CPI Data Incoming
45k Popularidade
Altcoin Season Update
2k Popularidade
4Gate Derivatives Volume Hits New High
14k Popularidade
5Join Gate VIP to Win MacBook
30k Popularidade
6MicroStrategy Buys More Bitcoin
810 Popularidade
7BTC Hits New High
109k Popularidade
8My Gate Moments
26k Popularidade
9VIP Exclusive Airdrop Carnival
26k Popularidade
10Fed June Meeting Minutes
7k Popularidade

Marcar

sitemap