De acordo com um relatório da casa do webmaster em 26 de julho, pesquisadores da Universidade de Stanford desenvolveram um novo otimizador chamado Sophia, que pode reduzir pela metade o tempo de pré-treinamento dos modelos de linguagem. Comparado com o otimizador Adam, Sophia pode resolver o problema do modelo de linguagem mais rapidamente. Sophia usa uma estimativa leve da matriz hessiana diagonal como pré-condição para o otimizador de segunda ordem. Após a atualização, o recorte elemento a elemento é realizado tomando a média do gradiente e dividindo pela média do Hessian estimado. Além disso, Sophia também pode se adaptar a grandes mudanças de parâmetros em tarefas de modelagem de linguagem.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
De acordo com um relatório da casa do webmaster em 26 de julho, pesquisadores da Universidade de Stanford desenvolveram um novo otimizador chamado Sophia, que pode reduzir pela metade o tempo de pré-treinamento dos modelos de linguagem. Comparado com o otimizador Adam, Sophia pode resolver o problema do modelo de linguagem mais rapidamente. Sophia usa uma estimativa leve da matriz hessiana diagonal como pré-condição para o otimizador de segunda ordem. Após a atualização, o recorte elemento a elemento é realizado tomando a média do gradiente e dividindo pela média do Hessian estimado. Além disso, Sophia também pode se adaptar a grandes mudanças de parâmetros em tarefas de modelagem de linguagem.