De acordo com um relatório da casa do webmaster em 26 de julho, pesquisadores da Universidade de Stanford desenvolveram um novo otimizador chamado Sophia, que pode reduzir pela metade o tempo de pré-treinamento dos modelos de linguagem. Comparado com o otimizador Adam, Sophia pode resolver o problema do modelo de linguagem mais rapidamente. Sophia usa uma estimativa leve da matriz hessiana diagonal como pré-condição para o otimizador de segunda ordem. Após a atualização, o recorte elemento a elemento é realizado tomando a média do gradiente e dividindo pela média do Hessian estimado. Além disso, Sophia também pode se adaptar a grandes mudanças de parâmetros em tarefas de modelagem de linguagem.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
De acordo com um relatório da casa do webmaster em 26 de julho, pesquisadores da Universidade de Stanford desenvolveram um novo otimizador chamado Sophia, que pode reduzir pela metade o tempo de pré-treinamento dos modelos de linguagem. Comparado com o otimizador Adam, Sophia pode resolver o problema do modelo de linguagem mais rapidamente. Sophia usa uma estimativa leve da matriz hessiana diagonal como pré-condição para o otimizador de segunda ordem. Após a atualização, o recorte elemento a elemento é realizado tomando a média do gradiente e dividindo pela média do Hessian estimado. Além disso, Sophia também pode se adaptar a grandes mudanças de parâmetros em tarefas de modelagem de linguagem.