Selon un rapport de la maison du webmaster du 26 juillet, des chercheurs de l'Université de Stanford ont développé un nouvel optimiseur appelé Sophia, qui peut réduire de moitié le temps de pré-formation des modèles de langage. Par rapport à l'optimiseur Adam, Sophia peut résoudre plus rapidement le problème du modèle de langage. Sophia utilise une estimation légère de la matrice Hessienne diagonale comme condition préalable pour l'optimiseur de second ordre. Après la mise à jour, un découpage élément par élément est effectué en prenant la moyenne du gradient et en divisant par la moyenne de la Hessienne estimée. De plus, Sophia peut également s'adapter à de grands changements de paramètres dans les tâches de modélisation du langage.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Selon un rapport de la maison du webmaster du 26 juillet, des chercheurs de l'Université de Stanford ont développé un nouvel optimiseur appelé Sophia, qui peut réduire de moitié le temps de pré-formation des modèles de langage. Par rapport à l'optimiseur Adam, Sophia peut résoudre plus rapidement le problème du modèle de langage. Sophia utilise une estimation légère de la matrice Hessienne diagonale comme condition préalable pour l'optimiseur de second ordre. Après la mise à jour, un découpage élément par élément est effectué en prenant la moyenne du gradient et en divisant par la moyenne de la Hessienne estimée. De plus, Sophia peut également s'adapter à de grands changements de paramètres dans les tâches de modélisation du langage.