Selon un rapport de Qubit publié le 2 janvier, le laboratoire de l’Arche de Noé de Huawei et d’autres ont lancé conjointement une nouvelle architecture de modèle de langage de grande taille : Pangu-π. En améliorant la non-linéarité, l’architecture est améliorée par rapport au transformateur traditionnel, ce qui peut réduire considérablement le problème de l’effondrement des caractéristiques et rendre la sortie du modèle plus expressive. Il est rapporté que dans le cas d’un entraînement avec les mêmes données, Pangu-π (7B) surpasse LLaMA 2 en multitâche et atteint une accélération d’inférence de 10 %. SOTA jusqu’à l’échelle 1B. Dans le même temps, sur la base de cette architecture, Huawei a également affiné un grand modèle financier et juridique appelé « Yunshan ». Les travaux sont dirigés par l’IA Dacheng Tao.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Selon un rapport de Qubit publié le 2 janvier, le laboratoire de l’Arche de Noé de Huawei et d’autres ont lancé conjointement une nouvelle architecture de modèle de langage de grande taille : Pangu-π. En améliorant la non-linéarité, l’architecture est améliorée par rapport au transformateur traditionnel, ce qui peut réduire considérablement le problème de l’effondrement des caractéristiques et rendre la sortie du modèle plus expressive. Il est rapporté que dans le cas d’un entraînement avec les mêmes données, Pangu-π (7B) surpasse LLaMA 2 en multitâche et atteint une accélération d’inférence de 10 %. SOTA jusqu’à l’échelle 1B. Dans le même temps, sur la base de cette architecture, Huawei a également affiné un grand modèle financier et juridique appelé « Yunshan ». Les travaux sont dirigés par l’IA Dacheng Tao.