Selon le rapport qubit, des chercheurs du Microsoft Asia Research Institute (MSRA) ont proposé une nouvelle architecture de grand modèle Retentive Network (RetNet) dans l'article "Retentive Network: A Successor to Transformer for Large Language Models", qui est considéré comme le domaine de grands modèles Successeur de Transformer. Les données expérimentales montrent que sur les tâches de modélisation du langage : RetNet peut atteindre une perplexité comparable à Transformer, la vitesse de raisonnement est de 8,4 fois, l'utilisation de la mémoire est réduite de 70 % et il a une bonne évolutivité. Et lorsque la taille du modèle est supérieure à une certaine échelle, RetNet fonctionnera mieux que Transformer.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Selon le rapport qubit, des chercheurs du Microsoft Asia Research Institute (MSRA) ont proposé une nouvelle architecture de grand modèle Retentive Network (RetNet) dans l'article "Retentive Network: A Successor to Transformer for Large Language Models", qui est considéré comme le domaine de grands modèles Successeur de Transformer. Les données expérimentales montrent que sur les tâches de modélisation du langage : RetNet peut atteindre une perplexité comparable à Transformer, la vitesse de raisonnement est de 8,4 fois, l'utilisation de la mémoire est réduite de 70 % et il a une bonne évolutivité. Et lorsque la taille du modèle est supérieure à une certaine échelle, RetNet fonctionnera mieux que Transformer.