Qubit raporuna göre, Microsoft Asya Araştırma Enstitüsü'nden (MSRA) bilim adamları, alan olarak kabul edilen "Retentive Network: A Successor to Transformer for Large Language Models" makalesinde yeni bir büyük model mimarisi Retentive Network (RetNet) önerdi. büyük modeller Transformer'ın halefi. Deneysel veriler, dil modelleme görevlerinde şunları göstermektedir: RetNet, Transformer ile karşılaştırılabilir bir şaşkınlık elde edebilir, muhakeme hızı 8,4 kattır, bellek kullanımı %70 oranında azaltılmıştır ve iyi bir ölçeklenebilirliğe sahiptir. Model boyutu belirli bir ölçekten daha büyük olduğunda, RetNet, Transformer'dan daha iyi performans gösterecektir.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 1
  • Share
Comment
0/400
Rico@jwvip
· 2024-05-06 08:10
BUIDL🧐 tutun
View OriginalReply0
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)