Qubit raporuna göre, Microsoft Asya Araştırma Enstitüsü'nden (MSRA) bilim adamları, alan olarak kabul edilen "Retentive Network: A Successor to Transformer for Large Language Models" makalesinde yeni bir büyük model mimarisi Retentive Network (RetNet) önerdi. büyük modeller Transformer'ın halefi. Deneysel veriler, dil modelleme görevlerinde şunları göstermektedir: RetNet, Transformer ile karşılaştırılabilir bir şaşkınlık elde edebilir, muhakeme hızı 8,4 kattır, bellek kullanımı %70 oranında azaltılmıştır ve iyi bir ölçeklenebilirliğe sahiptir. Model boyutu belirli bir ölçekten daha büyük olduğunda, RetNet, Transformer'dan daha iyi performans gösterecektir.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Qubit raporuna göre, Microsoft Asya Araştırma Enstitüsü'nden (MSRA) bilim adamları, alan olarak kabul edilen "Retentive Network: A Successor to Transformer for Large Language Models" makalesinde yeni bir büyük model mimarisi Retentive Network (RetNet) önerdi. büyük modeller Transformer'ın halefi. Deneysel veriler, dil modelleme görevlerinde şunları göstermektedir: RetNet, Transformer ile karşılaştırılabilir bir şaşkınlık elde edebilir, muhakeme hızı 8,4 kattır, bellek kullanımı %70 oranında azaltılmıştır ve iyi bir ölçeklenebilirliğe sahiptir. Model boyutu belirli bir ölçekten daha büyük olduğunda, RetNet, Transformer'dan daha iyi performans gösterecektir.