Según el informe de qubit, los académicos del Microsoft Asia Research Institute (MSRA) propusieron una nueva arquitectura de modelo grande Red retentiva (RetNet) en el documento "Retentive Network: A Successor to Transformer for Large Language Models", que se considera el campo de Modelos grandes Sucesor de Transformer. Los datos experimentales muestran que en las tareas de modelado de lenguaje: RetNet puede lograr una perplejidad comparable a la de Transformer, la velocidad de razonamiento es 8,4 veces mayor, el uso de memoria se reduce en un 70 % y tiene una buena escalabilidad. Y cuando el tamaño del modelo es mayor que cierta escala, RetNet funcionará mejor que Transformer.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 1
  • Compartir
Comentar
0/400
Rico@jwvip
· 2024-05-06 08:10
Mantener CONSTRUYENDO🧐
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)