Согласно отчету о кубитах, ученые из Microsoft Asia Research Institute (MSRA) предложили новую архитектуру большой модели Retentive Network (RetNet) в статье «Retentive Network: преемник преобразователя для больших языковых моделей», которая считается областью исследования. Преемник трансформера больших моделей. Экспериментальные данные показывают, что на задачах языкового моделирования: RetNet может достичь недоумения, сравнимого с Transformer, скорость рассуждения в 8,4 раза, использование памяти снижено на 70%, и он имеет хорошую масштабируемость. И когда размер модели больше определенного масштаба, RetNet будет работать лучше, чем Transformer.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 1
  • Поделиться
комментарий
0/400
Rico@jwvip
· 2024-05-06 08:10
Сохранить BUIDL🧐
Посмотреть ОригиналОтветить0
  • Закрепить