Согласно отчету о кубитах, ученые из Microsoft Asia Research Institute (MSRA) предложили новую архитектуру большой модели Retentive Network (RetNet) в статье «Retentive Network: преемник преобразователя для больших языковых моделей», которая считается областью исследования. Преемник трансформера больших моделей. Экспериментальные данные показывают, что на задачах языкового моделирования: RetNet может достичь недоумения, сравнимого с Transformer, скорость рассуждения в 8,4 раза, использование памяти снижено на 70%, и он имеет хорошую масштабируемость. И когда размер модели больше определенного масштаба, RetNet будет работать лучше, чем Transformer.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Согласно отчету о кубитах, ученые из Microsoft Asia Research Institute (MSRA) предложили новую архитектуру большой модели Retentive Network (RetNet) в статье «Retentive Network: преемник преобразователя для больших языковых моделей», которая считается областью исследования. Преемник трансформера больших моделей. Экспериментальные данные показывают, что на задачах языкового моделирования: RetNet может достичь недоумения, сравнимого с Transformer, скорость рассуждения в 8,4 раза, использование памяти снижено на 70%, и он имеет хорошую масштабируемость. И когда размер модели больше определенного масштаба, RetNet будет работать лучше, чем Transformer.