2023-07-18 07:55:43

Согласно отчету о кубитах, ученые из Microsoft Asia Research Institute (MSRA) предложили новую архитектуру большой модели Retentive Network (RetNet) в статье «Retentive Network: преемник преобразователя для больших языковых моделей», которая считается областью исследования. Преемник трансформера больших моделей. Экспериментальные данные показывают, что на задачах языкового моделирования: RetNet может достичь недоумения, сравнимого с Transformer, скорость рассуждения в 8,4 раза, использование памяти снижено на 70%, и он имеет хорошую масштабируемость. И когда размер модели больше определенного масштаба, RetNet будет работать лучше, чем Transformer.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
1
Поделиться

комментарий

0/400

Rico@jw

· 2024-05-06 08:10

Сохранить BUIDL🧐

Посмотреть ОригиналОтветить0

Тема
1/3
1CandyDrop Airdrop Event 6.0
59k Популярность
2White House Crypto Report
56k Популярность
3Join Alpha RION Airdrop to Earn $40
43k Популярность
4Fed Holds Rates Decision
9k Популярность
5July Spark Program TOP 10 Creators Announced
3k Популярность

Закрепить

Карта сайта