Відповідно до звіту qubit, вчені з Азійського дослідницького інституту Microsoft (MSRA) запропонували нову архітектуру великої моделі Retentive Network (RetNet) у статті «Retentive Network: A Successor to Transformer for Large Language Models», яка розглядається як область великі моделі наступник трансформера. Експериментальні дані показують, що в задачах мовного моделювання: RetNet може досягати складності, порівнянної з Transformer, швидкість міркування становить 8,4 рази, використання пам’яті зменшено на 70%, і він має хорошу масштабованість. І коли розмір моделі перевищує певний масштаб, RetNet працюватиме краще, ніж Transformer.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 1
  • Поділіться
Прокоментувати
0/400
Rico@jwvip
· 2024-05-06 08:10
Тримайте BUIDL🧐
Переглянути оригіналвідповісти на0
  • Закріпити