Відповідно до звіту qubit, вчені з Азійського дослідницького інституту Microsoft (MSRA) запропонували нову архітектуру великої моделі Retentive Network (RetNet) у статті «Retentive Network: A Successor to Transformer for Large Language Models», яка розглядається як область великі моделі наступник трансформера. Експериментальні дані показують, що в задачах мовного моделювання: RetNet може досягати складності, порівнянної з Transformer, швидкість міркування становить 8,4 рази, використання пам’яті зменшено на 70%, і він має хорошу масштабованість. І коли розмір моделі перевищує певний масштаб, RetNet працюватиме краще, ніж Transformer.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Відповідно до звіту qubit, вчені з Азійського дослідницького інституту Microsoft (MSRA) запропонували нову архітектуру великої моделі Retentive Network (RetNet) у статті «Retentive Network: A Successor to Transformer for Large Language Models», яка розглядається як область великі моделі наступник трансформера. Експериментальні дані показують, що в задачах мовного моделювання: RetNet може досягати складності, порівнянної з Transformer, швидкість міркування становить 8,4 рази, використання пам’яті зменшено на 70%, і він має хорошу масштабованість. І коли розмір моделі перевищує певний масштаб, RetNet працюватиме краще, ніж Transformer.