量子ビットのレポートによると、マイクロソフト アジア研究所 (MSRA) の学者らは、論文「Retentive Network: A Successor to Transformer for Large Language Models」の中で新しい大規模モデル アーキテクチャ Retentive Network (RetNet) を提案しました。トランスフォーマーの後継大型モデル。実験データによると、言語モデリング タスクにおいて、RetNet は Transformer に匹敵する複雑性を達成でき、推論速度が 8.4 倍、メモリ使用量が 70% 削減され、優れたスケーラビリティを備えています。また、モデルのサイズが一定のスケールより大きい場合、RetNet は Transformer よりも優れたパフォーマンスを発揮します。
量子ビットのレポートによると、マイクロソフト アジア研究所 (MSRA) の学者らは、論文「Retentive Network: A Successor to Transformer for Large Language Models」の中で新しい大規模モデル アーキテクチャ Retentive Network (RetNet) を提案しました。トランスフォーマーの後継大型モデル。実験データによると、言語モデリング タスクにおいて、RetNet は Transformer に匹敵する複雑性を達成でき、推論速度が 8.4 倍、メモリ使用量が 70% 削減され、優れたスケーラビリティを備えています。また、モデルのサイズが一定のスケールより大きい場合、RetNet は Transformer よりも優れたパフォーマンスを発揮します。