量子ビットのレポートによると、マイクロソフト アジア研究所 (MSRA) の学者らは、論文「Retentive Network: A Successor to Transformer for Large Language Models」の中で新しい大規模モデル アーキテクチャ Retentive Network (RetNet) を提案しました。トランスフォーマーの後継大型モデル。実験データによると、言語モデリング タスクにおいて、RetNet は Transformer に匹敵する複雑性を達成でき、推論速度が 8.4 倍、メモリ使用量が 70% 削減され、優れたスケーラビリティを備えています。また、モデルのサイズが一定のスケールより大きい場合、RetNet は Transformer よりも優れたパフォーマンスを発揮します。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 1
  • 共有
コメント
0/400
Rico@jwvip
· 2024-05-06 08:10
BUIDL🧐を保持
原文表示返信0
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)