وفقًا لتقرير qubit ، اقترح باحثون من معهد Microsoft Asia Research Institute (MSRA) نموذجًا جديدًا لهندسة معمارية كبيرة شبكية Retentive Network (RetNet) في مقالة بعنوان "Retentive Network: A Successor to Transformer for Large Language Models" ، والتي تعتبر مجالًا لـ الموديلات الكبيرة خليفة المحولات. تُظهر البيانات التجريبية أنه في مهام نمذجة اللغة: يمكن أن تحقق RetNet ارتباكًا مقارنة بالمحول ، وسرعة التفكير 8.4 مرة ، ويتم تقليل استخدام الذاكرة بنسبة 70٪ ، ولديها قابلية جيدة للتوسع. وعندما يكون حجم النموذج أكبر من مقياس معين ، فإن RetNet ستؤدي بشكل أفضل من Transformer.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 1
  • مشاركة
تعليق
0/400
Rico@jwvip
· 2024-05-06 08:10
حافظ على BUIDL🧐
شاهد النسخة الأصليةرد0
  • تثبيت