الآن ، أصبح GPT-4 الخاص بـ OpenAI "مفتوح المصدر" من قبل المطلعين على الصناعة مرة أخرى!
وتشمل هذه المعلمات والمعلومات المحددة للغاية مثل بنية GPT-4 ، والبنية التحتية للتدريب والاستدلال ، وحجم المعلمات ، ومجموعة بيانات التدريب ، ورقم الرمز المميز ، والتكلفة ، ومزيج الخبراء (MoE).
على وجه الخصوص ، وراء المشاريع المختلفة ، كيف تزن OpenAI. وكيفية عبور أكبر عنق الزجاجة في الاستدلال بالنموذج الكبير.
من الذي أتى مثل هذا الوحي الثقيل؟
مؤلفو المقال هما مساهمان في SemiAnalysis يدعى Dylan Patel و Gerald Wong.
ومن الجدير بالذكر أن ديلان باتيل كان أيضًا أحد مؤلفي تسريب المستندات الداخلية لشركة Google ("ليس لدينا خندق مائي ولا OpenAI") ، والذي تسبب في السابق في حدوث ضجة في الصناعة.
أكد الرئيس التنفيذي لشركة DeepMind Hassabis مؤخرًا صحة الوثائق المسربة من مهندسي Google في مقابلة مع وسائل الإعلام الأجنبية The Verge.
يمكن ملاحظة أن لدى ديلان باتيل بعض القنوات الخاصة ، مما يجعل الوحي اليوم أكثر أصالة.
كما ألقى لي زيفي ، الرئيس التنفيذي لشركة Going out to ask ، كلمة
يمكن للعديد من الشركات إنشاء GPT-4
في رأي مؤلف مقالة الأخبار العاجلة ، فإن سبب عدم انفتاح OpenAI ليس ضمان عدم تدمير البشر بواسطة الذكاء الاصطناعي ، ولكن لأن الأشياء التي يبنونها قابلة للتكرار.
حتى أنه يتوقع أنه في المستقبل ، ستتمكن جميع شركات الإنترنت الكبرى أو الشركات الناشئة في مجال الذكاء الاصطناعي في الصين والولايات المتحدة من بناء نموذج مماثل لنموذج GPT-4 أو حتى يتجاوز GPT-4.
لكنه اعترف أيضًا بأن GPT-4 هي تحفة رائعة من OpenAI. إنه يكثف التصميم المبتكر للمهندس والهيكل المعقد والعديد من المقايضات الهندسية البارعة.
الخندق الأكثر ديمومة في OpenAI هو أن لديهم ردود فعل من مستخدمين حقيقيين ، والمواهب الهندسية العليا في الصناعة ، والمكانة الرائدة المستمرة التي توفرها ميزة المحرك الأول.
نموذج الإطار
بادئ ذي بدء ، يعتقد المؤلف الذي نشر الأخبار أن GPT-4 يحتوي على ما مجموعه 1.8 تريليون معلمة في 120 طبقة ، بينما يحتوي GPT-3 على حوالي 175 مليار معلمة فقط.
بمعنى آخر ، حجم GPT-4 أكثر من 10 أضعاف مقياس GPT-3.
في السابق ، قيل على الإنترنت أن معلمة GPT-4 كانت 1 تريليون ، والذي يبدو أنه تم التقليل من شأنه من الوضع الفعلي.
من أجل الحفاظ على التكلفة المعقولة ، تتبنى شركة OpenAI نموذج وزارة البيئة للبناء.
على وجه التحديد ، يحتوي GPT-4 على 16 نموذجًا خبيرًا مع ما يقرب من 111 مليار معلمة لكل خبير MLP. من بينها ، يتم استخدام نموذجين متخصصين للانتشار الأمامي.
على الرغم من وجود الكثير من النقاش في الأدبيات حول الخوارزميات المتقدمة لاختيار الخبراء الذين يشير إليهم كل رمز مميز ، إلا أنه يقال إن الخوارزمية المستخدمة من قبل OpenAI لـ GPT-4 هي في الواقع بسيطة للغاية.
بالإضافة إلى ذلك ، هناك حوالي 55 مليار معلمة في النموذج ، والتي تُستخدم لمشاركة آلية الانتباه.
في كل منطق انتشار أمامي (إنشاء رمز مميز) ، يحتاج GPT-4 فقط إلى استخدام حوالي 280 مليار معلمة و 560TFLOPs.
هذا في تناقض صارخ مع العديد من النماذج كثيفة البحت التي تتطلب حوالي 1.8 تريليون معلمة و 3700 TFLOPs لكل تمريرة أمامية.
تكوين مجموعة البيانات
قامت شركة OpenAI بتدريب GPT-4 بـ 13 تريليون رمز مميز.
لا تحتوي مجموعة البيانات هذه فقط على 13 تريليون رمز ، ولكن نظرًا لعدم وجود رموز عالية الجودة ، تحتوي مجموعة البيانات هذه أيضًا على العديد من العصور.
داخل Scale AI ومجموعة البيانات ، يتم أيضًا تضمين ملايين أسطر بيانات الضبط الدقيق للإرشادات.
ومع ذلك ، قال كاتب الوحي إنهم لم يجدوا الكثير من المعلومات حول بيانات RLHF هذه.
بلغ طول السياق في مرحلة ما قبل التدريب 8K (seqlen) ، وتم ضبط الإصدار 32k بدقة بناءً على إصدار 8K المدربة مسبقًا.
يتم زيادة حجم الدُفعة تدريجيًا على مدار عدة أيام في المجموعة ، ويبلغ حجم الدُفعة النهائي المستخدم بواسطة OpenAI 60 مليونًا.
بالطبع ، هذا هو حجم نموذج الخبراء "فقط" عند 7.5 مليون رمز لكل منهما ، حيث لن يرى كل نموذج خبير جميع الرموز المميزة.
استراتيجية موازية
الإستراتيجية الموازية مهمة جدًا لـ A100GPU.
يستخدم OpenAI توازي موتر ذو 8 اتجاهات ، لأن NVLink يدعم الكثير فقط.
ولكن بالإضافة إلى ذلك ، سمع مؤلف الأخبار العاجلة أن شركة أوبن إيه آي تستخدم 15 خط أنابيب متوازي.
من الناحية النظرية ، فإن 15 خط أنابيب يعتبر أمرًا مهمًا إلى حد ما في اتصال البيانات ووقت الحوسبة.
ولكن بسبب محدودية سعة الذاكرة ، فإن العديد من خطوط الأنابيب لها معنى.
عندما تكون متداخلة تمامًا ومتوازية مع الموتر ، تكون معلمة FP16 حوالي 30 جيجابايت لكل وحدة معالجة رسومات.
ولكن بمجرد إضافة ذاكرة التخزين المؤقت والتكلفة KV ، إذا كانت معظم وحدات معالجة الرسومات المستخدمة بواسطة OpenAI هي 40 جيجابايت A100 ، فإن مثل هذه البنية تكون منطقية من الناحية النظرية.
من المحتمل أن OpenAI تستخدم ZeRo Stage 1 ، وربما تستخدم FSDP على مستوى الكتلة أو توازي البيانات المشتركة المختلطة.
لماذا لم يستخدموا نموذج FSDP الكامل؟ ربما بسبب ارتفاع تكلفة الاتصالات.
على الرغم من أن OpenAI لديها شبكة عالية السرعة بين معظم العقد ، إلا أنها لا تغطي جميع العقد.
من بينها ، سيكون لبعض المجموعات على الأقل عرض نطاق ترددي أقل بكثير من غيرها.
ومع ذلك ، قال المؤلف إنه لا يفهم تمامًا كيف تتجنب شركة OpenAI تكوين "فقاعات ضخمة" (فقاعات ضخمة) في كل دفعة في ظل مثل هذا التوازي العالي لخط الأنابيب ، ومن المحتمل جدًا أن تكون OpenAI قد قاومت هذه التكلفة.
تكلفة التدريب
تدرب OpenAI GPT-4 بحوالي 2.15e25 FLOPS ، مدربة على حوالي 25000 طائرة A100 لمدة 90 إلى 100 يوم ، ومعدل الاستخدام بين 32٪ و 36٪.
يرجع هذا الاستخدام المنخفض للغاية جزئيًا إلى العدد الكبير من حالات الفشل ، والتي تطلبت إعادة التدريب من نقاط التفتيش السابقة. مثل تكلفة الفقاعة المذكورة أعلاه.
تكلفة التدريب الضائعة في هذه الحالة مرتفعة للغاية.
سبب آخر هو أن التخفيض الكلي بين العديد من وحدات معالجة الرسومات باهظ التكلفة.
يفترض هذا الرسم التخطيطي أن عدم القدرة على دمج كل عملية ، وعرض النطاق الترددي للذاكرة الذي تتطلبه آلية الانتباه ، والحمل الزائد للجهاز المكافئ لقراءات المعلمة يؤدي إلى عدم الكفاءة. في الواقع ، حتى مع وجود مكتبة محسّنة مثل مكتبة FasterTransformer من Nvidia ، يمكن أن يكون إجمالي النفقات العامة أكبر
يشك مؤلف التقرير في أنه إذا كانت هذه المجموعة في الواقع مجموعة من المجموعات الأصغر ذات اتصالات الشبكة الأضعف ، فإن سرعة الاتصال غير المحظورة (غير المحظورة) بين أجزاء مختلفة من الكتلة هي 800G / 1.6T ، ولكن هذه الأجزاء هي سرعة الاتصال بينهما 200G / 400G فقط.
إذا كانت تكلفة الحوسبة السحابية OpenAI حوالي 1 دولار أمريكي / 100 ساعة ، ففي ظل هذه الظروف ، تبلغ تكلفة التدريب حوالي 63 مليون دولار.
هذا لا يشمل جميع التجارب ، والتدريب الفاشل والتكاليف الأخرى ، مثل جمع البيانات ، و RLHF ، والتكلفة البشرية ، وما إلى ذلك.
إذا أخذت في الاعتبار العوامل المذكورة للتو ، فإن التكلفة الحقيقية أعلى بكثير.
أيضًا ، يجب أن يكون هذا على أساس أنه يمكن للآخرين شراء شرائح / شبكات / مراكز بيانات ، وتكبد نفقات رأسمالية لبناء هذه الأنظمة ، وتأجيرها لشركة OpenAI.
لكن اليوم ، في 2 دولار / ساعة 100 ، يمكن إجراء التدريب المسبق على حوالي 8192 H100s في 55 يومًا فقط بتكلفة 21.5 مليون دولار.
يوضح الشكل أعلاه عدد المعلمات والرموز لبعض النماذج المتقدمة المتاحة للجمهور. السطر في الشكل هو ملاحظات Chinchilla المحسوبة من Google DeepMind (تم تنعيم أشرطة الخطأ الأكبر) ، كل نقطة على السطر تُظهر FLOPS النظري المطلوب لتدريب النموذج باستخدام هذا المعامل وعدد الرموز المميزة
ومع ذلك ، قال مؤلف التقرير أنه بحلول نهاية هذا العام ، سيكون لدى تسع شركات على الأقل تكتلات H100 تتجاوز الحجم المذكور أعلاه.
في حين أن كل هذه الشركات لن تستخدمها جميعًا للتدريب على النماذج الفردية ، فإن وجدت ، سيكون لديها نماذج أكبر من GPT-4.
على سبيل المثال ، سيكون لدى Meta أكثر من 100،000 H100 بحلول نهاية هذا العام ، ولكن سيتم توزيع جزء كبير منها في مركز البيانات الخاص بها للاستدلال.
لكن أكبر تجمع له سيتجاوز 25000 H100.
باختصار ، بحلول نهاية هذا العام ، سيكون لدى العديد من الشركات موارد حوسبة كافية لتدريب نماذج GPT-4.
هذا الجدول هو التكلفة المثلى من الناحية النظرية لتدريب نموذج على Nvidia A100 ، دون النظر إلى القوى العاملة المطلوبة ، وأدوات ML Ops ، وجمع البيانات / المعالجة المسبقة ، واسترداد الفشل ، وأمثلة التعلم من طلقة واحدة / بضع لقطات ، والاستدلال ، وما إلى ذلك ، العديد من تكلفة أجزاء
المبادلات في نماذج الخبراء المختلطة
تعد MoE (نموذج الخبراء المختلط) طريقة رائعة لتقليل كمية المعلمات أثناء الاستدلال ، مع زيادتها في نفس الوقت.
لكن هذا ضروري لكل رمز تدريب لتشفير المزيد من المعلومات ، لأن الحصول على ما يكفي من الرموز المميزة عالية الجودة أمر صعب للغاية.
إذا أرادت شركة OpenAI حقًا السعي لتحقيق أفضل أداء ، فعليهم تدريب ضعف عدد الرموز لتحقيق ذلك.
ومع ذلك ، قامت شركة OpenAI ببعض المفاضلات.
على سبيل المثال ، يعد التعامل مع وزارة التربية والتعليم أثناء الاستدلال أمرًا صعبًا للغاية لأن كل جزء من النموذج لا يتم استخدامه في كل جيل رمزي.
هذا يعني أن بعض الأجزاء قد تكون نائمة بينما تعمل الأجزاء الأخرى.
يمكن أن يقلل هذا الموقف بشكل كبير من الاستخدام عند خدمة المستخدمين.
أظهر الباحثون أن استخدام 64-128 نموذجًا خبيرًا ينتج عنه ملفات تعريف خسارة أفضل من استخدام 16 نموذجًا خبيرًا ، ولكن هذا مجرد بحث.
هناك العديد من الأسباب لاستخدام عدد قليل نسبيًا من نماذج الخبراء ، وأحد أسباب اختيار OpenAI 16 خبيرًا هو أنه من الصعب تعميم المزيد من النماذج الخبيرة في العديد من المهام.
كما أنه من الصعب تحقيق التقارب مع المزيد من النماذج المتخصصة.
في مثل هذه العملية التدريبية الضخمة ، اختارت OpenAI أن تكون أكثر تحفظًا في عدد نماذج الخبراء.
علاوة على ذلك ، فإن استخدام عدد أقل من نماذج الخبراء يساعد أيضًا في البنية التحتية للاستدلال الخاصة بهم. هناك العديد من المقايضات والمقايضات الصعبة عند التبديل إلى بنية استدلال بنموذج خبير مختلط.
يبدأ مؤلف الأخبار العاجلة بمناقشة المقايضات الأساسية لاستدلال LLM ، ثم يناقش المشكلات التي تواجه OpenAI والخيارات التي يتخذونها.
استنتاج المفاضلات
قبل تقديم مقايضات الاستدلال ، بالمناسبة ، بعد التحدث إلى جميع شركات LLM ، وجد المُبلغ عن المخالفات أن مكتبة الاستدلال FasterTransformer الخاصة بـ NVIDIA سيئة للغاية ، وأن TensorRT أكثر سوءًا.
هذا يعني أنه في حالة عدم تعديل Nvidia ، سيحتاج الأشخاص إلى إنشاء حلولهم الخاصة من البداية.
هناك ثلاث مفاضلات رئيسية في التفكير حول نماذج اللغات الكبيرة ، وحجم الدُفعة (عدد المستخدمين المعالجين في نفس الوقت) ، وعدد الرقائق المستخدمة ، على النحو التالي:
** 1. تأخير **
يجب أن يستجيب النموذج في غضون زمن انتقال معقول. لا أحد يريد الانتظار بضع ثوان في تطبيق الدردشة قبل أن يبدأ في تلقي الإخراج. يختلف وقت المعالجة للتعبئة المسبقة (الرموز المميزة للإدخال) وفك التشفير (الرموز المميزة للإخراج).
** 2. الإنتاجية **
يجب أن ينتج النموذج عددًا معينًا من الرموز المميزة في الثانية. يحتاج البشر إلى حوالي 30 رمزًا في الثانية. بالنسبة لحالات الاستخدام الأخرى المختلفة ، يُقبل كل من الإنتاجية المنخفضة والعالية.
** 3. معدل الاستخدام **
يجب أن تحقق الأجهزة التي تشغل النموذج معدلات استخدام عالية ، أو ستكون التكلفة باهظة. بينما يمكن استخدام وقت استجابة أعلى وإنتاجية أقل للجمع بين المزيد من طلبات المستخدمين معًا لتحقيق استخدام أعلى ، إلا أنه يزيد أيضًا من الصعوبة.
مفتاح منطق LLM هو تحقيق التوازن بين نقطتي عرض النطاق الترددي للذاكرة والحساب.
متطلبات النطاق الترددي النظري لـ LLM: يمكن افتراض أن الحد الأقصى لحجم النموذج الذي يمكن تشغيله على iPhone 14 هو حوالي 1 مليار معلمة FP16 ، أو حوالي 4 مليار معلمة int4. هذا هو الحد الأساسي لـ LLM استنادًا إلى الهواتف الذكية. لن يتم اعتماد النماذج
ببساطة ، يجب قراءة كل معلمة وهناك 2 FLOPs مرتبطة بها.
لذلك ، فإن نسبة معظم الرقائق (يحتوي H100 SXM على عرض نطاق ترددي للذاكرة 3 تيرابايت / ثانية فقط ، لكن FP8 يحتوي على 2000 TFLOPs / ثانية) غير متوازن تمامًا في الاستدلال بحجم دفعة 1.
إذا كان هناك مستخدم واحد فقط (حجم الدفعة 1) ، فإن النطاق الترددي للذاكرة المطلوب لقراءة كل معلمة في كل مرة يتم فيها إنشاء رمز مميز يهيمن على وقت الاستدلال ، في حين أن وقت الحساب لا يكاد يذكر.
لتوسيع نطاق نماذج اللغات الكبيرة بكفاءة إلى عدة مستخدمين ، يجب أن يتجاوز حجم الدُفعة 1. يشترك العديد من المستخدمين في تكلفة قراءة المعلمات. على سبيل المثال ، مع حجم دفعة 256/512 ، يمكنك الحصول على 512 FLOP / s أو 1024 FLOP / s لكل بايت من الذاكرة المقروءة.
هذه النسبة أقرب إلى توازن H100 بين عرض النطاق الترددي للذاكرة و FLOPS. يساعد هذا في تحقيق استخدام أعلى ، ولكن على حساب زمن انتقال أعلى.
يعتبر الكثيرون أن سعة الذاكرة هي عنق الزجاجة الرئيسي لاستدلال LLM ، نظرًا لأن النماذج الكبيرة تتطلب شرائح متعددة للاستدلال ، وتعني سعات الذاكرة الأعلى أنها يمكن أن تتناسب مع عدد أقل من الشرائح.
ومع ذلك ، فمن الأفضل في الواقع استخدام المزيد من الرقائق بحيث يكون وقت الاستجابة أقل ، وزيادة الإنتاجية ، ويمكن استخدام أحجام دُفعات أكبر لزيادة الاستخدام.
** مقايضات الاستدلال والبنية التحتية GPT-4 **
كما ذكر أعلاه ، من الصعب جدًا التفكير المنطقي لـ GPT-4. لكن كونك وزارة التربية والتعليم مرة أخرى يقدم مجموعة جديدة كاملة من الصعوبات.
يمكن توجيه كل مسار للأمام يولد الرموز المميزة إلى مجموعة مختلفة من الخبراء. يطرح هذا مشكلة في المفاضلة بين الإنتاجية ووقت الاستجابة والاستخدام بأحجام دُفعات أكبر.
يحتوي GPT-4 الخاص بـ OpenAI على 16 خبيرًا ، ويمر كل منهم مسارًا أماميًا إلى 2 منهم.
هذا يعني أنه إذا كان حجم الدُفعة 8 ، فقد يكون لكل معلمة قراءة من معلمة خبير حجم دفعة 1 فقط.
والأسوأ من ذلك ، قد يعني هذا أن أحد الخبراء لديه حجم دفعة 8 بينما يمتلك الخبراء الآخرون أحجام دفعات 4 أو 1 أو 0.
لكل رمز تم إنشاؤه ، ترسل خوارزمية التوجيه تمريرات إلى الأمام في اتجاهات مختلفة ، مما يتسبب في حدوث تأخيرات بين الرموز المميزة وأحجام الدُفعات الخبيرة بشكل كبير.
تعد البنية التحتية للاستدلال أحد الأسباب الرئيسية لاختيار OpenAI عددًا أقل من الخبراء. إذا اختاروا المزيد من الخبراء ، فإن عرض النطاق الترددي للذاكرة يصبح عنق الزجاجة للاستدلال.
يمكن أن تصل مجموعة الاستدلالات الخاصة بـ OpenAI عادةً إلى حجم الدُفعة 4k + ، مما يعني أنه حتى مع أفضل توازن تحميل بين الخبراء ، فإن حجم مجموعة الخبراء لا يتجاوز 500 أو نحو ذلك. يتطلب هذا قدرًا كبيرًا جدًا من الاستخدام لتحقيقه.
وفقًا للمبلغ عن المخالفات ، علمنا أن OpenAI تقوم بالاستدلال على مجموعة من 128 وحدة معالجة رسومات. لديهم العديد من هذه المجموعات عبر العديد من مراكز البيانات والمواقع الجغرافية.
يستخدم الاستدلال توازي موتر ذو 8 اتجاهات وتوازي خط أنابيب بـ 16 اتجاهًا. تحتوي كل عقدة تتكون من 8 وحدات معالجة رسومات (GPU) على حوالي 130B فقط ، أو أقل من 30 جيجابايت لكل GPU ضمن FP16 ، وأقل من 15 جيجابايت في FP8 / int8.
يسمح هذا بتشغيل الاستدلال على 40 جيجابايت A100 طالما أن حجم ذاكرة التخزين المؤقت KV لجميع الدُفعات ليس كبيرًا جدًا.
لا يتم تقسيم الطبقات التي تحتوي على خبراء مختلفين في عقد مختلفة لأن ذلك قد يتسبب في أن تكون حركة مرور الشبكة غير منتظمة للغاية وإعادة حساب ذاكرة التخزين المؤقت KV بين كل رمز مميز تم إنشاؤه سيكون مكلفًا للغاية.
بالنسبة لملحقات نموذج MoE المستقبلية والتوجيه الشرطي ، تكمن الصعوبة الأكبر في كيفية التعامل مع توجيه ذاكرة التخزين المؤقت KV.
يحتوي النموذج على 120 طبقة ، لذا يمكن توزيعها ببساطة على 15 عقدة مختلفة ، ولكن نظرًا لأن العقدة الأولى تحتاج إلى تحميل البيانات وتضمينها ، فمن المنطقي وضع طبقات أقل على العقدة الرئيسية لمجموعة الاستدلال الخاصة بـ.
أيضًا ، هناك بعض الشائعات حول "فك التشفير التخميني" (التالي) ، وهو ما يفسر أيضًا سبب حاجة ماسترنود إلى احتواء طبقات أقل.
تكلفة الاستدلال
بالمقارنة مع نموذج Davinchi مع 175 مليار معلمة ، تكلف GPT-4 3 مرات ، على الرغم من أن معلمات التغذية الأمامية تزيد 1.6 مرة فقط.
ويرجع ذلك أساسًا إلى أن GPT-4 يتطلب مجموعة أكبر ويحقق استخدامًا أقل.
يعتقد المؤلفون أن تكلفة استنتاج طول تسلسل GPT-4 8k على 128 A100s هو 0.0049 دولار لكل 1000 رمز ، في حين أن تكلفة استنتاج طول تسلسل GPT-4 8k على 128 H100s هو 0.0021 دولار لكل 1000 رمز.
لاحظ أن هذا يفترض استخدامًا مرتفعًا إلى حد ما ويحافظ على ارتفاع حجم الدُفعة.
لكن من الواضح أن OpenAI في بعض الأحيان غير مستغلة بشكل كبير.
في هذا الصدد ، افترض المؤلف أن OpenAI ستغلق الكتلة خلال ساعات خارج الذروة ، وتعيد تكوين العقد ، وتستأنف تدريب نماذج الاختبار الأصغر ، وتجربة تقنيات جديدة مختلفة لتقليل تكاليف الاستدلال.
لو لم تقم شركة OpenAI بذلك ، لكان استخدامها أقل وتضاعفت تكاليفها.
الاهتمام متعدد الاستعلام
بالإضافة إلى ذلك ، يستخدم OpenAI أيضًا Multi-Query Attention (MQA).
عنوان الورق:
باختصار ، لا يلزم سوى رأس انتباه واحد ، ويمكن تقليل بصمة ذاكرة ذاكرة التخزين المؤقت KV بشكل كبير.
ومع ذلك ، لا يمكن تشغيل GPT-4 بطول 32 كيلو بايت بالتأكيد على 40 جيجابايت A100 ، وهناك حد أعلى لحجم الدُفعة الأقصى البالغ 8 كيلو بايت.
معالجة الدُفعات المستمرة
تنفذ OpenAI حجم الدُفعة المتغير ومعالجة الدُفعات المستمرة.
يسمح القيام بذلك بدرجة معينة من زمن الوصول الأقصى ويحسن تكلفة الاستدلال.
فك المضاربة
تم الكشف عن أن شركة OpenAI استخدمت "فك تشفير المضاربة" في عملية التفكير المنطقي لـ GPT-4 ، والتي لا يزال لديها عدم يقين بنسبة 100٪.
يبدو أن الاختلاف في زمن الانتقال من رمز إلى رمز مميز ، والاختلاف عند القيام بمهام استرجاع بسيطة مقابل مهام أكثر تعقيدًا ، يشير إلى أن هذا ممكن ، على الرغم من أنه لا يزال هناك الكثير من المتغيرات التي يجب التأكد منها.
هنا ، قام المُبلغ عن المخالفات بإجراء التعديلات المناسبة / أضاف بعض التفاصيل لشرح النص في دراسة بعنوان "تسريع استدلال LLM مع فك الترميز المضاربي المرحلي" بواسطة DeepMind.
عادة ما تكون هناك مرحلتان لاستخدام LLM.
الأول هو التعبئة المسبقة ، حيث يتم إدخال نص التلميح في النموذج لإنشاء ذاكرة التخزين المؤقت KV واحتمالات السجل (توزيع احتمالية مخرجات الرمز المميز المحتملة) للمخرج الأول. عادة ما تكون هذه العملية سريعة لأنه يمكن معالجة نص المطالبة بالكامل بشكل متوازٍ.
المرحلة الثانية هي فك التشفير. حدد رمزًا مميزًا من سجل احتمالات الإخراج وأدخله في النموذج ، مما سيؤدي إلى إنشاء احتمالات السجل للرمز المميز التالي. كرر هذه العملية حتى يتم إنشاء العدد المطلوب من الرموز المميزة.
نظرًا لأن فك التشفير يجب أن يحدث بالتتابع ، في كل مرة تحتاج الأوزان إلى التدفق عبر وحدة الحوسبة لإنشاء رمز مميز واحد. لذا فإن هذه المرحلة الثانية مكثفة للغاية من الناحية الحسابية (أي حساب FLOPs / بايت من عرض النطاق الترددي للذاكرة) عند التشغيل على دفعات صغيرة. لذلك ، عادةً ما يكون فك التشفير هو أغلى جزء من الجيل الانحدار الذاتي.
هذا هو السبب في أن رمز الإدخال أرخص بكثير من رمز الإخراج في مكالمات واجهة برمجة تطبيقات OpenAI.
الفكرة الأساسية لـ "فك تشفير المضاربة" هي استخدام نموذج مسودة أصغر وأسرع لفك تشفير الرموز المتعددة مسبقًا ، ثم إدخالها في النموذج التنبئي كمجموعة.
إذا كانت تنبؤات نموذج المسودة صحيحة ، أي أن النموذج الأكبر يتفق مع تلك التوقعات ، يمكن فك رموز متعددة باستخدام دفعة واحدة ، مما يوفر الكثير من عرض النطاق الترددي للذاكرة والوقت.
ومع ذلك ، إذا رفض النموذج الأكبر رمزًا تنبأ به نموذج المسودة ، يتم تجاهل الدفعة المتبقية وتعود الخوارزمية بشكل طبيعي إلى فك التشفير القياسي.
قد يكون "فك التشفير المضارب" مصحوبًا أيضًا بمخطط أخذ عينات رفض لعينة من التوزيع الأصلي. تجدر الإشارة إلى أن هذا مفيد فقط في إعدادات الدُفعات الصغيرة حيث يمثل النطاق الترددي عنق الزجاجة.
يعد فك التشفير المضارب ، الذي يتداول في حساب النطاق الترددي ، هدفًا جذابًا لهندسة الأداء لسببين رئيسيين:
أولاً ، لا يقلل من جودة النموذج. ثانيًا ، تحسينات الأداء التي يقدمها غالبًا ما تكون متعامدة مع المناهج الأخرى ، نظرًا لأن أداؤها يأتي من تحويل "التنفيذ المتسلسل" إلى "التنفيذ المتوازي".
طريقة الاستدلال الحالية هي تسلسل منفصل لتنبؤات الدُفعة. ومع ذلك ، لا يتناسب هذا الأسلوب جيدًا مع الدُفعات الكبيرة أو محاذاة نموذج المسودة المنخفضة.
حدسيًا ، فإن احتمال اتفاق نموذجين على تسلسلات طويلة متجاورة من الرموز هو احتمال منخفض بشكل كبير ، مما يعني أن المكاسب من فك تشفير المضاربة تتضاءل بسرعة مع زيادة الكثافة الحسابية.
يعتقد المبلغون عن المخالفات أنه إذا استخدمت OpenAI "فك تشفير مضارب" ، فيمكنهم استخدامه فقط في تسلسلات من حوالي 4 رموز.
جانبا ، المؤامرة برمتها حول إخصاء OpenAI ، مما أدى إلى انخفاض جودة GPT-4 ، قد يكون ببساطة لأنهم يعرضون نماذجهم التنبؤية لتسلسلات احتمالية منخفضة من نماذج "فك التشفير المضاربة".
كما تم التكهن بأن Bard تستخدم أيضًا "فك تشفير مضاربة" لأن Google تنتظر إنشاء التسلسل بالكامل قبل إرساله إلى المستخدم ، ولكن في رأي المبلغين عن المخالفات ، هذا التخمين غير صحيح تمامًا.
الوسائط المتعددة المرئية
تعد القدرات المرئية متعددة الوسائط الجزء الأقل إثارة للإعجاب في GPT-4 ، على الأقل مقارنةً بالبحث الرائد.
بالطبع ، لم يقم أحد حتى الآن بتسويق نتائج أبحاث LLM متعددة الوسائط.
قال المُبلغ عن المخالفات إنه برنامج تشفير مرئي مستقل عن مشفر النص ، بالإضافة إلى الانتباه المتبادل ، والبنية تشبه Flamingo ، وقد تمت إضافة المزيد من المعلمات إلى GPT-4 1.8T.
تم ضبط القدرة متعددة الوسائط لـ GPT-4 بحوالي 2 تريليون رمز بعد التدريب المسبق على النص.
يقال أنه في النموذج المرئي ، كان برنامج OpenAI يأمل في الأصل في التدريب من نقطة الصفر ، ولكن نظرًا لأنه لم يكن ناضجًا بدرجة كافية ، لم يكن أمامه خيار سوى التحسين من نموذج التدريب النصي.
ونموذج الجيل التالي GPT-5 ، الذي يجب أن يقوم تدريبه بتدريب نموذج الرؤية من البداية ، وأن يكون قادرًا على إنشاء الصور ، وحتى إنشاء الصوت.
أحد الأغراض الرئيسية لهذه القدرة المرئية هو تمكين الوكلاء المستقلين من قراءة صفحات الويب ونسخ الصور ومقاطع الفيديو.
ومن الجدير بالذكر أن البيانات التي تستخدمها شركة OpenAI لتدريب النماذج متعددة الوسائط تشمل: "البيانات المشتركة" (LaTeX / text) ، لقطات شاشة لصفحة الويب ، مقاطع فيديو YouTube (إطارات أخذ العينات ، وتشغيل Whisper للحصول على ترجمات).
هناك حقيقة مثيرة للاهتمام حول الإفراط في تحسين LLM وهي أن النماذج المرئية لها تكلفة إدخال / إخراج مختلفة عن النماذج النصية. في النموذج المرئي ، يكون تحميل البيانات IO حوالي 150 مرة من نموذج النص.
تكلفة الإدخال / الإخراج للنموذج المرئي منخفضة
كل رمز مميز في النموذج المرئي هو 600 بايت ، والنص هو 4 بايت / رمز مميز.
لذلك هذا يتطلب الكثير من العمل فيما يتعلق بضغط الصورة. هذا مهم للغاية لبائعي الأجهزة لأنهم يقومون بتحسين الأجهزة لمدة 2-3 سنوات من الآن حول حالات ونسب استخدام LLM.
قد يجدون أنفسهم في عالم يتمتع فيه كل نموذج بقدرات بصرية وسمعية قوية.
قد يجدون أنفسهم غير مناسبين للهندسة المعمارية.
بشكل عام ، ستتجاوز الهندسة المعمارية بالتأكيد النماذج الكثيفة المبسطة القائمة على النصوص ونماذج MoE التي نراها اليوم.
مراجع
شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
تسربت GPT-4 من الداخل ، أنفق 1.8 تريليون معلمة ضخمة ، 13 تريليون تدريب رمزي ، 63 مليون دولار أمريكي
المصدر: "Xinzhiyuan" (المعرف: AI \ _era)
الآن ، أصبح GPT-4 الخاص بـ OpenAI "مفتوح المصدر" من قبل المطلعين على الصناعة مرة أخرى!
وتشمل هذه المعلمات والمعلومات المحددة للغاية مثل بنية GPT-4 ، والبنية التحتية للتدريب والاستدلال ، وحجم المعلمات ، ومجموعة بيانات التدريب ، ورقم الرمز المميز ، والتكلفة ، ومزيج الخبراء (MoE).
من الذي أتى مثل هذا الوحي الثقيل؟
ومن الجدير بالذكر أن ديلان باتيل كان أيضًا أحد مؤلفي تسريب المستندات الداخلية لشركة Google ("ليس لدينا خندق مائي ولا OpenAI") ، والذي تسبب في السابق في حدوث ضجة في الصناعة.
يمكن ملاحظة أن لدى ديلان باتيل بعض القنوات الخاصة ، مما يجعل الوحي اليوم أكثر أصالة.
يمكن للعديد من الشركات إنشاء GPT-4
في رأي مؤلف مقالة الأخبار العاجلة ، فإن سبب عدم انفتاح OpenAI ليس ضمان عدم تدمير البشر بواسطة الذكاء الاصطناعي ، ولكن لأن الأشياء التي يبنونها قابلة للتكرار.
حتى أنه يتوقع أنه في المستقبل ، ستتمكن جميع شركات الإنترنت الكبرى أو الشركات الناشئة في مجال الذكاء الاصطناعي في الصين والولايات المتحدة من بناء نموذج مماثل لنموذج GPT-4 أو حتى يتجاوز GPT-4.
لكنه اعترف أيضًا بأن GPT-4 هي تحفة رائعة من OpenAI. إنه يكثف التصميم المبتكر للمهندس والهيكل المعقد والعديد من المقايضات الهندسية البارعة.
نموذج الإطار
بادئ ذي بدء ، يعتقد المؤلف الذي نشر الأخبار أن GPT-4 يحتوي على ما مجموعه 1.8 تريليون معلمة في 120 طبقة ، بينما يحتوي GPT-3 على حوالي 175 مليار معلمة فقط.
بمعنى آخر ، حجم GPT-4 أكثر من 10 أضعاف مقياس GPT-3.
من أجل الحفاظ على التكلفة المعقولة ، تتبنى شركة OpenAI نموذج وزارة البيئة للبناء.
على وجه التحديد ، يحتوي GPT-4 على 16 نموذجًا خبيرًا مع ما يقرب من 111 مليار معلمة لكل خبير MLP. من بينها ، يتم استخدام نموذجين متخصصين للانتشار الأمامي.
على الرغم من وجود الكثير من النقاش في الأدبيات حول الخوارزميات المتقدمة لاختيار الخبراء الذين يشير إليهم كل رمز مميز ، إلا أنه يقال إن الخوارزمية المستخدمة من قبل OpenAI لـ GPT-4 هي في الواقع بسيطة للغاية.
بالإضافة إلى ذلك ، هناك حوالي 55 مليار معلمة في النموذج ، والتي تُستخدم لمشاركة آلية الانتباه.
في كل منطق انتشار أمامي (إنشاء رمز مميز) ، يحتاج GPT-4 فقط إلى استخدام حوالي 280 مليار معلمة و 560TFLOPs.
هذا في تناقض صارخ مع العديد من النماذج كثيفة البحت التي تتطلب حوالي 1.8 تريليون معلمة و 3700 TFLOPs لكل تمريرة أمامية.
تكوين مجموعة البيانات
قامت شركة OpenAI بتدريب GPT-4 بـ 13 تريليون رمز مميز.
لا تحتوي مجموعة البيانات هذه فقط على 13 تريليون رمز ، ولكن نظرًا لعدم وجود رموز عالية الجودة ، تحتوي مجموعة البيانات هذه أيضًا على العديد من العصور.
داخل Scale AI ومجموعة البيانات ، يتم أيضًا تضمين ملايين أسطر بيانات الضبط الدقيق للإرشادات.
ومع ذلك ، قال كاتب الوحي إنهم لم يجدوا الكثير من المعلومات حول بيانات RLHF هذه.
بلغ طول السياق في مرحلة ما قبل التدريب 8K (seqlen) ، وتم ضبط الإصدار 32k بدقة بناءً على إصدار 8K المدربة مسبقًا.
يتم زيادة حجم الدُفعة تدريجيًا على مدار عدة أيام في المجموعة ، ويبلغ حجم الدُفعة النهائي المستخدم بواسطة OpenAI 60 مليونًا.
بالطبع ، هذا هو حجم نموذج الخبراء "فقط" عند 7.5 مليون رمز لكل منهما ، حيث لن يرى كل نموذج خبير جميع الرموز المميزة.
استراتيجية موازية
الإستراتيجية الموازية مهمة جدًا لـ A100GPU.
يستخدم OpenAI توازي موتر ذو 8 اتجاهات ، لأن NVLink يدعم الكثير فقط.
ولكن بالإضافة إلى ذلك ، سمع مؤلف الأخبار العاجلة أن شركة أوبن إيه آي تستخدم 15 خط أنابيب متوازي.
من الناحية النظرية ، فإن 15 خط أنابيب يعتبر أمرًا مهمًا إلى حد ما في اتصال البيانات ووقت الحوسبة.
ولكن بسبب محدودية سعة الذاكرة ، فإن العديد من خطوط الأنابيب لها معنى.
عندما تكون متداخلة تمامًا ومتوازية مع الموتر ، تكون معلمة FP16 حوالي 30 جيجابايت لكل وحدة معالجة رسومات.
ولكن بمجرد إضافة ذاكرة التخزين المؤقت والتكلفة KV ، إذا كانت معظم وحدات معالجة الرسومات المستخدمة بواسطة OpenAI هي 40 جيجابايت A100 ، فإن مثل هذه البنية تكون منطقية من الناحية النظرية.
من المحتمل أن OpenAI تستخدم ZeRo Stage 1 ، وربما تستخدم FSDP على مستوى الكتلة أو توازي البيانات المشتركة المختلطة.
لماذا لم يستخدموا نموذج FSDP الكامل؟ ربما بسبب ارتفاع تكلفة الاتصالات.
على الرغم من أن OpenAI لديها شبكة عالية السرعة بين معظم العقد ، إلا أنها لا تغطي جميع العقد.
من بينها ، سيكون لبعض المجموعات على الأقل عرض نطاق ترددي أقل بكثير من غيرها.
ومع ذلك ، قال المؤلف إنه لا يفهم تمامًا كيف تتجنب شركة OpenAI تكوين "فقاعات ضخمة" (فقاعات ضخمة) في كل دفعة في ظل مثل هذا التوازي العالي لخط الأنابيب ، ومن المحتمل جدًا أن تكون OpenAI قد قاومت هذه التكلفة.
تكلفة التدريب
تدرب OpenAI GPT-4 بحوالي 2.15e25 FLOPS ، مدربة على حوالي 25000 طائرة A100 لمدة 90 إلى 100 يوم ، ومعدل الاستخدام بين 32٪ و 36٪.
يرجع هذا الاستخدام المنخفض للغاية جزئيًا إلى العدد الكبير من حالات الفشل ، والتي تطلبت إعادة التدريب من نقاط التفتيش السابقة. مثل تكلفة الفقاعة المذكورة أعلاه.
تكلفة التدريب الضائعة في هذه الحالة مرتفعة للغاية.
سبب آخر هو أن التخفيض الكلي بين العديد من وحدات معالجة الرسومات باهظ التكلفة.
يشك مؤلف التقرير في أنه إذا كانت هذه المجموعة في الواقع مجموعة من المجموعات الأصغر ذات اتصالات الشبكة الأضعف ، فإن سرعة الاتصال غير المحظورة (غير المحظورة) بين أجزاء مختلفة من الكتلة هي 800G / 1.6T ، ولكن هذه الأجزاء هي سرعة الاتصال بينهما 200G / 400G فقط.
إذا كانت تكلفة الحوسبة السحابية OpenAI حوالي 1 دولار أمريكي / 100 ساعة ، ففي ظل هذه الظروف ، تبلغ تكلفة التدريب حوالي 63 مليون دولار.
هذا لا يشمل جميع التجارب ، والتدريب الفاشل والتكاليف الأخرى ، مثل جمع البيانات ، و RLHF ، والتكلفة البشرية ، وما إلى ذلك.
إذا أخذت في الاعتبار العوامل المذكورة للتو ، فإن التكلفة الحقيقية أعلى بكثير.
أيضًا ، يجب أن يكون هذا على أساس أنه يمكن للآخرين شراء شرائح / شبكات / مراكز بيانات ، وتكبد نفقات رأسمالية لبناء هذه الأنظمة ، وتأجيرها لشركة OpenAI.
لكن اليوم ، في 2 دولار / ساعة 100 ، يمكن إجراء التدريب المسبق على حوالي 8192 H100s في 55 يومًا فقط بتكلفة 21.5 مليون دولار.
ومع ذلك ، قال مؤلف التقرير أنه بحلول نهاية هذا العام ، سيكون لدى تسع شركات على الأقل تكتلات H100 تتجاوز الحجم المذكور أعلاه.
في حين أن كل هذه الشركات لن تستخدمها جميعًا للتدريب على النماذج الفردية ، فإن وجدت ، سيكون لديها نماذج أكبر من GPT-4.
على سبيل المثال ، سيكون لدى Meta أكثر من 100،000 H100 بحلول نهاية هذا العام ، ولكن سيتم توزيع جزء كبير منها في مركز البيانات الخاص بها للاستدلال.
لكن أكبر تجمع له سيتجاوز 25000 H100.
باختصار ، بحلول نهاية هذا العام ، سيكون لدى العديد من الشركات موارد حوسبة كافية لتدريب نماذج GPT-4.
المبادلات في نماذج الخبراء المختلطة
تعد MoE (نموذج الخبراء المختلط) طريقة رائعة لتقليل كمية المعلمات أثناء الاستدلال ، مع زيادتها في نفس الوقت.
لكن هذا ضروري لكل رمز تدريب لتشفير المزيد من المعلومات ، لأن الحصول على ما يكفي من الرموز المميزة عالية الجودة أمر صعب للغاية.
إذا أرادت شركة OpenAI حقًا السعي لتحقيق أفضل أداء ، فعليهم تدريب ضعف عدد الرموز لتحقيق ذلك.
ومع ذلك ، قامت شركة OpenAI ببعض المفاضلات.
على سبيل المثال ، يعد التعامل مع وزارة التربية والتعليم أثناء الاستدلال أمرًا صعبًا للغاية لأن كل جزء من النموذج لا يتم استخدامه في كل جيل رمزي.
هذا يعني أن بعض الأجزاء قد تكون نائمة بينما تعمل الأجزاء الأخرى.
يمكن أن يقلل هذا الموقف بشكل كبير من الاستخدام عند خدمة المستخدمين.
أظهر الباحثون أن استخدام 64-128 نموذجًا خبيرًا ينتج عنه ملفات تعريف خسارة أفضل من استخدام 16 نموذجًا خبيرًا ، ولكن هذا مجرد بحث.
هناك العديد من الأسباب لاستخدام عدد قليل نسبيًا من نماذج الخبراء ، وأحد أسباب اختيار OpenAI 16 خبيرًا هو أنه من الصعب تعميم المزيد من النماذج الخبيرة في العديد من المهام.
كما أنه من الصعب تحقيق التقارب مع المزيد من النماذج المتخصصة.
في مثل هذه العملية التدريبية الضخمة ، اختارت OpenAI أن تكون أكثر تحفظًا في عدد نماذج الخبراء.
علاوة على ذلك ، فإن استخدام عدد أقل من نماذج الخبراء يساعد أيضًا في البنية التحتية للاستدلال الخاصة بهم. هناك العديد من المقايضات والمقايضات الصعبة عند التبديل إلى بنية استدلال بنموذج خبير مختلط.
يبدأ مؤلف الأخبار العاجلة بمناقشة المقايضات الأساسية لاستدلال LLM ، ثم يناقش المشكلات التي تواجه OpenAI والخيارات التي يتخذونها.
استنتاج المفاضلات
قبل تقديم مقايضات الاستدلال ، بالمناسبة ، بعد التحدث إلى جميع شركات LLM ، وجد المُبلغ عن المخالفات أن مكتبة الاستدلال FasterTransformer الخاصة بـ NVIDIA سيئة للغاية ، وأن TensorRT أكثر سوءًا.
هذا يعني أنه في حالة عدم تعديل Nvidia ، سيحتاج الأشخاص إلى إنشاء حلولهم الخاصة من البداية.
هناك ثلاث مفاضلات رئيسية في التفكير حول نماذج اللغات الكبيرة ، وحجم الدُفعة (عدد المستخدمين المعالجين في نفس الوقت) ، وعدد الرقائق المستخدمة ، على النحو التالي:
** 1. تأخير **
يجب أن يستجيب النموذج في غضون زمن انتقال معقول. لا أحد يريد الانتظار بضع ثوان في تطبيق الدردشة قبل أن يبدأ في تلقي الإخراج. يختلف وقت المعالجة للتعبئة المسبقة (الرموز المميزة للإدخال) وفك التشفير (الرموز المميزة للإخراج).
** 2. الإنتاجية **
يجب أن ينتج النموذج عددًا معينًا من الرموز المميزة في الثانية. يحتاج البشر إلى حوالي 30 رمزًا في الثانية. بالنسبة لحالات الاستخدام الأخرى المختلفة ، يُقبل كل من الإنتاجية المنخفضة والعالية.
** 3. معدل الاستخدام **
يجب أن تحقق الأجهزة التي تشغل النموذج معدلات استخدام عالية ، أو ستكون التكلفة باهظة. بينما يمكن استخدام وقت استجابة أعلى وإنتاجية أقل للجمع بين المزيد من طلبات المستخدمين معًا لتحقيق استخدام أعلى ، إلا أنه يزيد أيضًا من الصعوبة.
مفتاح منطق LLM هو تحقيق التوازن بين نقطتي عرض النطاق الترددي للذاكرة والحساب.
ببساطة ، يجب قراءة كل معلمة وهناك 2 FLOPs مرتبطة بها.
لذلك ، فإن نسبة معظم الرقائق (يحتوي H100 SXM على عرض نطاق ترددي للذاكرة 3 تيرابايت / ثانية فقط ، لكن FP8 يحتوي على 2000 TFLOPs / ثانية) غير متوازن تمامًا في الاستدلال بحجم دفعة 1.
إذا كان هناك مستخدم واحد فقط (حجم الدفعة 1) ، فإن النطاق الترددي للذاكرة المطلوب لقراءة كل معلمة في كل مرة يتم فيها إنشاء رمز مميز يهيمن على وقت الاستدلال ، في حين أن وقت الحساب لا يكاد يذكر.
لتوسيع نطاق نماذج اللغات الكبيرة بكفاءة إلى عدة مستخدمين ، يجب أن يتجاوز حجم الدُفعة 1. يشترك العديد من المستخدمين في تكلفة قراءة المعلمات. على سبيل المثال ، مع حجم دفعة 256/512 ، يمكنك الحصول على 512 FLOP / s أو 1024 FLOP / s لكل بايت من الذاكرة المقروءة.
هذه النسبة أقرب إلى توازن H100 بين عرض النطاق الترددي للذاكرة و FLOPS. يساعد هذا في تحقيق استخدام أعلى ، ولكن على حساب زمن انتقال أعلى.
يعتبر الكثيرون أن سعة الذاكرة هي عنق الزجاجة الرئيسي لاستدلال LLM ، نظرًا لأن النماذج الكبيرة تتطلب شرائح متعددة للاستدلال ، وتعني سعات الذاكرة الأعلى أنها يمكن أن تتناسب مع عدد أقل من الشرائح.
ومع ذلك ، فمن الأفضل في الواقع استخدام المزيد من الرقائق بحيث يكون وقت الاستجابة أقل ، وزيادة الإنتاجية ، ويمكن استخدام أحجام دُفعات أكبر لزيادة الاستخدام.
** مقايضات الاستدلال والبنية التحتية GPT-4 **
كما ذكر أعلاه ، من الصعب جدًا التفكير المنطقي لـ GPT-4. لكن كونك وزارة التربية والتعليم مرة أخرى يقدم مجموعة جديدة كاملة من الصعوبات.
يمكن توجيه كل مسار للأمام يولد الرموز المميزة إلى مجموعة مختلفة من الخبراء. يطرح هذا مشكلة في المفاضلة بين الإنتاجية ووقت الاستجابة والاستخدام بأحجام دُفعات أكبر.
يحتوي GPT-4 الخاص بـ OpenAI على 16 خبيرًا ، ويمر كل منهم مسارًا أماميًا إلى 2 منهم.
هذا يعني أنه إذا كان حجم الدُفعة 8 ، فقد يكون لكل معلمة قراءة من معلمة خبير حجم دفعة 1 فقط.
والأسوأ من ذلك ، قد يعني هذا أن أحد الخبراء لديه حجم دفعة 8 بينما يمتلك الخبراء الآخرون أحجام دفعات 4 أو 1 أو 0.
لكل رمز تم إنشاؤه ، ترسل خوارزمية التوجيه تمريرات إلى الأمام في اتجاهات مختلفة ، مما يتسبب في حدوث تأخيرات بين الرموز المميزة وأحجام الدُفعات الخبيرة بشكل كبير.
تعد البنية التحتية للاستدلال أحد الأسباب الرئيسية لاختيار OpenAI عددًا أقل من الخبراء. إذا اختاروا المزيد من الخبراء ، فإن عرض النطاق الترددي للذاكرة يصبح عنق الزجاجة للاستدلال.
يمكن أن تصل مجموعة الاستدلالات الخاصة بـ OpenAI عادةً إلى حجم الدُفعة 4k + ، مما يعني أنه حتى مع أفضل توازن تحميل بين الخبراء ، فإن حجم مجموعة الخبراء لا يتجاوز 500 أو نحو ذلك. يتطلب هذا قدرًا كبيرًا جدًا من الاستخدام لتحقيقه.
وفقًا للمبلغ عن المخالفات ، علمنا أن OpenAI تقوم بالاستدلال على مجموعة من 128 وحدة معالجة رسومات. لديهم العديد من هذه المجموعات عبر العديد من مراكز البيانات والمواقع الجغرافية.
يستخدم الاستدلال توازي موتر ذو 8 اتجاهات وتوازي خط أنابيب بـ 16 اتجاهًا. تحتوي كل عقدة تتكون من 8 وحدات معالجة رسومات (GPU) على حوالي 130B فقط ، أو أقل من 30 جيجابايت لكل GPU ضمن FP16 ، وأقل من 15 جيجابايت في FP8 / int8.
يسمح هذا بتشغيل الاستدلال على 40 جيجابايت A100 طالما أن حجم ذاكرة التخزين المؤقت KV لجميع الدُفعات ليس كبيرًا جدًا.
لا يتم تقسيم الطبقات التي تحتوي على خبراء مختلفين في عقد مختلفة لأن ذلك قد يتسبب في أن تكون حركة مرور الشبكة غير منتظمة للغاية وإعادة حساب ذاكرة التخزين المؤقت KV بين كل رمز مميز تم إنشاؤه سيكون مكلفًا للغاية.
بالنسبة لملحقات نموذج MoE المستقبلية والتوجيه الشرطي ، تكمن الصعوبة الأكبر في كيفية التعامل مع توجيه ذاكرة التخزين المؤقت KV.
يحتوي النموذج على 120 طبقة ، لذا يمكن توزيعها ببساطة على 15 عقدة مختلفة ، ولكن نظرًا لأن العقدة الأولى تحتاج إلى تحميل البيانات وتضمينها ، فمن المنطقي وضع طبقات أقل على العقدة الرئيسية لمجموعة الاستدلال الخاصة بـ.
أيضًا ، هناك بعض الشائعات حول "فك التشفير التخميني" (التالي) ، وهو ما يفسر أيضًا سبب حاجة ماسترنود إلى احتواء طبقات أقل.
تكلفة الاستدلال
بالمقارنة مع نموذج Davinchi مع 175 مليار معلمة ، تكلف GPT-4 3 مرات ، على الرغم من أن معلمات التغذية الأمامية تزيد 1.6 مرة فقط.
ويرجع ذلك أساسًا إلى أن GPT-4 يتطلب مجموعة أكبر ويحقق استخدامًا أقل.
يعتقد المؤلفون أن تكلفة استنتاج طول تسلسل GPT-4 8k على 128 A100s هو 0.0049 دولار لكل 1000 رمز ، في حين أن تكلفة استنتاج طول تسلسل GPT-4 8k على 128 H100s هو 0.0021 دولار لكل 1000 رمز.
لاحظ أن هذا يفترض استخدامًا مرتفعًا إلى حد ما ويحافظ على ارتفاع حجم الدُفعة.
لكن من الواضح أن OpenAI في بعض الأحيان غير مستغلة بشكل كبير.
لو لم تقم شركة OpenAI بذلك ، لكان استخدامها أقل وتضاعفت تكاليفها.
الاهتمام متعدد الاستعلام
بالإضافة إلى ذلك ، يستخدم OpenAI أيضًا Multi-Query Attention (MQA).
باختصار ، لا يلزم سوى رأس انتباه واحد ، ويمكن تقليل بصمة ذاكرة ذاكرة التخزين المؤقت KV بشكل كبير.
ومع ذلك ، لا يمكن تشغيل GPT-4 بطول 32 كيلو بايت بالتأكيد على 40 جيجابايت A100 ، وهناك حد أعلى لحجم الدُفعة الأقصى البالغ 8 كيلو بايت.
معالجة الدُفعات المستمرة
تنفذ OpenAI حجم الدُفعة المتغير ومعالجة الدُفعات المستمرة.
يسمح القيام بذلك بدرجة معينة من زمن الوصول الأقصى ويحسن تكلفة الاستدلال.
فك المضاربة
تم الكشف عن أن شركة OpenAI استخدمت "فك تشفير المضاربة" في عملية التفكير المنطقي لـ GPT-4 ، والتي لا يزال لديها عدم يقين بنسبة 100٪.
يبدو أن الاختلاف في زمن الانتقال من رمز إلى رمز مميز ، والاختلاف عند القيام بمهام استرجاع بسيطة مقابل مهام أكثر تعقيدًا ، يشير إلى أن هذا ممكن ، على الرغم من أنه لا يزال هناك الكثير من المتغيرات التي يجب التأكد منها.
هنا ، قام المُبلغ عن المخالفات بإجراء التعديلات المناسبة / أضاف بعض التفاصيل لشرح النص في دراسة بعنوان "تسريع استدلال LLM مع فك الترميز المضاربي المرحلي" بواسطة DeepMind.
الأول هو التعبئة المسبقة ، حيث يتم إدخال نص التلميح في النموذج لإنشاء ذاكرة التخزين المؤقت KV واحتمالات السجل (توزيع احتمالية مخرجات الرمز المميز المحتملة) للمخرج الأول. عادة ما تكون هذه العملية سريعة لأنه يمكن معالجة نص المطالبة بالكامل بشكل متوازٍ.
المرحلة الثانية هي فك التشفير. حدد رمزًا مميزًا من سجل احتمالات الإخراج وأدخله في النموذج ، مما سيؤدي إلى إنشاء احتمالات السجل للرمز المميز التالي. كرر هذه العملية حتى يتم إنشاء العدد المطلوب من الرموز المميزة.
نظرًا لأن فك التشفير يجب أن يحدث بالتتابع ، في كل مرة تحتاج الأوزان إلى التدفق عبر وحدة الحوسبة لإنشاء رمز مميز واحد. لذا فإن هذه المرحلة الثانية مكثفة للغاية من الناحية الحسابية (أي حساب FLOPs / بايت من عرض النطاق الترددي للذاكرة) عند التشغيل على دفعات صغيرة. لذلك ، عادةً ما يكون فك التشفير هو أغلى جزء من الجيل الانحدار الذاتي.
هذا هو السبب في أن رمز الإدخال أرخص بكثير من رمز الإخراج في مكالمات واجهة برمجة تطبيقات OpenAI.
الفكرة الأساسية لـ "فك تشفير المضاربة" هي استخدام نموذج مسودة أصغر وأسرع لفك تشفير الرموز المتعددة مسبقًا ، ثم إدخالها في النموذج التنبئي كمجموعة.
إذا كانت تنبؤات نموذج المسودة صحيحة ، أي أن النموذج الأكبر يتفق مع تلك التوقعات ، يمكن فك رموز متعددة باستخدام دفعة واحدة ، مما يوفر الكثير من عرض النطاق الترددي للذاكرة والوقت.
ومع ذلك ، إذا رفض النموذج الأكبر رمزًا تنبأ به نموذج المسودة ، يتم تجاهل الدفعة المتبقية وتعود الخوارزمية بشكل طبيعي إلى فك التشفير القياسي.
قد يكون "فك التشفير المضارب" مصحوبًا أيضًا بمخطط أخذ عينات رفض لعينة من التوزيع الأصلي. تجدر الإشارة إلى أن هذا مفيد فقط في إعدادات الدُفعات الصغيرة حيث يمثل النطاق الترددي عنق الزجاجة.
يعد فك التشفير المضارب ، الذي يتداول في حساب النطاق الترددي ، هدفًا جذابًا لهندسة الأداء لسببين رئيسيين:
أولاً ، لا يقلل من جودة النموذج. ثانيًا ، تحسينات الأداء التي يقدمها غالبًا ما تكون متعامدة مع المناهج الأخرى ، نظرًا لأن أداؤها يأتي من تحويل "التنفيذ المتسلسل" إلى "التنفيذ المتوازي".
طريقة الاستدلال الحالية هي تسلسل منفصل لتنبؤات الدُفعة. ومع ذلك ، لا يتناسب هذا الأسلوب جيدًا مع الدُفعات الكبيرة أو محاذاة نموذج المسودة المنخفضة.
حدسيًا ، فإن احتمال اتفاق نموذجين على تسلسلات طويلة متجاورة من الرموز هو احتمال منخفض بشكل كبير ، مما يعني أن المكاسب من فك تشفير المضاربة تتضاءل بسرعة مع زيادة الكثافة الحسابية.
يعتقد المبلغون عن المخالفات أنه إذا استخدمت OpenAI "فك تشفير مضارب" ، فيمكنهم استخدامه فقط في تسلسلات من حوالي 4 رموز.
جانبا ، المؤامرة برمتها حول إخصاء OpenAI ، مما أدى إلى انخفاض جودة GPT-4 ، قد يكون ببساطة لأنهم يعرضون نماذجهم التنبؤية لتسلسلات احتمالية منخفضة من نماذج "فك التشفير المضاربة".
كما تم التكهن بأن Bard تستخدم أيضًا "فك تشفير مضاربة" لأن Google تنتظر إنشاء التسلسل بالكامل قبل إرساله إلى المستخدم ، ولكن في رأي المبلغين عن المخالفات ، هذا التخمين غير صحيح تمامًا.
الوسائط المتعددة المرئية
تعد القدرات المرئية متعددة الوسائط الجزء الأقل إثارة للإعجاب في GPT-4 ، على الأقل مقارنةً بالبحث الرائد.
بالطبع ، لم يقم أحد حتى الآن بتسويق نتائج أبحاث LLM متعددة الوسائط.
قال المُبلغ عن المخالفات إنه برنامج تشفير مرئي مستقل عن مشفر النص ، بالإضافة إلى الانتباه المتبادل ، والبنية تشبه Flamingo ، وقد تمت إضافة المزيد من المعلمات إلى GPT-4 1.8T.
تم ضبط القدرة متعددة الوسائط لـ GPT-4 بحوالي 2 تريليون رمز بعد التدريب المسبق على النص.
يقال أنه في النموذج المرئي ، كان برنامج OpenAI يأمل في الأصل في التدريب من نقطة الصفر ، ولكن نظرًا لأنه لم يكن ناضجًا بدرجة كافية ، لم يكن أمامه خيار سوى التحسين من نموذج التدريب النصي.
ونموذج الجيل التالي GPT-5 ، الذي يجب أن يقوم تدريبه بتدريب نموذج الرؤية من البداية ، وأن يكون قادرًا على إنشاء الصور ، وحتى إنشاء الصوت.
أحد الأغراض الرئيسية لهذه القدرة المرئية هو تمكين الوكلاء المستقلين من قراءة صفحات الويب ونسخ الصور ومقاطع الفيديو.
ومن الجدير بالذكر أن البيانات التي تستخدمها شركة OpenAI لتدريب النماذج متعددة الوسائط تشمل: "البيانات المشتركة" (LaTeX / text) ، لقطات شاشة لصفحة الويب ، مقاطع فيديو YouTube (إطارات أخذ العينات ، وتشغيل Whisper للحصول على ترجمات).
هناك حقيقة مثيرة للاهتمام حول الإفراط في تحسين LLM وهي أن النماذج المرئية لها تكلفة إدخال / إخراج مختلفة عن النماذج النصية. في النموذج المرئي ، يكون تحميل البيانات IO حوالي 150 مرة من نموذج النص.
كل رمز مميز في النموذج المرئي هو 600 بايت ، والنص هو 4 بايت / رمز مميز.
لذلك هذا يتطلب الكثير من العمل فيما يتعلق بضغط الصورة. هذا مهم للغاية لبائعي الأجهزة لأنهم يقومون بتحسين الأجهزة لمدة 2-3 سنوات من الآن حول حالات ونسب استخدام LLM.
قد يجدون أنفسهم في عالم يتمتع فيه كل نموذج بقدرات بصرية وسمعية قوية.
قد يجدون أنفسهم غير مناسبين للهندسة المعمارية.
بشكل عام ، ستتجاوز الهندسة المعمارية بالتأكيد النماذج الكثيفة المبسطة القائمة على النصوص ونماذج MoE التي نراها اليوم.
مراجع