ياو تشيان: بعض الأفكار حول البناء البيئي لنماذج واسعة النطاق

** المؤلف | ياو تشيان "مدير مكتب مراقبة تكنولوجيا هيئة تنظيم الأوراق المالية الصينية" **

** المصدر | ** "China Finance" العدد 13 ، 2023

مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI‌

مع دخول عام 2023 ، أطلقت تطبيقات الذكاء الاصطناعي الموجهة لإنشاء المحتوى مثل ChatGPT و GPT4 و Midjourney جولة بعد جولة من موجات الابتكار. يعتقد بعض الناس أن النموذج الكبير يتطور بشكل متكرر في وحدات من الأيام. كعامل جديد للإنتاج ، فإن التنمية الحميدة والمستدامة لبيانات التدريب النموذجية الكبيرة أمر بالغ الأهمية لتطوير نماذج كبيرة وصناعات الذكاء الاصطناعي. كمجال مهم للبيانات الضخمة وتطبيقات الذكاء الاصطناعي ، يجب أن تولي الصناعة المالية اهتمامًا وثيقًا لأحدث التطورات في التقنيات المتعلقة بتدريب النماذج الكبيرة. تحلل هذه الورقة أولاً مسار التطور والترقية للنماذج الكبيرة ، ثم تناقش طرق التفاعل الممكنة بين النماذج الكبيرة والنماذج الصغيرة والمتوسطة ، وتشرح بيئة البيانات والبناء البيئي النموذجي للنماذج الكبيرة. التنمية المستدامة لنموذج واسع النطاق توفر البيئة الأفكار ذات الصلة.

ترقية وتحليل مسار التطور للنماذج الكبيرة

من منظور طويل الأجل ، تطور النماذج الكبيرة له العديد من الفروع. في الآونة الأخيرة ، لم تتسارع سرعة التكرار للنماذج الكبيرة فحسب ، ولكن أيضًا المزيد والمزيد من المشاركين ، الذين يغطيون بشكل أساسي جميع شركات التكنولوجيا الكبيرة ، وقد ظهر في البداية تنوع وتعقيد البيئة.

في الوقت الحالي ، لا يوجد تغيير جوهري في إطار الخوارزمية الأساسي في العملية التكرارية لترقية النموذج الكبير. لا تزال مدخلات قوة الحوسبة ووفرة بيانات التدريب مفتاح تطورها السريع ، ولكن أحدث GPT4 يقدم بعضًا جديدًا سمات.

** الأول هو أن الخوارزمية أكثر ملاءمة لمهام محددة في المراحل النهائية. ** GPT3 و GPT3.5 طرازان كبيران مع 175 مليار معلمة. لم تعلن GPT4 عن معلمات محددة في الوقت الحالي ، ولكن يتوقع بعض الأشخاص أن تصل معلماتها إلى تريليونات المستويات. وفي الوقت نفسه ، سيكون لها أيضًا تحسن كبير في التعلم المعزز وحل مهام محددة. المصطلح الأكثر شيوعًا هو "المحاذاة" . إذا أثبتت نماذج سلسلة GPT3 للجميع أن الذكاء الاصطناعي يمكنه القيام بمهام متعددة في نموذج واحد ، فإن GPT4 قد وصلت أو حتى تجاوزت المستويات البشرية في العديد من المهام.أعلى 10٪ أو نحو ذلك.

** والثاني هو الحصول على المزيد من قدرات حوكمة بيانات التدريب الموحدة ودعم الأساليب المتعددة. ** يحتوي GPT4 على قدرة متعددة الوسائط "قابلة للمقارنة بالدماغ البشري" ، والتي لا تختلف كثيرًا عن الآلية متعددة الوسائط الموضحة في العديد من الأوراق الحالية ، ولكنها يمكن أن تجمع بين قدرة معالجة العينات القليلة للنموذج النصي مع سلسلة الفكر (سلسلة الفكر) ، CoT) مجتمعة. لا يمكن فصل حوكمة وتزويد بيانات تدريب GPT4 عن تصنيف البيانات ، وإدارة البيانات وتقييمها ، وأتمتة البيانات ، وتوليف البيانات.

والثالث هو بناء مجموعة طاقة حوسبية أكثر قوة لتلبية المزيد من مجموعات بيانات التدريب ومعلمات الإدخال الأكبر. ** على سبيل المثال ، خصصت Microsoft أكثر من نصف مواردها السحابية لتطبيقات التدريب على النماذج الكبيرة وتطبيقات المحتوى المُنشأ بواسطة الذكاء الاصطناعي (AIGC). حتى أن Nvidia انضمت إلى TSMC و ASML و Synopsys لإنشاء منصة حوسبة جديدة ووحدة معالجة رسومات أكثر قوة.

بناء نظام بيئي حيث تترابط نماذج مختلفة

تعتبر النماذج الكبيرة الشبيهة بـ GPT قوية وستصبح واحدة من البنى التحتية المهمة في العديد من الصناعات مثل الإنترنت والتمويل والمجالات الطبية في المستقبل. على سبيل المثال ، في المجال المالي ، بعد التدريب باستخدام البيانات المهنية ذات الصلة ، يمكن أن يكون للنموذج الكبير القدرة على فهم المعرفة التجارية المالية ، ويمكنه اقتراح حلول لسيناريوهات محددة ، ودعم المؤسسات المالية لتنفيذ أتمتة التسويق ، والتعدين في علاقات العملاء ، والذكاء تحديد المخاطر وخدمة العملاء الذكية وأبحاث الاستثمار الذكية وما إلى ذلك.

ومع ذلك ، في عملية تنفيذ تطبيقات محددة ، ستواجه النماذج الكبيرة الشبيهة بـ GPT سلسلة من التحديات. الأول هو كيفية ضمان كمية ونوعية بيانات التدريب. بشكل عام ، فإن مجموعة تدريب النماذج الكبيرة عبارة عن مجموعة أغراض عامة من مجالات متعددة ، في حين أن مجموعة الكتيبات المهنية عادة ما تستغرق وقتًا طويلاً وشاقة ، وهناك أيضًا مشكلات تتعلق بالخصوصية. ونتيجة لذلك ، قد تظهر النماذج الكبيرة احترافية بشكل خاص مجالات التطبيق الفردية. والثاني هو كيفية تقليل تكاليف التشغيل والصيانة للنماذج الكبيرة. تتطلب النماذج الكبيرة دعمًا ضخمًا لقوة الحوسبة وإدارة صارمة للبيانات ، وغالبًا ما يكون من الصعب على المؤسسات العادية وإدارات التطبيقات دعم التشغيل والترقية التكرارية للنماذج الكبيرة. تحقيقا لهذه الغاية ، من الضروري إنشاء بيئة للتفاعل الصحي والتطور المشترك لنماذج مختلفة لضمان أن صناعة الذكاء الاصطناعي المتعلقة بالنماذج الكبيرة يمكن تنفيذها بنجاح في مجالات التطبيق المختلفة.

من وجهة نظر فنية ، يعتمد تطور النماذج الكبيرة على التعلم المعزز من خلال التغذية المرتدة البشرية (التعلم التعزيزي من ردود الفعل البشرية ، RLHF). تختلف تسمية البيانات التي تستخدمها عن أعمال وسم البيانات البسيطة التي يتم إجراؤها باستخدام العمالة منخفضة التكلفة في في الماضي ، سيقوم الأشخاص المحترفون بكتابة الإدخالات ، وإعطاء إجابات عالية الجودة تتوافق مع المنطق والتعبير البشري للأسئلة والتعليمات المقابلة. ومع ذلك ، نظرًا للفجوة بين تفاعل الإنسان والآلة ، فإن الوضع المثالي هو تنفيذ التعلم المعزز من خلال التفاعل بين النماذج ، أي التعلم المعزز الذي يعتمد على ملاحظات النموذج (التعلم التعزيزي من ردود الفعل النموذجية ، RLMF). بناءً على تفاعل النماذج المختلفة ، يمكن توحيد البيانات وبيئة النموذج للنموذج الكبير بأكمله في إطار عمل.

في الماضي ، في ظل نموذج تطوير النموذج اللامركزي ، كانت المهام المتعددة في سيناريو تطبيق ذكاء اصطناعي واحد بحاجة إلى أن تكون مدعومة بنماذج متعددة ، وكان على كل بناء نموذج أن يمر بعملية تطوير الخوارزمية ومعالجة البيانات وتدريب النموذج والضبط. يعزز النموذج الكبير المدرب مسبقًا من تعدد استخدامات الذكاء الاصطناعي وتعميمه. استنادًا إلى النموذج الكبير ، يمكن أن يؤدي الضبط الدقيق باستخدام عينات صفرية أو عينات صغيرة إلى تحقيق نتائج أفضل في المهام المختلفة. جلب النموذج الكبير "التدريب المسبق + الضبط الدقيق" نموذجًا قياسيًا جديدًا لأبحاث وتطوير الذكاء الاصطناعي ، مما يتيح لنماذج الذكاء الاصطناعي تحقيق إنتاج على نطاق واسع بطريقة أكثر توحيدًا وإيجازًا. مع التركيز على الابتكار التكنولوجي وتنفيذ التطبيقات ، يمكن تقسيم البيانات والبيئة الصناعية للنماذج الكبيرة إلى بنية تحتية (بما في ذلك الجسم العام ومنصات طاقة الحوسبة) ، والنماذج الكبيرة الأساسية ، وخدمات النماذج الكبيرة (بما في ذلك البيانات التركيبية ، وإمدادات النماذج ، ومكونات التطبيقات -ins). في تطبيقات المصب ، يمكن للمستخدمين نشر النماذج الصغيرة الخاصة بهم لتحسين الأداء من خلال الخدمات المختلفة للنموذج الكبير ، وفي نفس الوقت تقديم خدمات التغذية الراجعة المقابلة للنموذج الكبير في الاتجاه المعاكس للمساعدة في تطوير النموذج الكبير بشكل متكرر (انظر الشكل 1).

النموذج الأساسي الكبير هو المحرك الأساسي للنموذج البيئي الصناعي الكبير. تكمن مزاياه في أساسياته وتعدد استخداماته. وهو موجه إلى المهام النموذجية مثل معالجة اللغة الطبيعية ، ورؤية الكمبيوتر ، والمهام متعددة الوسائط. فهو يجمع أيضًا بين خصائص المهام ، يحسن خوارزميات النموذج ، ويتعلم البيانات والمعرفة ذات الصلة ، بحيث يمكن للنماذج الكبيرة أن تظهر نتائج أفضل ، ويمكن حتى تطبيقها مباشرة بدون عينات.

يتميز النموذج الصغير بخصائص الحجم الصغير (عادةً على مستوى عشرات المليارات من المعلمات) ، سهولة التدريب والصيانة ، لذلك فهو مناسب لمختلف المجالات الرأسية والتطوير الداخلي والاستخدام في مختلف الصناعات. بشكل عام ، تعتبر النماذج الصغيرة أقل تكلفة للتدريب ، ولكنها أقل أداءً من النماذج الكبيرة. من خلال التطبيق التفاعلي للنماذج الكبيرة والصغيرة ، يمكن للنموذج الصغير الحصول على جزء من قدرات النموذج الكبير أو تحقيق بعض الوظائف ، بحيث يمكن تحسين أداء النموذج الصغير بشكل كبير دون زيادة تكاليف التشغيل والصيانة ، وتلبية احتياجات محددة متطلبات الاستمارة. يمكن تقسيم طرق تفاعل النموذج الكبير والصغير إلى ثلاث فئات: تفاعل البيانات وتفاعل النموذج وتفاعل التطبيق (انظر الشكل 2).

* ** تفاعل البيانات **

يعني تفاعل البيانات أن النماذج الكبيرة والصغيرة لا تشارك بشكل مباشر في تدريب أو عملية التفكير لبعضها البعض ، ولكنها تتفاعل بشكل غير مباشر من خلال البيانات الناتجة عن بعضها البعض. يتطلب تدريب النماذج الكبيرة عادةً مجموعة كبيرة من الأغراض العامة ، على سبيل المثال ، يصل حجم مجموعة تدريب GPT3 إلى 753 جيجابايت ، والتي تأتي من مصادر بيانات متعددة مثل ويكيبيديا. تشير مجموعة الأغراض العامة إلى مجموعة تغطي مجالات متعددة ، وقد تكون تغطية المعرفة في بعض المجالات المحددة غير كافية. بعد الانتهاء من تدريب النموذج الكبير ، يمكن إنشاء بعض المجموعات التركيبية الخاصة بالمجال من خلال التعليمات ، ومن ثم من خلال النشر المحلي ، يمكن تدريب النموذج الصغير جنبًا إلى جنب مع المجموعة المخصصة للحقل أو المجموعة الخاصة للصناعة. يتركز مجال نموذج التدريب الصغير نسبيًا ، لذلك يمكن إتقان المعرفة في هذا المجال بشكل منهجي ، بحيث يكون ناتج النموذج أكثر احترافًا ، وأكثر تفصيلاً ، وأكثر دقة. يتمثل دور النموذج الكبير في هذه العملية في إنتاج مجموعة كبيرة من المواد الاصطناعية عالية الجودة ، بحيث يكون تدريب النموذج الصغير أكثر ملاءمة ، ومنع الإفراط في تجهيز النموذج بسبب الحجم الصغير للمجموعة الخاصة. أو مجموعة خاصة. على العكس من ذلك ، يمكن أيضًا استخدام المجموعة المهنية التي تم إنشاؤها بواسطة النموذج الصغير كمكمل لمجموعة التدريب الخاصة بالنموذج الكبير لتعزيز القدرات المهنية للنموذج الكبير في مجالات مختلفة ، بحيث يمكن للنموذج الكبير الاستمرار في التطور بشكل متكرر.

لتحقيق تفاعل البيانات بين النماذج الكبيرة والصغيرة ، بالإضافة إلى الاعتماد على منظمة إدارة مصدر البيانات ، من الضروري أيضًا النظر في إنشاء عهدة البيانات ومنظمة التداول ، بحيث يمكن التحكم في بيانات التدريب للنماذج الكبيرة والصغيرة وتدفق بطريقة منظمة ، والتخصيص المقابل لجميع الأطراف هو حقوق ومصالح معقولة.

  • ** نموذج التفاعل **

بالإضافة إلى تفاعل البيانات غير المباشر ، يمكن للنماذج الكبيرة والصغيرة أيضًا التفاعل على مستوى النموذج.من خلال المشاركة في عملية التدريب لبعضهما البعض ، يمكن للطرفين الاستفادة من بعضهما البعض وتحسين كفاءة التكرار للنماذج الكبيرة. من ناحية أخرى ، يمكن للنماذج الكبيرة أن توجه تدريب النماذج الصغيرة ، والطريقة الشائعة الاستخدام هي تقطير المعرفة. في وضع تعلم التقطير ، يمكن استخدام النموذج الكبير المدرب كنموذج المعلم ، ويمكن استخدام النموذج الصغير الذي سيتم تدريبه كنموذج الطالب. الملصقات التي تم إنشاؤها بواسطة النموذج الكبير وبيانات التدريب نفسها تقوم الملصقات الصلبة بتوجيه تدريب النماذج الصغيرة بشكل مشترك. وبالمثل ، يمكن للنموذج الصغير أيضًا إجراء التقطير العكسي على النموذج الكبير ، واستخدام النموذج الصغير لإصدار أحكام قيمة العينة لمساعدة النموذج الكبير على تسريع التقارب - بعد إجراء مزيد من الضبط الدقيق للنموذج الصغير المدرب على مجموعة بيانات المصب ، عينة يتم الحصول على نموذج حكم القيمة.

  • ** تفاعل التطبيق **

الطريقة النموذجية للتفاعل بين النماذج الكبيرة والصغيرة على مستوى التطبيق هي وضع المكون الإضافي ، الذي يغلف التطبيق الذي تم إنشاؤه بواسطة النموذج في خدمة مكونة إضافية لاستدعاء الطرز الأخرى. يتميز وضع المكون الإضافي بميزتين: إحداهما ملائمة وفعالة ، ولا يحتاج النموذج إلى إعادة التدريب ؛ والأخرى هي العزل الجيد ، والذي يمكن أن يتجنب تسرب تفاصيل النموذج ، وبالتالي حماية حقوق ومصالح المدربين النموذجيين بشكل أفضل والمستخدمين.

من ناحية أخرى ، يعتمد النموذج الكبير أساسًا طريقة التدريب المسبق ، والأداء في الوقت الفعلي ليس مرتفعًا. من خلال استدعاء المكون الإضافي لتطبيق النموذج الصغير ، لا يمكن لتطبيق النموذج الكبير تحسين الأداء في الوقت الفعلي لنتائج المخرجات فحسب ، بل يمكنه أيضًا توسيع نقص المعرفة في مجالات محددة. من ناحية أخرى ، يمكن للتطبيقات التي تم إنشاؤها باستخدام نماذج صغيرة الحصول بشكل مباشر على قدرات التوليد والاستدلال القوية للنماذج الكبيرة عن طريق استدعاء المكونات الإضافية التي توفرها النماذج الكبيرة الشبيهة بـ GPT. يمكن لطريقة تفاعل التطبيق هذه حفظ النموذج الصغير من عملية التدريب للمعرفة العامة ، والتركيز على إنتاج محتوى مجالات محددة بتكلفة أقل.يمكن للمستخدمين أيضًا أن يشعروا بالتفاعل "الكيميائي" الناتج عن الترابط بين النماذج المختلفة.

يمكن لمكونات ChatGPT الجديدة التي تم إصدارها مؤخرًا بواسطة Open AI (Open AI) توصيل تطبيقات ChatGPT وتطبيقات الطرف الثالث من خلال المكونات الإضافية للتطبيق. يمكن إنشاء تطبيقات الطرف الثالث هذه من نماذج صغيرة لمجال واحد. بهذه الطريقة ، يمكن للنموذج الصغير إكمال مجموعة متنوعة من الوظائف الموسعة في النموذج الكبير الشبيه بـ ChatGPT ، مثل استرداد المعلومات في الوقت الفعلي أو معلومات قاعدة المعرفة ، واستبدال المستخدمين بـ "الجدولة الذكية" للعالم الحقيقي.

التوحيد القياسي والتحكم الأمني لبيانات التدريب النموذجية الكبيرة وسلسلة أدوات النموذج

يعتمد أداء النموذج الكبير على جودة بيانات التدريب ، وفي نفس الوقت تختلف المواصفات الفنية الأساسية التي يتطلبها النموذج في سيناريوهات الهبوط المختلفة. لذلك ، لبناء بيئة صناعية جيدة مع التنمية المستدامة والتفاعل الصحي للنماذج الكبيرة ، من الضروري تعزيز توحيد بيانات التدريب النموذجية الكبيرة والتقنيات الأساسية ، وتسريع تكرار النماذج وتنفيذها.

من ناحية أخرى ، ستصبح مجموعة بيانات التدريب الخاصة بالنموذج الكبير نفسه وواجهة خدمة البيانات المحددة (API) هي المعيار الفعلي للصناعة ، ويجب أن تتبع التطبيقات المختلفة التي تصل إلى النموذج الكبير هذا المعيار. في الوقت الحاضر ، أصبح نموذج "التدريب المسبق + الضبط الدقيق" عملية ونموذجًا قياسيًا موحدًا في الصناعة. على هذا الأساس ، جنبًا إلى جنب مع سيناريوهات تطبيق محددة وبيانات احترافية ، يمكن تخصيص النماذج الصغيرة في مختلف المجالات والصناعات وتحسينها. إلى حد ما ، ستصبح بيانات التدريب النموذجية الكبيرة ومعايير واجهة خدمة البيانات أحد نواة الجيل التالي من المعايير الدولية.

من ناحية أخرى ، يجب أيضًا إنتاج وتوحيد سلسلة الأدوات التي تتطلبها التكنولوجيا الأساسية لمعالجة بيانات تدريب النموذج الكبير. مع الدعم القوي للخدمات الفنية الموحدة ، يمكن للنموذج الكبير إنتاج حلول تقنية مثل تكييف الأجهزة ، وتقطير النموذج وضغطه ، والتدريب والتسريع الموزع للنموذج ، وقاعدة بيانات المتجهات ، وقاعدة بيانات الرسم البياني ، وتوصيل النموذج ، مما يوفر معالجة اللغة الطبيعية ، ورؤية الكمبيوتر ، تسمح القدرات المختلفة مثل الرسوم البيانية عبر الطرق والمعرفة لمزيد من الشركات والمطورين بتطبيق نماذج كبيرة على أعمالهم الخاصة وبناء نماذج عمودية للصناعة بحد أدنى منخفض ، وبالتالي تعزيز التطبيق الواسع للذكاء الاصطناعي في مختلف المجالات.

وتجدر الإشارة إلى أنه على الرغم من أن تطوير النماذج الكبيرة وتطبيقها سيحقق مكاسب ضخمة للتنمية الصناعية والاقتصادية ، إذا لم يتم التحكم فيها بشكل صحيح ، فإنه سيؤدي أيضًا إلى مخاطر على الأمن القومي والصناعي. واحد هو خطر تسرب البيانات. يجب دعم تدريب النماذج الكبيرة وتنفيذها بكميات هائلة من البيانات ، بما في ذلك المعلومات الحساسة الخاصة بالصناعة أو الشخصية. إذا لم تكن هناك آلية معقولة لإزالة حساسية البيانات وحفظ البيانات ، فقد يتسبب ذلك في تسرب البيانات ويتسبب في خسائر للصناعة والأفراد. والثاني هو نموذج المخاطر الأمنية. على سبيل المثال ، قد يتم غرس المكونات الإضافية بمحتوى ضار وتصبح أداة للاحتيال و "التسمم" من قبل المجرمين ، مما يعرض الأمن الاجتماعي والصناعي للخطر.

اقتراحات ذات صلة

** باستخدام بيانات التدريب النموذجية الكبيرة كنقطة انطلاق ، فإن الصياغة القياسية وإدارة البيانات ذات شقين. ** تعزيز التطوير القياسي للصناعة من خلال صياغة مواصفات تطبيق النموذج وتوحيد معايير الواجهة. يمكن النظر في استضافة البيانات التركيبية للنموذج لتعزيز الإشراف وضمان الامتثال لمحتوى البيانات ، وحقوق ومصالح واضحة ، وتداول سلس. في الوقت نفسه ، تحسين القوانين واللوائح ، وتحسين السياسات والأنظمة ، وتشكيل قوة تنظيمية مشتركة بطرق وأساليب مختلفة ، ومنع التلاعب الضار بالنماذج وتسلل البيانات الضارة بشكل صارم.

** بناء سوق كبير لعناصر بيانات التدريب. ** توضيح السلسلة الصناعية بين جمع بيانات التدريب ومعالجتها ، وخدمات البيانات التركيبية ، والترابط بين النماذج الكبيرة والصغيرة ، وواجهات برمجة التطبيقات للتطبيق. تسريع بناء سوق عناصر البيانات ، وتوفير أسعار موجهة للسوق لبيانات التدريب ، وتسهيل توزيع الحقوق والمصالح وحوافزها.

** بناء بيئة جيدة للتنمية التكافلية والترويج المتبادل للنماذج الكبيرة والصغيرة. ** بشكل عام ، لا يوجد فرق بين الأجيال في مستوى خوارزمية النماذج الكبيرة السائدة في الداخل والخارج ، ولكن هناك فجوة في قوة الحوسبة والبيانات. يوصى بالدعم القوي لشركات التكنولوجيا المحلية الرائدة لتطوير نماذج محلية واسعة النطاق مستقلة ويمكن التحكم فيها في المجال العام. وفي الوقت نفسه ، شجع جميع المجالات الرأسية على استخدام أدوات مفتوحة المصدر لبناء سلاسل أدوات مستقلة موحدة ويمكن التحكم فيها على أساس من النماذج الكبيرة ، وذلك لاستكشاف "كبيرة وقوية" كما أنها تطور نموذج صناعة عمودية "صغير وجميل" ، وذلك لبناء بيئة جيدة للتعايش التفاعلي والتطور التكراري بين النموذج الكبير الأساسي والنموذج الصغير الاحترافي.

(المحرر المسؤول تشانغ لين)

شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت