هل قام شخص ما بالفعل ببناء GPT-5 لـ OpenAI؟

المصدر الأصلي: GenAI New World

المؤلف|شيويه ليانغنيل

مصدر الصورة: تم إنشاؤها بواسطة Unbounded AI‌

من النظرية إلى التطبيق، كيف يبدو الشكل الكامل لنموذج اللغة الكبير LLM؟

قد يقول الكثير من الناس أنها تعتمد على فهم عميق للغة الطبيعية، لكن سلسلة GPT من OpenAI قامت بالفعل بعمل جيد في هذا الصدد. يناقش بعض الأشخاص أيضًا الإمكانية العملية لعامل الذكاء الاصطناعي، لكن هذه المناقشة حاليًا لا تنفصل عن نطاق معالجة اللغة الطبيعية.

يتضمن الذكاء الاصطناعي التوليدي في الواقع جانبين، أحدهما هو نموذج اللغة الكبير، الذي يركز على فهم اللغة البشرية، ويشير ما يسمى بتطبيق AIGC الأوسع في الواقع إلى قدرة التحويل عبر الوسائط التي يمثلها نموذج الانتشار، والمعروف أيضًا باسم فنسنت. الصور ومقاطع الفيديو فنسنت، الخ.

إذن ماذا عن الجمع بين الاثنين؟ في نظر الكثير من الناس، هذا هو في الواقع الجيل القادم من GPT، أو ما ستبدو عليه GPT بالكامل. جذبت ورقة بحثية من كلية الحاسبات بجامعة سنغافورة الوطنية والتي ظهرت مؤخرًا على موقع ما قبل الطباعة arxiv انتباه الناس لأن نموذج NExT-GPT المصمم في هذه الورقة يحاول إجراء تحويل مشروط شامل.

من الشكل أعلاه، يمكننا أن نرى أن نهايات الإدخال والإخراج لنموذج NExT-GPT يمكن أن تولد مجموعة متنوعة من النماذج النموذجية بما في ذلك النصوص والصور والصوت والفيديو. تستخدم نهاية الإخراج نماذج نشر تتوافق مع أوضاع مختلفة باستثناء النص. يعتمد تحويل الوسائط بين المدخلات والمخرجات على النماذج الكبيرة.

إن أسلوب نموذج NExT-GPT في الواقع لا يتوافق فقط مع الاتجاه الحالي للأشخاص الذين يحاولون الجمع بين قوتي الذكاء الاصطناعي التوليدي: نماذج اللغة الكبيرة ونماذج الانتشار، بل إنه يتوافق أيضًا مع الحدس البشري إلى حد ما: يعتمد الدماغ البشري على فهم العالم من خلال التحويل المجاني والفهم التفاعلي لطرائق متعددة.

تجدر الإشارة بشكل خاص إلى أن ما يسمى بالجمع بين التحويل متعدد الوسائط وقدرات نماذج اللغة الكبيرة ليس طريقة بسيطة "لبناء جسر" بين بعضها البعض، ولكنه يجمع حقًا بين البيانات متعددة الوسائط (المتجهات) واللغة وبعد تسهيل هذه العملية حقا، فهذا يعني أن النماذج الكبيرة لا يمكنها تعلم وفهم اللغة البشرية فحسب، بل يمكنها أيضا توسيع هذه القدرة لتشمل المزيد من الطرائق. وبمجرد نجاح هذا المزيج، فإنه سيحدث قفزة نوعية في قدرات الذكاء الاصطناعي.

نظرة عامة على بنية NExT-GPT:

** نقطتان مفصليتان **

يُقال أن كلاً من Google وGPT5 التابع لـ OpenAI يجرون أبحاثًا مماثلة. قبل ذلك، دعونا أولاً نلقي نظرة على كيفية قيام نموذج NExT-GPT بذلك.

بشكل عام، يقوم نموذج NExT-GPT بتوصيل نموذج كبير بمحول متعدد الوسائط ووحدة فك ترميز نموذج الانتشار، مع تعديل المعلمة بنسبة 1% فقط في طبقة الإسقاط. الابتكار في هذه الورقة هو إنشاء تعليمات تعديل التبديل المشروط تسمى MosIT، ومجموعة بيانات مخصصة للتبديل عبر الوسائط.

على وجه التحديد، يتكون NExT-GPT من ثلاث طبقات، الطبقة الأولى هي أن العديد من أجهزة التشفير الناضجة تقوم بتشفير مدخلات نمطية مختلفة، ثم تقوم بتعيين خريطة من خلال طبقة الإسقاط إلى نموذج يمكن فهمه بواسطة نموذج لغة كبير. الطبقة الثانية عبارة عن نموذج لغة كبير مفتوح المصدر يستخدم للاستدلال. ومن الجدير بالذكر أن نموذج اللغة الكبير لا يقوم بإنشاء نص فحسب، بل يقوم أيضًا بإنشاء علامة فريدة لتوجيه طبقة فك التشفير لإخراج محتوى نمطي محدد. تقوم الطبقة الثالثة بعرض إشارات الأوامر هذه وإنشاء محتوى مطابق يتوافق مع أجهزة التشفير المختلفة.

من أجل تقليل التكاليف، يستخدم NExT-GPT أدوات التشفير وأجهزة فك التشفير الجاهزة. ومن أجل تقليل "الضجيج" الذي يحدث عند تحويل المحتوى في طرائق مختلفة، يستخدم NExT-GPT ImageBind، وهو تشفير موحد متعدد الوسائط التشفير، بحيث لا يحتاج NExT-GPT إلى إدارة العديد من أجهزة تشفير الوسائط غير المتجانسة، ولكن يمكنه عرض طرائق مختلفة بشكل موحد في نموذج لغة كبير.

أما بالنسبة لمرحلة الإخراج، يستخدم NExT-GPT على نطاق واسع العديد من النماذج الناضجة، بما في ذلك الانتشار المستقر لتوليد الصور، وZerscope لإنشاء الفيديو، وAudioLDM لتركيب الصوت. الشكل أدناه هو جزء من عملية الاستدلال في الورقة. يمكنك أن ترى أن أنماط النص وعلامات الإشارة تحدد كيفية التعرف على الطرائق وتشغيلها وإنشائها. الأجزاء الرمادية هي خيارات مشروطة لم يتم تشغيلها.

وهذا ينطوي على مشكلة في الفهم الدلالي بين الطرائق المختلفة، لذلك فإن التوافق ضروري. ومع ذلك، نظرًا للبنية الواضحة نسبيًا، فإن محاذاة NExT-GPT سهلة التشغيل للغاية. صمم المؤلف هيكل اقتران ثلاثي الطبقات، حيث تتم محاذاة نهاية التشفير مع النموذج الكبير كمركز، ويتم محاذاة نهاية فك التشفير مع التعليمات. تتجاهل هذه المحاذاة تنفيذ عملية محاذاة واسعة النطاق بين نموذج الانتشار ونموذج اللغة الكبير، وبدلاً من ذلك تستخدم فقط أداة تشفير شرطية للنص. بعد تقليل المسافة بين علامات إشارة نمط النموذج الكبيرة ونص نموذج الانتشار، تتم المحاذاة فقط استنادًا إلى النص النقي، تكون هذه المحاذاة خفيفة للغاية، حيث تحتاج فقط إلى تعديل حوالي 1% من المعلمات.

وبالنظر إلى حاجة NExT-GPT إلى القدرة على التوليد الدقيق والتفكير عبر الطرائق، تقدم الورقة أيضًا MosIT، وهو ضبط تعليمات تبديل الطريقة، ويعتمد تدريبه على مجموعة بيانات مكونة من 5000 عينة عالية الجودة.

عملية التدريب المحددة معقدة بعض الشيء، لذا لن أخوض في التفاصيل، بشكل عام، يمكن لـ MosIT إعادة بناء محتوى نص الإدخال والإخراج، بحيث يتمكن NExT-GPT من فهم مجموعات الأوضاع المختلفة للنص والصور ومقاطع الفيديو والتسجيلات الصوتية جيدًا. تعليمات معقدة، قريبة جدًا من طريقة الفهم والتفكير البشري.

**هل الكمال قادم؟ **

في الوقت الحاضر، لا يزال لدى NExT-GPT العديد من نقاط الضعف، وقد ذكر المؤلف أيضًا العديد منها في المقالة، على سبيل المثال، من السهل جدًا التفكير في أن الطرائق الأربع لا تزال قليلة جدًا بالنسبة لحجم كبير حقيقي متعدد الوسائط نموذج التدريب MosIT عدد مجموعات البيانات محدود أيضًا.

بالإضافة إلى ذلك، يعمل المؤلف أيضًا بجد لتكييف NExT-GPT مع المزيد من السيناريوهات من خلال نماذج لغوية كبيرة بأحجام مختلفة.

هناك قضية شائكة أخرى أكثر عملية من الحجم. على الرغم من أن NExT-GPT يُظهر آفاقًا قوية لقدرات متعددة الوسائط، إلا أن المستوى الحالي لقدرات AIGC التي يمثلها نموذج الانتشار لا يزال محدودًا، مما يؤثر على أداء NExT-GPT بأكمله.

بشكل عام، يتمتع الذكاء الاصطناعي متعدد الوسائط بآفاق جذابة للغاية، لأنه أكثر تكاملاً مع سيناريوهات التطبيق واحتياجات المستخدم، ومع انخفاض الشعبية الحالية للمسارات ذات النماذج الكبيرة قليلاً، يمنح الذكاء الاصطناعي متعدد الوسائط الأشخاص مساحة هائلة من الخيال. باعتباره نموذجًا كبيرًا متعدد الوسائط من البداية إلى النهاية، فإن NExT-GPT لديه في الواقع نموذج أولي للذكاء الاصطناعي متعدد الوسائط. إن الأفكار الواردة في الورقة حول محاذاة ضبط المعلمات واستخدام MosIT لتعزيز قدرات التفكير النموذجي مثيرة للإعجاب، لذا يمكننا ذلك حتى أن يقال إن شخصًا ما قد اتخذ بالفعل الخطوة الأولى نحو الذكاء الاصطناعي الكامل.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت