سكب تيان يواندونغ الماء البارد على مشروع Q * الغامض ل OpenAI: البيانات التركيبية ليست منقذا ل AGI ، والقدرة تقتصر على مشاكل الرياضيات البسيطة

المصدر: نيو تشى يوان

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

تستمر مناقشة تخمين Q ، واليوم ، صرح المعلم الذكاء الاصطناعي Tian Yuandong علنا أن Q \ * يمكنه فقط حل مشاكل الرياضيات على مستوى الدخول ، ومن المحتمل أيضا أن يكون AGI غير قادر على تحقيقه من خلال البيانات الاصطناعية.

لا يزال تخمين Q \ * شائعا في مجتمع الذكاء الاصطناعي.

يتكهن الجميع بما إذا كان Q \ * هو "Q-learning + A \ *".

كما حلل المعلم الذكاء الاصطناعي فوتشيتو تيان بالتفصيل مدى احتمال فرضية "Q \ * = Q-learning + A \ *".

في الوقت نفسه ، يحكم المزيد والمزيد من الناس على أن البيانات التركيبية هي مستقبل LLMs.

ومع ذلك ، سكب تيان يواندونغ الماء البارد على هذا البيان.

أنا لا أتفق جزئيا مع البيان القائل بأنه يمكن حل AGI ببساطة عن طريق تكبير البيانات الاصطناعية.
البحث قوي لأنه إذا تم تصميم البيئة بشكل صحيح ، فسيخلق عددا لا حصر له من الأنماط الجديدة للنماذج للتعلم والتكيف معها.
ومع ذلك ، فإن مسألة ما إذا كانت هناك حاجة إلى مليارات البيانات لتعلم مثل هذا النموذج الجديد تظل سؤالا مفتوحا ، مما قد يشير إلى بعض العيوب الأساسية في نموذج الهندسة المعمارية / التعلم لدينا.
في المقابل ، غالبا ما يكون من الأسهل على البشر اكتشاف نماذج جديدة من خلال لحظة "آها".

يوافق جيم فان ، أحد كبار العلماء في NVIDIA ، على أن البيانات التركيبية ستلعب دورا مهما ، ولكن ببساطة عن طريق التوسع الأعمى لن يكون كافيا لتحقيق AGI.

Q*=Q-learning+A، ما مدى احتمالية ذلك

قال تيان يواندونغ أنه بناء على تجربته السابقة مع OpenGo (نسخة من AlphaZero) ، يمكن اعتبار A \ * إصدارا حتميا من MCTS مع القيمة فقط (أي الاستدلال) وظيفة Q.

A * مناسب تماما للمهام التي يكون فيها من السهل تقييم الحالة بعد إجراء معين ، ولكن من الصعب التنبؤ بالإجراء بعد حالة معينة. وخير مثال على ذلك هو مسألة الرياضيات.

وعلى النقيض من ذلك، هناك قصة مختلفة: فمن السهل نسبيا التنبؤ بالمرشح التالي (فقط عن طريق التحقق من الشكل المحلي)، ولكن من الأصعب بكثير تقييم الوضع على السبورة.

لهذا السبب لدينا أيضا روبوتات Go قوية جدا ، لكنها تستخدم فقط الشبكات الإستراتيجية.

بالنسبة ل LLMs ، قد تكون هناك ميزة إضافية لاستخدام Q (s ، a) ، حيث أن تقييم Q (s ، a) قد يتطلب فقط ما قبل السكان ، في حين أن الإستراتيجية التنبؤية a = pi (s) تتطلب أخذ عينات الانحدار الذاتي ، وهو أبطأ بكثير. أيضا ، في حالة استخدام وحدة فك التشفير فقط ، يمكن مشاركة ذاكرة التخزين المؤقت KV الخاصة ب s عبر عمليات متعددة.

الأسطوري Q \ * ، الذي حقق بالفعل قفزة كبيرة إلى الأمام في حل المشكلات الرياضية ، ما مدى احتمالية ذلك؟

قال تيان يواندونغ إن تخمينه هو أن دالة القيمة يجب أن تكون سهلة الإعداد نسبيا بسبب حل مشكلة الرياضيات للمبتدئين (على سبيل المثال ، يمكن التنبؤ بها من مواصفات الهدف في شكل لغة طبيعية).

إذا كنت ترغب في حل مشكلة رياضية صعبة ولا تعرف كيفية القيام بذلك ، فقد لا يكون هذا النهج كافيا.

أعاد LeCun تغريد مناقشة تيان ووافق على وجهة نظره - "لقد أوضح الفرق في قابلية التطبيق بين A \ * (البحث عن أقصر مسار في الرسم البياني) و MCTS (البحث في شجرة تنمو بشكل كبير). 」

فيما يتعلق بإعادة تغريد LeCun ، قال Tian Yuandong إنه كان يقوم بالعديد من الأشياء المختلفة ، بما في ذلك التخطيط وفهم المحولات / LLMs وتقنيات التحسين الفعالة ، على أمل الجمع بين هذه التقنيات.

أعرب بعض مستخدمي الإنترنت عن شكوكهم ، قائلين: "لكي تكون A \ * صالحة ، هناك حاجة إلى وظيفة إرشادية يمكن إثباتها ومقبولة ومتسقة. لكنني أشك كثيرا في أن أي شخص يمكنه التوصل إلى مثل هذه الوظيفة ، لأنه ليس من السهل تحديد قيمة المتتالية الفرعية. 」

** حتى إذا قمت بحل مشكلة رياضيات في المدرسة الابتدائية ، فمن المتوقع أن تكون Q \ * عالية **

أي شخص يعرف حتى القليل عن النماذج الكبيرة يعرف أن القدرة على حل المشكلات الرياضية الأساسية تعني أن قدرة النموذج على القيام بذلك هي قفزة كبيرة إلى الأمام.

هذا لأنه من الصعب على النماذج الكبيرة التعميم خارج البيانات المدربة.

قال تشارلز هيغينز ، المؤسس المشارك لشركة التدريب الذكاء الاصطناعي تروميرو ، إن المشكلة الرئيسية التي تصيب النماذج الكبيرة الآن هي كيفية التفكير المنطقي في المفاهيم المجردة ، وإذا تم تحقيق هذه الخطوة ، فستكون بلا شك قفزة كبيرة.

الرياضيات هي دراسة التفكير الرمزي ، على سبيل المثال ، إذا كانت X أكبر من Y و Y أكبر من Z ، فإن X أكبر من Z.

إذا كان Q \ * هو بالفعل Q-learning + A \ * ، فهذا يدل على أن نموذج OpenAI الجديد يمكنه الجمع بين تقنية التعلم العميق التي تدعم ChatGPT وقواعد البرمجة البشرية. وهذه الطريقة يمكن أن تساعد في حل لغز الهلوسة من LLM.

وفقا للمؤلفة المشاركة في تروميرو صوفيا كالانوفسكا ، فإن هذا له أهمية رمزية مهمة للغاية ، ولكن على المستوى العملي ، من غير المرجح أن ينهي العالم.

فلماذا هناك شائعة بأن "Q \ * قد ظهر بالفعل في النموذج الأولي ل AGI"؟

يجادل كالانوفسكا بأنه وفقا للادعاءات الحالية ، فإن Q \ * قادر على الجمع بين جانبي الدماغ وفهم الأشياء من التجربة أثناء التفكير في الحقائق.

من الواضح أن هذه خطوة واحدة أقرب إلى ذكائنا المعترف به ، لأن Q \ * من المرجح أن تعطي أفكارا جديدة للنماذج الكبيرة ، وهو ما لا تستطيع ChatGPT القيام به.

أكبر قيود النماذج الحالية هو أنها لا تستطيع سوى تقيؤ المعلومات من بيانات التدريب ، ولكن لا يمكنها التفكير وتطوير أفكار جديدة.

يعد حل المشكلة غير المرئية خطوة أساسية في إنشاء AGI.

وقال أندرو روجويسكي، مدير المعهد الذكاء الاصطناعي في مركز ساري للإنسانية، إن النماذج الكبيرة الموجودة اليوم يمكن أن تحل مشاكل الرياضيات على مستوى المرحلة الجامعية، ولكن عندما يتعلق الأمر بمسائل الرياضيات الأكثر تقدما، فإنها تفشل جميعا.

ولكن إذا كانت LLMs قادرة حقا على حل مشاكل جديدة غير مرئية ، فهذه مشكلة كبيرة ، حتى لو كانت مشاكل الرياضيات بسيطة نسبيا.

** البيانات التركيبية هي مفتاح مستقبل LLMs؟

إذن ، هل البيانات الاصطناعية ملك؟

تسبب انفجار Q \ * في الكثير من التكهنات بين كبار الشخصيات ، ويتكهن كبار الشخصيات بأن "موارد الحوسبة الضخمة التي تمكن النموذج الجديد من حل بعض المشكلات الرياضية" قد تكون RLAIF (التعلم المعزز من ردود الفعل الذكاء الاصطناعي).

RLAIF هي تقنية تحل محل تفضيلات وضع العلامات البشرية من LLMs الجاهزة ، مما يجعل عمليات المحاذاة مقابل LLMs أكثر قابلية للتطوير من خلال أتمتة التعليقات البشرية.

يمكن ل RLHF (التعلم المعزز القائم على التعليقات البشرية) ، الذي تألق سابقا في تدريب LLM ، مواءمة نماذج اللغة الكبيرة بشكل فعال مع التفضيلات البشرية ، ولكن جمع ملصقات التفضيلات البشرية عالية الجودة يعد عنق الزجاجة الرئيسي.

نتيجة لذلك ، حاولت شركات مثل Anthropic و Google اللجوء إلى RLAIF ، باستخدام الذكاء الاصطناعي لتحل محل البشر في عملية التدريب على ردود الفعل.

هذا يعني أن البيانات التركيبية هي الملك ، واستخدام بنية الشجرة يوفر المزيد والمزيد من الخيارات في وقت لاحق ، للوصول إلى الإجابة الصحيحة.

منذ وقت ليس ببعيد ، غرد جيم فان أن البيانات التركيبية ستوفر تريليون بيانات تدريب عالية الجودة تالية.

"أراهن أن معظم مجموعات LLM الجادة تعرف ذلك. السؤال الرئيسي هو كيفية الحفاظ على الجودة وتجنب الركود المبكر. 」

يستشهد جيم فان أيضا بمقال ريتشارد س. ساتون "الدرس المر" لتوضيح أن هناك نموذجين فقط في تطوير الذكاء الاصطناعي يمكن توسيع نطاقهما بشكل لا نهائي من خلال الحساب: التعلم والبحث.

"كان هذا صحيحا في عام 2019 وقت كتابة هذا المقال ، وهو صحيح اليوم ، أراهن حتى اليوم الذي نحل فيه AGI. 」

ريتشارد ساتون هو زميل الجمعية الملكية الكندية والجمعية الملكية ، ويعتبر أحد مؤسسي التعلم المعزز الحسابي الحديث ، حيث قدم العديد من المساهمات المهمة في هذا المجال ، بما في ذلك التعلم بفارق الوقت وأساليب التدرج الاستراتيجي.

في هذه المقالة ، يوضح ساتون النقاط التالية:

النهج العام الذي يستفيد من الحوسبة هو في النهاية الأكثر كفاءة وكفاءة. لكن السبب في ذلك هو قانون مور ، أو بشكل أكثر دقة بسبب الانخفاض الأسي المستمر في التكلفة لكل وحدة من الحوسبة.

في البداية ، عمل الباحثون على تجنب البحث من خلال استغلال المعرفة البشرية أو الميزات الخاصة للعبة ، وكلها تبدو غير ذات صلة بمجرد تطبيق البحث بشكل فعال على نطاق واسع.

مرة أخرى ، انتصرت الأساليب الإحصائية على الأساليب القائمة على المعرفة البشرية ، مما أدى إلى تغييرات كبيرة في مجال معالجة اللغة الطبيعية بأكمله ، حيث أصبحت الإحصائيات والحساب مهيمنة تدريجيا لعقود.

غالبا ما يحاول الباحثون الذكاء الاصطناعي بناء المعرفة في الأنظمة ، والتي يمكن أن تكون مفيدة على المدى القصير ، ولكنها قد تعيق المزيد من التقدم على المدى الطويل.

وسيتم تحقيق اختراقات في نهاية المطاف من خلال نهج قائم على البحث والتعلم.

المحتوى الفعلي للذهن معقد للغاية، ويجب أن نتوقف عن محاولة إيجاد طرق بسيطة لتمثيل الأفكار، وبدلا من ذلك يجب علينا فقط بناء طرق فوقية يمكنها العثور على هذا التعقيد التعسفي والتقاطه.

  • لذلك ، يبدو أن Q \ * قد استوعبت جوهر المشكلة (البحث والتعلم) ، وستمكنها البيانات التركيبية من اختراق قيود الماضي وتحقيق قفزة خاصة بها.

فيما يتعلق بالبيانات الاصطناعية ، قال ماسك أيضا إن البشر لا يستطيعون حقا التغلب على الآلات.

"يمكنك وضع نص كل كتاب يكتبه الإنسان على القرص الصلب (تنهد) ، وستكون البيانات التركيبية أكثر من ذلك بكثير. 」

في هذا الصدد ، تفاعل جيم فان مع ماسك وقال ،

"إذا تمكنا من محاكاتها على نطاق واسع ، فستأتي الكثير من البيانات التركيبية من عوامل مجسدة ، مثل Tesla Optimus. 」

يعتقد جيم فان أن RLAIF ، أو RLAIF من ردود فعل الحقيقة الأساسية ، ستقطع شوطا طويلا إذا تم تحجيمها بشكل صحيح. بالإضافة إلى ذلك ، تتضمن البيانات التركيبية أجهزة محاكاة ، والتي من حيث المبدأ يمكن أن تساعد LLMs على تطوير نماذج عالمية.

"من الناحية المثالية ، إنه لانهائي. لكن القلق هو أنه إذا لم تكن دورة تحسين الذات فعالة بما فيه الكفاية ، فإنها تخاطر بالتوقف. 」

فيما يتعلق بالغناء والانسجام بين الاثنين، قال LeCun إن لديه ما يقوله:

يعتقد LeCun أن والبشر يصبحون أذكياء جدا بسرعة مع القليل جدا من بيانات التدريب.

لذا ، فإن استخدام المزيد من البيانات (الاصطناعية أو غير الاصطناعية) هو إجراء مؤقت مؤقت ، وذلك ببساطة لأن نهجنا الحالي له قيود.

في هذا الصدد، أعرب مستخدمو الإنترنت الذين يدعمون «فصيل البيانات الضخمة» عن استيائهم:

"ألا ينبغي أن تشبه ملايين السنين من التكيف التطوري ما قبل التدريب ، وتشبه تجربتنا مدى الحياة الضبط المستمر؟"

ثم أعطى LeCun مثالا لشرح أن الوسيلة الوحيدة التي يستخدمها البشر لمواصلة نتائج ملايين السنين من التطور هي الجينات ، وكمية البيانات في الجينوم البشري صغيرة جدا ، فقط 800 ميغابايت.

حتى 7B LLM الصغيرة تتطلب 14 جيجابايت من التخزين ، وهي في الحقيقة ليست الكثير من البيانات في الجينوم البشري.

أيضا ، الفرق بين الشمبانزي والجينوم البشري حوالي 1 ٪ (8 ميغابايت). هذا الاختلاف الصغير لا يكفي على الإطلاق لشرح الفرق في القدرات بين البشر والشمبانزي.

عندما يتعلق الأمر بكمية البيانات التي تم تعلمها ، يرى الطفل البالغ من العمر عامين كمية صغيرة جدا من البيانات المرئية ، مع حوالي 32 مليون ثانية (2 × 365 × 12 × 3600) من كل وقت تعلمه.

يمتلك البشر 2 مليون ألياف عصبية بصرية ، وتنقل كل ألياف عصبية حوالي 10 بايت في الثانية. - هذا إجمالي 6E14 بايت.

في المقابل ، يحتوي تدريب LLM عادة على حجم بيانات يبلغ 1E13 ، وهو حوالي 2E13 بايت. لذلك يحصل الطفل البالغ من العمر 2 عاما على 30 ضعف البيانات مثل LLM.

بغض النظر عن حجج اللاعبين الكبار ، تستخدم شركات التكنولوجيا الكبرى مثل Google و Anthropic و Cohere وما إلى ذلك الإشراف على العمليات أو الأساليب الشبيهة ب RLAIF لإنشاء مجموعات بيانات مدربة مسبقا ، والتي تكلف موارد ضخمة.

لذلك من الواضح للجميع أن البيانات التركيبية هي اختصار لتوسيع مجموعة البيانات الخاصة بك. على المدى القصير ، يمكننا بوضوح استخدامه لإنشاء بعض البيانات المفيدة.

ولكن هل هذا هو الطريق إلى المستقبل؟ سيتعين علينا انتظار الإجابة.

موارد:

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت