مع GPT-4 ، تعلم الروبوت قلب الجوز بالقلم واللوحة

** قلب الآلة الأصلي **

** المحرر: تشانغ تشيان ، تشن بينغ **

مع الجمع بين GPT-4 والتعلم المعزز ، كيف سيبدو مستقبل الروبوتات؟

عندما يتعلق الأمر بالتعلم ، فإن GPT-4 هو طالب هائل. بعد هضم كمية كبيرة من البيانات البشرية ، أتقنت المعرفة المختلفة ، وحتى ألهمت عالم الرياضيات تاو Zhexuan في الدردشة.

في الوقت نفسه ، أصبح معلما ممتازا ، ولا يعلم معرفة الكتب فحسب ، بل يعلم أيضا الروبوتات لتحويل الأقلام.

كان الروبوت ، المسمى يوريكا ، دراسة من Nvidia ، وجامعة بنسلفانيا ، ومعهد كاليفورنيا للتكنولوجيا ، وجامعة تكساس في أوستن. تجمع هذه الدراسة بين نتائج نماذج اللغة الكبيرة والتعلم المعزز: يستخدم GPT-4 لتحسين وظيفة المكافأة ، ويستخدم التعلم المعزز لتدريب وحدة التحكم في الروبوت.

مع قدرة GPT-4 على كتابة التعليمات البرمجية ، تتمتع Eureka بقدرات ممتازة في تصميم وظائف المكافآت ، وتتفوق مكافآتها التي تم إنشاؤها ذاتيا على مكافآت الخبراء البشريين في 83٪ من المهام. تسمح هذه القدرة للروبوت بأداء العديد من المهام التي لم يكن من السهل القيام بها من قبل ، مثل أقلام الدوران ، وفتح الأدراج والخزائن ، ورمي الكرات للقبض والمراوغة ، وتشغيل المقص ، وما إلى ذلك. في الوقت الحالي ، على الرغم من ذلك ، يتم كل هذا في بيئة افتراضية.

بالإضافة إلى ذلك ، نفذت Eureka نوعا جديدا من RLHF في السياق الذي يتضمن ملاحظات اللغة الطبيعية من المشغلين البشريين لتوجيه وظائف المكافآت ومواءمتها. يمكن أن يوفر لمهندسي الروبوتات وظائف مساعدة قوية لمساعدة المهندسين على تصميم سلوكيات الحركة المعقدة. شبه جيم فان ، عالم الذكاء الاصطناعي كبير في NVIDIA وأحد مؤلفي الورقة ، الدراسة ب "Voyager في مساحة API لمحاكاة الفيزياء".

ومن الجدير بالذكر أن هذه الدراسة مفتوحة المصدر بالكامل، والعنوان مفتوح المصدر كالتالي:

رابط الورق:

رابط المشروع:

رابط الرمز:

نظرة عامة على الورق

تتفوق نماذج اللغات الكبيرة (LLMs) في التخطيط الدلالي عالي المستوى للمهام الروبوتية (مثل روبوتات SayCan و RT-2 من Google) ، ولكن ما إذا كان يمكن استخدامها لتعلم المهام التشغيلية المعقدة منخفضة المستوى ، مثل تدوير القلم ، يظل سؤالا مفتوحا. تتطلب المحاولات الحالية الكثير من الخبرة في المجال لبناء مطالبات المهام أو تعلم مهارات بسيطة فقط ، بعيدا عن المرونة على المستوى البشري.

* روبوت RT-2 من Google *

من ناحية أخرى ، حقق التعلم المعزز (RL) نتائج مبهرة في المرونة والعديد من الجوانب الأخرى (مثل مناور OpenAI الذي يلعب مكعب روبيك) ، ولكنه يتطلب من المصممين البشريين بناء وظائف مكافأة بعناية تقنن بدقة وتوفر إشارات تعلم للسلوك المطلوب. نظرا لأن العديد من مهام التعلم المعزز في العالم الحقيقي لا توفر سوى مكافآت متفرقة يصعب استخدامها للتعلم ، فإن تشكيل المكافآت ضروري في الممارسة العملية لتوفير إشارات التعلم التدريجي. على الرغم من أن وظيفة المكافأة مهمة للغاية ، إلا أنه من الصعب تصميمها. وجدت دراسة حديثة أن 92٪ من الباحثين والممارسين في مجال التعلم المعزز الذين شملهم الاستطلاع قالوا إنهم قاموا بالتجربة والخطأ البشري عند تصميم المكافآت ، وقال 89٪ إنهم صمموا مكافآت دون المستوى الأمثل وستؤدي إلى سلوك غير متوقع.

بالنظر إلى أن تصميم المكافآت مهم جدا ، لا يسعنا إلا أن نسأل ، هل من الممكن تطوير خوارزمية برمجة مكافآت عالمية باستخدام أحدث LLMs مثل GPT-4؟ تتفوق هذه LLMs في الترميز ، وتوليد اللقطة الصفرية ، والتعلم في السياق ، وقد حسنت بشكل كبير أداء وكلاء البرمجة. من الناحية المثالية ، يجب أن تتمتع خوارزمية تصميم المكافآت هذه بقدرات توليد المكافآت على المستوى البشري والتي يمكن أن تتوسع إلى مجموعة واسعة من المهام ، وأتمتة عمليات التجربة والخطأ المملة دون إشراف بشري ، وأن تكون متوافقة مع الإشراف البشري لضمان السلامة والاتساق.

تقترح هذه الورقة خوارزمية تصميم مكافأة مدفوعة ب LLM ، EUREKA (مجموعة أدوات REward العالمية المدفوعة بالتطور للوكيل). تحقق الخوارزمية ما يلي:

يصل أداء تصميم المكافأة إلى المستوى البشري في 29 بيئة RL مختلفة مفتوحة المصدر ، والتي تشمل 10 أشكال روبوت مختلفة (رباعي ، كوادكوبتر ، ذو قدمين ، مناور ، والعديد من الأيدي البارعة ، انظر الشكل 1). بدون أي مطالبات أو قوالب مكافآت خاصة بالمهمة ، تفوقت مكافآت EUREKA التي تم إنشاؤها ذاتيا على مكافآت الخبراء البشريين في 83٪ من المهام وحققت تحسنا في التطبيع بنسبة 52٪.

2. حل مهام التشغيل البارعة التي لم يكن من الممكن تحقيقها من خلال هندسة المكافآت اليدوية من قبل. خذ مشكلة تدوير القلم ، على سبيل المثال ، حيث تحتاج اليد التي لديها خمسة أصابع فقط إلى تدوير القلم بسرعة وفقا لتكوين دوران محدد مسبقا وتدوير أكبر عدد ممكن من الدورات. من خلال الجمع بين EUREKA والدورات الدراسية ، أظهر الباحثون لأول مرة تشغيل تشغيل قلم سريع على "يد الظل" المجسمة المحاكاة (انظر أسفل الشكل 1).

  1. تقدم هذه الورقة طريقة تعلم سياقية جديدة خالية من التدرج للتعلم المعزز بناء على التغذية الراجعة البشرية (RLHF) ، والتي يمكن أن تولد وظائف مكافأة أكثر كفاءة ومتوافقة مع الإنسان بناء على أشكال مختلفة من المدخلات البشرية. تظهر الورقة أن EUREKA يمكن أن تستفيد من وظائف المكافآت البشرية الحالية وتحسنها. وبالمثل ، أظهر الباحثون قدرة EUREKA على استخدام التعليقات النصية البشرية للمساعدة في تصميم وظائف المكافآت ، والتي تساعد في التقاط التفضيلات البشرية الدقيقة.

على عكس أعمال L2R السابقة التي استخدمت تصميم المكافآت بمساعدة LLM ، لا تحتوي EUREKA على مطالبات خاصة بالمهمة وقوالب مكافآت وحفنة من الأمثلة. في التجربة ، كان أداء EUREKA أفضل بكثير من L2R نظرا لقدرته على إنشاء وتحسين برامج المكافآت التعبيرية ذات الشكل الحر.

يرجع تنوع EUREKA إلى ثلاثة خيارات رئيسية لتصميم الخوارزميات: السياق كسياق ، والبحث التطوري ، وانعكاس المكافأة.

أولا ، باستخدام شفرة مصدر البيئة كسياق ، يمكن ل EUREKA إنشاء وظائف مكافأة قابلة للتنفيذ من عينات صفرية في ترميز العمود الفقري LLM (GPT-4). ثم تعمل EUREKA على تحسين جودة المكافآت بشكل كبير من خلال إجراء عمليات بحث تطورية ، واقتراح دفعات مرشحة للمكافآت بشكل متكرر ، وتحسين المكافآت الواعدة في نافذة سياق LLM. يتم تحقيق هذا التحسن في السياق من خلال انعكاس المكافآت ، وهو ملخص نصي بجودة المكافأة يعتمد على إحصائيات التدريب الاستراتيجي التي تتيح تحرير المكافآت التلقائي والمستهدف.

يوضح الشكل 3 مثالا على مكافأة عينة EUREKA الصفرية والتحسينات المتراكمة أثناء التحسين. لضمان قدرة EUREKA على توسيع نطاق بحثها عن المكافآت إلى أقصى إمكاناتها ، تستخدم EUREKA التعلم المعزز الموزع المسرع بواسطة GPU على IsaacGym لتقييم المكافآت المتوسطة ، والتي توفر ما يصل إلى ثلاثة أوامر من التحسن الكبير في سرعة تعلم السياسة ، مما يجعل EUREKA خوارزمية واسعة تتوسع بشكل طبيعي مع زيادة مقدار الحساب.

وهذا موضح في الشكل 2. يلتزم الباحثون بفتح مصادر جميع النصائح والبيئات ووظائف المكافآت التي تم إنشاؤها لتسهيل إجراء مزيد من الأبحاث حول تصميم المكافآت القائم على LLM.

مقدمة عن الطريقة

يمكن ل EUREKA كتابة خوارزمية المكافأة بشكل مستقل ، وكيف يتم تنفيذها ، دعنا ننظر إليها بعد ذلك.

يتكون EUREKA من ثلاثة مكونات خوارزمية: 1) استخدام البيئة كسياق ، وبالتالي دعم توليد المكافآت القابلة للتنفيذ بدون طلقة. 2) البحث التطوري ، واقتراح وتنقيح المرشحين مكافأة بشكل متكرر ؛ 3) مكافأة التفكير ودعم تحسين المكافأة الدقيقة.

البيئة كسياق

توصي هذه المقالة بتوفير رمز البيئة الأصلي مباشرة كسياق. مع الحد الأدنى من التعليمات فقط ، يمكن ل EUREKA توليد مكافآت في بيئات مختلفة بدون عينات. يظهر مثال على ناتج EUREKA في الشكل 3. تجمع EUREKA بخبرة بين متغيرات المراقبة الحالية (على سبيل المثال ، موضع طرف الإصبع) في رمز البيئة المقدم وتنتج رمز مكافأة صالحا - كل ذلك بدون أي هندسة سريعة أو قوالب مكافأة خاصة بالبيئة.

ومع ذلك ، في المحاولة الأولى ، قد لا تكون المكافأة الناتجة قابلة للتنفيذ دائما ، وحتى لو كانت كذلك ، فقد تكون دون المستوى الأمثل. هذا يثير السؤال عن كيفية التغلب بشكل فعال على المستوى دون الأمثل لتوليد مكافأة عينة واحدة؟

البحث التطوري

بعد ذلك ، تصف الورقة كيف يحل البحث التطوري مشاكل الحلول دون المستوى الأمثل المذكورة أعلاه. يتم إتقانها بطريقة أنه في كل تكرار ، تقوم EUREKA بأخذ عينات من عدة مخرجات مستقلة ل LLM (السطر 5 في الخوارزمية 1). نظرا لأن كل تكرار يكون بشكل مستقل ومتجانس ، فإن احتمال حدوث أخطاء في جميع وظائف المكافأة في التكرار يتناقص بشكل كبير مع زيادة حجم العينة.

انعكاس المكافأة

لتوفير تحليل مكافآت أكثر تعقيدا واستهدافا، تقترح هذه المقالة بناء ملاحظات آلية لتلخيص ديناميكيات التدريب على السياسات في النص. على وجه التحديد ، بالنظر إلى أن وظيفة مكافأة EUREKA تتطلب مكونات فردية في برنامج المكافآت (مثل مكون المكافأة في الشكل 3) ، تتعقب هذه المقالة القيم العددية لجميع مكونات المكافأة عند نقاط تفتيش السياسة الوسيطة طوال عملية التدريب.

يعد إنشاء عملية انعكاس المكافأة هذه أمرا بسيطا ، ولكنه مهم بسبب اعتماد خوارزمية تحسين المكافأة. أي أن ما إذا كانت وظيفة المكافأة صالحة أم لا تتأثر بالاختيار المحدد لخوارزمية RL ، وقد تتصرف نفس المكافأة بشكل مختلف تماما حتى في ظل نفس المحسن لاختلاف معلمة فائقة معين. من خلال تفصيل كيفية تحسين خوارزمية RL لمكونات المكافأة الفردية ، يمكن انعكاس المكافأة EUREKA من إنتاج تعديلات مكافأة أكثر استهدافا وتوليف وظائف المكافأة للعمل بشكل أفضل مع خوارزمية RL الثابتة.

التجربه

يوفر الجزء التجريبي تقييما شاملا ليوريكا ، بما في ذلك القدرة على توليد وظائف المكافآت ، والقدرة على حل المهام الجديدة ، والقدرة على دمج المدخلات البشرية المختلفة.

تتضمن البيئة التجريبية 10 روبوتات مختلفة و 29 مهمة ، يتم تنفيذ 29 منها بواسطة جهاز محاكاة IsaacGym. تستخدم التجربة 9 بيئات بدائية من IsaacGym (Isaac) ، تغطي مجموعة متنوعة من أشكال الروبوت من رباعي ، ذو قدمين ، كوادكوبتر ، مناور إلى يد بارعة روبوتية. بالإضافة إلى ذلك ، تضمن هذه المقالة عمق التقييم من خلال دمج 20 مهمة من معيار البراعة.

يمكن أن تنتج يوريكا وظيفة مكافأة على مستوى خارق. من بين 29 مهمة ، كان أداء وظيفة المكافأة التي قدمتها Eureka أفضل من المكافآت المكتوبة من قبل الخبراء في 83٪ من المهام ، حيث تحسنت بمعدل 52٪. على وجه الخصوص ، حققت Eureka فوائد أكبر في بيئة مرجعية عالية الأبعاد.

Eureka قادرة على تطوير البحث عن المكافآت بحيث تتحسن المكافآت بمرور الوقت. تنتج يوريكا تدريجيا مكافآت أفضل من خلال الجمع بين عمليات البحث عن المكافآت على نطاق واسع وردود الفعل التفصيلية لانعكاس المكافآت ، متجاوزة في النهاية المستويات البشرية.

يمكن ل Eureka أيضا توليد مكافآت جديدة. تقيم هذه الورقة حداثة مكافآت يوريكا من خلال حساب العلاقة بين مكافآت يوريكا والمكافآت البشرية في جميع مهام إسحاق. كما هو موضح في الشكل ، تولد Eureka بشكل أساسي وظائف مكافأة ضعيفة الارتباط ، والتي تتفوق على وظائف المكافأة البشرية. بالإضافة إلى ذلك ، تلاحظ الورقة أيضا أنه كلما كانت المهمة أصعب ، كانت مكافأة يوريكا أقل أهمية. في بعض الحالات ، ترتبط مكافآت Eureka ارتباطا سلبيا بالمكافآت البشرية ، ولكنها تؤدي أداء أفضل بكثير من المكافآت البشرية.

想要实现机器人的灵巧手能够不停的转笔,需要操作程序有尽可能多的循环。本文通过以下方式解决此任务:(1) اطلب من Eureka إنشاء وظيفة مكافأة تعيد توجيه الأقلام إلى تكوين هدف عشوائي ، ثم (2) قم بضبط هذه الإستراتيجية المدربة مسبقا باستخدام Eureka Rewards لتحقيق تكوين دوران تسلسل القلم المطلوب. كما هو موضح ، تم ضبط Eureka بسرعة مع الإستراتيجية ، حيث نجحت في تدوير العديد من الدورات المتتالية. في المقابل ، لا يمكن للاستراتيجيات المدربة مسبقا أو المكتسبة من الصفر إكمال دورة في دورة واحدة.

تبحث هذه الورقة أيضا فيما إذا كان البدء بتهيئة وظيفة المكافأة البشرية مفيدا ليوريكا. كما هو موضح ، تتحسن Eureka وتستفيد من المكافآت البشرية ، بغض النظر عن جودة المكافآت البشرية.

نفذت يوريكا أيضا RLHF ، والتي يمكنها تعديل المكافآت بناء على التعليقات البشرية لتوجيه الوكلاء خطوة بخطوة من خلال سلوك أكثر أمانا وأكثر شبها بالإنسان. يوضح المثال كيف يعلم يوريكا روبوتا بشريا أن يعمل بشكل مستقيم مع بعض ردود الفعل البشرية التي تحل محل انعكاس المكافأة التلقائي السابق.

* روبوت بشري يتعلم تشغيل المشية مع يوريكا *

لمزيد من المعلومات، يرجى الرجوع إلى الورقة الأصلية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت