مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
وجدت إحدى الدراسات أن:
بدون أي تدريب ، يمكن ل GPT-4V التفاعل مباشرة مع الهاتف الذكي مثل الإنسان وإكمال مجموعة متنوعة من الأوامر المحددة.
على سبيل المثال ، اطلب منه ** شراء أداة رغوة الحليب في حدود ميزانية تتراوح بين 50 و 100 دولار **.
يمكنه إكمال اختيار برنامج التسوق (Amazon) خطوة بخطوة وفتحه ، والنقر فوق شريط البحث لإدخال "جهاز إزباد الحليب" ، والعثور على وظيفة التصفية ، وتحديد نطاق الميزانية ، والنقر فوق المنتج وإكمال الطلب ، ما مجموعه 9 إجراءات.
وفقا للاختبارات ، يتمتع GPT-4V بمعدل نجاح 75٪ في إكمال مهام مماثلة على iPhone.
لذلك ، يندب بعض الناس أنه مع ذلك ، سيري عديم الفائدة تدريجيا (يفهم iPhone أفضل من Siri)
من كان يعلم أن شخصا ما لوح بيده مباشرة:
لم يكن Siri بهذه القوة في المقام الأول. (دوجهيد)
هتف بعض الناس أيضا:
بدأ عصر التفاعل الصوتي الذكي. قد تكون هواتفنا على وشك أن تصبح أجهزة عرض خالصة.
🐂🍺 حقا؟
** GPT-4V صفر عينة عملية اي فون **
جاءت الدراسة من جامعة كاليفورنيا وسان دييغو ومايكروسوفت وغيرها.
إنه في حد ذاته تطوير MM-Navigator ، وهو وكيل قائم على GPT-4V ، والذي يستخدم لتنفيذ مهام الملاحة في واجهة المستخدم للهواتف الذكية.
الإعداد التجريبي
في كل خطوة زمنية ، يحصل MM-Navigator على لقطة شاشة.
كنموذج متعدد الوسائط ، يقبل GPT-4V الصور والنصوص كمدخلات وينتج إخراج النص.
هنا ، هو قراءة معلومات لقطة الشاشة خطوة بخطوة وإخراج الخطوات المراد تشغيلها.
الآن السؤال هو:
كيفية جعل النموذج يحسب بشكل معقول إحداثيات الموقع الدقيقة التي يجب النقر عليها على شاشة معينة (يمكن ل GPT-4V إعطاء موقع تقريبي فقط).
الحل الذي قدمه المؤلفون بسيط للغاية ، باستخدام أداة OCR و IconNet لاكتشاف ** عناصر واجهة المستخدم على كل شاشة معينة وتمييزها بأرقام مختلفة **.
بهذه الطريقة ، يحتاج GPT-4V فقط إلى مواجهة لقطة شاشة للإشارة إلى الرقم الذي يجب الإشارة إليه.
اختباران للقدرات
تم إجراء الاختبار لأول مرة على iPhone.
للتعامل بنجاح مع الهاتف المحمول ، مطلوب GPT-4V لفهم أنواع الشاشات المختلفة:
الأول هو التفكير الدلالي ، والذي يتضمن فهم المدخلات على الشاشة وتوضيح الإجراءات المطلوبة لإكمال تعليمات معينة.
الأول هو القدرة على الإشارة إلى الموقع الدقيق (أي الرقم في تلك المرحلة) الذي يجب تنفيذ كل إجراء.
لذلك ، طور المؤلفون مجموعتين من الاختبارات للتمييز بينهما.
1. وصف الإجراء المتوقع
فقط إخراج ما يجب القيام به ، وليس إحداثيات محددة.
في هذه المهمة ، يفهم GPT-4V التعليمات ويعطي خطوات تشغيلية بدقة 90.9٪.
على سبيل المثال ، في لقطة الشاشة أدناه لمتصفح Safari ، يريد المستخدم فتح علامة تبويب جديدة ، ولكن علامة + في الزاوية اليسرى السفلية باللون الرمادي ، فماذا أفعل؟
إجابة GPT-4V:
عادة ما يكون هذا جيدا ، ولكن بناء على لقطات الشاشة ، يبدو أنك وصلت إلى حد 500 علامة تبويب ، ولفتح علامة تبويب جديدة ، ستحتاج إلى إغلاق بعض علامات التبويب الحالية ومعرفة ما إذا كان يمكن النقر فوق علامة +.
بالنظر إلى فهم الصورة ، إنه جيد جدا ~ لمزيد من الأمثلة ، يمكنك قلب الورقة.
2. تنفيذ الإجراء الموضعي
عندما طلب من GPT-4V تحويل كل هذه "الكلمات على الورق" إلى إجراءات ملموسة (أي مهمة الاختبار الثانية) ، انخفض معدل دقتها إلى 74.5٪.
مرة أخرى ، في المثال أعلاه ، يمكنه اتباع التعليمات الخاصة به وإعطاء رقم العملية الصحيح ، مثل النقر فوق الرقم 9 لإغلاق علامة تبويب.
ولكن كما هو موضح في الصورة أدناه ، عندما يطلب منك العثور على تطبيق يمكنه التعرف على المباني ، يمكنه الإشارة بدقة إلى استخدام ChatGPT ، لكنه يعطي الرقم الخطأ "15" (والذي يجب أن يكون "5").
هناك أيضا أخطاء لأن لقطة الشاشة نفسها لم يتم تمييزها بالموضع المقابل.
على سبيل المثال ، دعه يقوم بتشغيل وضع التخفي من الصورة أدناه ، أعط wifi مباشرة في "11" الموقف ، إنه ليس تطابقا على الإطلاق。
بالإضافة إلى ذلك ، بالإضافة إلى هذه المهمة البسيطة المكونة من خطوة واحدة ، وجد الاختبار أيضا أن GPT-4V يمكنه التعامل مع التعليمات المعقدة مثل "شراء جهاز تهوية" دون تدريب.
في هذه العملية ، يمكننا أن نرى أن GPT-4V يسرد ما يجب القيام به في كل خطوة بالتفصيل ، بالإضافة إلى الإحداثيات الرقمية المقابلة.
أخيرا ، هناك اختبار على Android.
بشكل عام ، يعمل بشكل أفضل بكثير من الطرز الأخرى مثل Llama 2 و PaLM 2 و ChatGPT.
كانت أعلى درجة أداء إجمالية لأداء المهام مثل التثبيت والتسوق 52.96٪ ، وكانت أعلى درجة لهذه النماذج الأساسية 39.6٪.
بالنسبة للتجربة بأكملها ، فإن أهميتها الكبرى هي إثبات أن النماذج متعددة الوسائط مثل GPT-4V يمكنها نقل القدرات مباشرة إلى المشاهد غير المرئية ، مما يدل على إمكانات كبيرة للتفاعل مع الهاتف المحمول.
تجدر الإشارة إلى أنه بعد قراءة هذه الدراسة، طرح مستخدمو الإنترنت أيضا نقطتين:
الأول هو كيف نحدد نجاح تنفيذ المهمة.
على سبيل المثال ، إذا أردنا أن تشتري عبوات معقم اليدين ، ونريد كيسا واحدا فقط ، لكنها تشتري ستة أكياس أخرى ، فهل هي ناجحة؟
ثانيا ، لا يمكن للجميع أن يتحمسوا في وقت مبكر جدا ، ولا يزال هناك مجال كبير للتقدم إذا كنت ترغب حقا في تسويق هذه التكنولوجيا.
لأن Siri ، الذي يصل معدل دقته إلى 95٪ ، غالبا ما يشكو من كونه ضعيفا جدا.
تعريف الفريق
هناك 12 مؤلفا في هذه الدراسة ، معظمهم من Microsoft.
واحد لشخصين.
وهما آن يان، طالب دكتوراه في جامعة كاليفورنيا، سان دييغو، وتشنغيوان يانغ، باحث أول في مايكروسوفت، حصل على درجة البكالوريوس من جامعة العلوم والتكنولوجيا في الصين ودرجة الدكتوراه من جامعة روتشستر.
الروابط المرجعية:
[1]
[2]
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
يمكن ل GPT-4V "تشغيل" الهاتف لإكمال أي أوامر دون تدريب
المصدر الأصلي: البعد الكمي
وجدت إحدى الدراسات أن:
بدون أي تدريب ، يمكن ل GPT-4V التفاعل مباشرة مع الهاتف الذكي مثل الإنسان وإكمال مجموعة متنوعة من الأوامر المحددة.
على سبيل المثال ، اطلب منه ** شراء أداة رغوة الحليب في حدود ميزانية تتراوح بين 50 و 100 دولار **.
يمكنه إكمال اختيار برنامج التسوق (Amazon) خطوة بخطوة وفتحه ، والنقر فوق شريط البحث لإدخال "جهاز إزباد الحليب" ، والعثور على وظيفة التصفية ، وتحديد نطاق الميزانية ، والنقر فوق المنتج وإكمال الطلب ، ما مجموعه 9 إجراءات.
لذلك ، يندب بعض الناس أنه مع ذلك ، سيري عديم الفائدة تدريجيا (يفهم iPhone أفضل من Siri)
لم يكن Siri بهذه القوة في المقام الأول. (دوجهيد)
** GPT-4V صفر عينة عملية اي فون **
جاءت الدراسة من جامعة كاليفورنيا وسان دييغو ومايكروسوفت وغيرها.
إنه في حد ذاته تطوير MM-Navigator ، وهو وكيل قائم على GPT-4V ، والذي يستخدم لتنفيذ مهام الملاحة في واجهة المستخدم للهواتف الذكية.
الإعداد التجريبي
في كل خطوة زمنية ، يحصل MM-Navigator على لقطة شاشة.
كنموذج متعدد الوسائط ، يقبل GPT-4V الصور والنصوص كمدخلات وينتج إخراج النص.
هنا ، هو قراءة معلومات لقطة الشاشة خطوة بخطوة وإخراج الخطوات المراد تشغيلها.
الآن السؤال هو:
كيفية جعل النموذج يحسب بشكل معقول إحداثيات الموقع الدقيقة التي يجب النقر عليها على شاشة معينة (يمكن ل GPT-4V إعطاء موقع تقريبي فقط).
الحل الذي قدمه المؤلفون بسيط للغاية ، باستخدام أداة OCR و IconNet لاكتشاف ** عناصر واجهة المستخدم على كل شاشة معينة وتمييزها بأرقام مختلفة **.
اختباران للقدرات
تم إجراء الاختبار لأول مرة على iPhone.
للتعامل بنجاح مع الهاتف المحمول ، مطلوب GPT-4V لفهم أنواع الشاشات المختلفة:
الأول هو التفكير الدلالي ، والذي يتضمن فهم المدخلات على الشاشة وتوضيح الإجراءات المطلوبة لإكمال تعليمات معينة.
الأول هو القدرة على الإشارة إلى الموقع الدقيق (أي الرقم في تلك المرحلة) الذي يجب تنفيذ كل إجراء.
لذلك ، طور المؤلفون مجموعتين من الاختبارات للتمييز بينهما.
1. وصف الإجراء المتوقع
فقط إخراج ما يجب القيام به ، وليس إحداثيات محددة.
في هذه المهمة ، يفهم GPT-4V التعليمات ويعطي خطوات تشغيلية بدقة 90.9٪.
على سبيل المثال ، في لقطة الشاشة أدناه لمتصفح Safari ، يريد المستخدم فتح علامة تبويب جديدة ، ولكن علامة + في الزاوية اليسرى السفلية باللون الرمادي ، فماذا أفعل؟
بالنظر إلى فهم الصورة ، إنه جيد جدا ~ لمزيد من الأمثلة ، يمكنك قلب الورقة.
2. تنفيذ الإجراء الموضعي
عندما طلب من GPT-4V تحويل كل هذه "الكلمات على الورق" إلى إجراءات ملموسة (أي مهمة الاختبار الثانية) ، انخفض معدل دقتها إلى 74.5٪.
مرة أخرى ، في المثال أعلاه ، يمكنه اتباع التعليمات الخاصة به وإعطاء رقم العملية الصحيح ، مثل النقر فوق الرقم 9 لإغلاق علامة تبويب.
على سبيل المثال ، دعه يقوم بتشغيل وضع التخفي من الصورة أدناه ، أعط wifi مباشرة في "11" الموقف ، إنه ليس تطابقا على الإطلاق。
في هذه العملية ، يمكننا أن نرى أن GPT-4V يسرد ما يجب القيام به في كل خطوة بالتفصيل ، بالإضافة إلى الإحداثيات الرقمية المقابلة.
بشكل عام ، يعمل بشكل أفضل بكثير من الطرز الأخرى مثل Llama 2 و PaLM 2 و ChatGPT.
كانت أعلى درجة أداء إجمالية لأداء المهام مثل التثبيت والتسوق 52.96٪ ، وكانت أعلى درجة لهذه النماذج الأساسية 39.6٪.
تجدر الإشارة إلى أنه بعد قراءة هذه الدراسة، طرح مستخدمو الإنترنت أيضا نقطتين:
الأول هو كيف نحدد نجاح تنفيذ المهمة.
على سبيل المثال ، إذا أردنا أن تشتري عبوات معقم اليدين ، ونريد كيسا واحدا فقط ، لكنها تشتري ستة أكياس أخرى ، فهل هي ناجحة؟
لأن Siri ، الذي يصل معدل دقته إلى 95٪ ، غالبا ما يشكو من كونه ضعيفا جدا.
تعريف الفريق
هناك 12 مؤلفا في هذه الدراسة ، معظمهم من Microsoft.
وهما آن يان، طالب دكتوراه في جامعة كاليفورنيا، سان دييغو، وتشنغيوان يانغ، باحث أول في مايكروسوفت، حصل على درجة البكالوريوس من جامعة العلوم والتكنولوجيا في الصين ودرجة الدكتوراه من جامعة روتشستر.
الروابط المرجعية:
[1]
[2]