الذكاء الاصطناعي حصلت على Google captcha ، وأحدث طراز كبير متعدد الوسائط أكثر دقة من فهم مساحة GPT-4V

المصدر الأصلي: كيوبيتس

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

لا يمكن ل Google CAPTCHA التوقف عن الذكاء الاصطناعي!

** أحدث طراز كبير متعدد الوسائط ** يجعل من السهل العثور على جميع إشارات المرور في الصورة ويدور بدقة حول الموقع المحدد.

يتجاوز الأداء مباشرة GPT-4V.

هذا هو النموذج الكبير متعدد الوسائط "Ferret" الذي قدمه فريق أبحاث Apple وجامعة كولومبيا.

لديها قدرات ارتباط رسومية ونصية أقوى ، مما يحسن دقة النماذج الكبيرة في مهمة "الرؤية والتحدث والإجابة".

على سبيل المثال ، يمكن أيضا تمييز الجزء الصغير جدا (المنطقة 1) في الشكل أدناه على أنه صدمة.

لم يرد GPT-4V بشكل صحيح ولم يكن أداؤه جيدا في الأجزاء الصغيرة.

لذا ، كيف يفعل النمس ذلك؟

** "نقطة قليلا" صورة نموذج كبير فهم **

المشكلة الأساسية التي يحلها Ferret هي جعل الفهم المكاني لكل من الإحالة والتأريض أقرب.

تشير المراجع إلى جعل النموذج يفهم بالضبط دلالات منطقة معينة ، أي ما هو الموقع الذي يمكن أن يعرفه.

تحديد المواقع هو إعطاء دلالات بحيث يمكن للنموذج العثور على الهدف المقابل في الرسم البياني.

بالنسبة للبشر ، تعد هاتان القدرتان مزيجا طبيعيا ، لكن العديد من النماذج متعددة الوسائط الحالية تستخدم فقط المراجع وتحديد المواقع وحدها.

لذلك ، اقترح Ferret نوعا جديدا من طريقة تمثيل المنطقة المختلطة التي يمكن أن تجمع بين الإحداثيات المنفصلة والميزات المستمرة لتمثيل المناطق في الصورة.

يتيح ذلك للنموذج تمييز الكائنات المتطابقة تقريبا مع المربعات المحيطة.

على سبيل المثال ، في حالة الكائنين في الشكل أدناه ، إذا تم استخدام المربع المحيط المنفصل فقط ، فسيشعر النموذج "بالارتباك" الشديد. إلى جانب التمثيلات المخلوطة ذات الشكل الحر المستمر ، تم حل هذه المشكلة بشكل جيد.

من أجل استخراج السمات المستمرة للمناطق المتنوعة ، تقترح الورقة عينة بصرية للإدراك المكاني قادرة على التعامل مع اختلافات التباين بين الأشكال المختلفة.

نتيجة لذلك ، يمكن ل Ferret قبول مجموعة متنوعة من المدخلات الإقليمية مثل النقاط والمربعات المحيطة والأشكال الحرة وفهم دلالاتها.

في الإخراج ، يمكنه إنشاء إحداثيات كل كائن مرتبط تلقائيا بناء على النص.

لتحقيق ذلك ، تتضمن بنية نموذج Ferret مكونات مثل مشفر الصور ، وأخذ العينات المرئية المدركة مكانيا ، ونموذج اللغة (LLM).

يجمع Ferret بين الإحداثيات المنفصلة والميزات المستمرة لتشكيل تمثيل منطقة هجين.

تم تصميم هذا التمثيل لحل التحدي المتمثل في تمثيل مناطق ذات أشكال وتنسيقات مختلفة ، بما في ذلك النقاط والمربعات المحيطة والأشكال ذات الشكل الحر.

يتم تكميم كل إحداثيات في إحداثيات منفصلة إلى إحداثيات منفصلة لإطار مستهدف ، ويضمن هذا التكميم متانة النموذج لأحجام صور مختلفة.

يتم استخراج الميزات المستمرة بواسطة جهاز أخذ العينات المرئي للإدراك المكاني ، والذي يستخدم الأقنعة الثنائية وخرائط المعالم لأخذ عينات عشوائية من النقاط داخل عائد الاستثمار والحصول على الميزات من خلال الاستيفاء ثنائي الخط.

تتم معالجة هذه الميزات من خلال وحدة الوعي المكاني المستوحاة من نموذج سحابة نقطة 3D ، مكثفة في متجه واحد ، وتعيينها إلى نموذج لغة كبيرة (LLM) لمزيد من المعالجة.

لزيادة قدرات Ferret ، أنشأت الورقة أيضا مجموعة بيانات تسمى GRIT.

تحتوي مجموعة البيانات هذه على 1.1 مليون عينة وتغطي أربع فئات رئيسية: الكائنات الفردية ، والعلاقات بين الكائنات ، والأوصاف الخاصة بالمنطقة ، والتفكير المعقد القائم على المنطقة.

تتضمن مجموعة بيانات GRIT البيانات المحولة من مجموعات البيانات العامة ، وبيانات ضبط التعليمات التي تم إنشاؤها من خلال ChatGPT و GPT-4 ، ويتم توفير 95 ألف عينة سلبية صعبة إضافية لتحسين متانة النموذج.

تظهر النتائج التجريبية أن النموذج لا يظهر فقط أداء متفوقا في مهام المراجع والتوطين الكلاسيكية ، ولكنه يتجاوز أيضا نماذج MLLM الأخرى الموجودة في الحوار متعدد الوسائط بناء على المنطقة والحاجة إلى التوطين.

بالإضافة إلى ذلك ، تقترح الدراسة مقعد النمس الذي يمكنه تقييم المرجع / التوطين ، والدلالات ، والمعرفة ، والقدرة على التفكير في المناطق المحلية للصورة.

تفوق نموذج Ferret ، الذي تم تقييمه على LLaVA-Bench و Ferret-Bench ، في جميع المهام ، خاصة في المهام الثلاث الجديدة التي تتطلب أساسا مرجعيا وبصريا.

علاوة على ذلك ، هناك تحسن كبير في تفاصيل وصف الصورة ، وهناك انخفاض كبير في الهلوسة.

كل الفريق الصيني

يتم تقديم نموذج Ferret الكبير بشكل مشترك من قبل فريق أبحاث الذكاء الاصطناعي / ML التابع لشركة Apple وجامعة كولومبيا ، مع تشكيلة صينية بالكامل.

هناك Haoxuan و Zhang Haotian كعمل مشترك.

أنت Haoxuan هو الآن دكتوراه في علوم الكمبيوتر من جامعة كولوم وسوف تنضم إلى فريق الذكاء الاصطناعي / ML في Apple بعد التخرج. تخرج من جامعة شيديان في عام 2018.

تشمل اهتماماته البحثية فهم اللغة المرئية وتوليد الصور النصية واللغة المرئية.

Zhang Haotian هو الآن باحث في الذكاء البصري في فريق الذكاء الاصطناعي / ML من Apple.

قبل انضمامه إلى Apple ، حصل Haotian على درجة الدكتوراه من جامعة واشنطن ودرجة البكالوريوس من جامعة Shanghai Jiao Tong .

وهو أحد المؤلفين الرئيسيين ل GLIP / GLIPv2 ، الذي تم ترشيحه لجائزة أفضل ورقة CVPR2022.

بالإضافة إلى ذلك ، يضم الفريق Gan Zhe و Wang Zirui و Cao Liangliang و Yang Yinfei وغيرهم من الباحثين السابقين السابقين في Google و Microsoft في النماذج الكبيرة متعددة الوسائط.

عنوان الورقة:

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت