يعمل GPT-4 ك "مخطط ومدقق" ، وهو نموذج مخطط Wensheng تخريبي من طبقتين

المصدر الأصلي: مجتمع AIGC المفتوح

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

أظهرت نماذج مثل DALL-E 3 و Midjourney و Stable Diffusion قدرة إبداعية كبيرة على إنشاء صور عالية الجودة من أنواع مختلفة مثل الرسومات ، والبانك ، و 3D ، والصور ثنائية الأبعاد من النص ، لكنها تفتقر قليلا إلى إنشاء المخططات العلمية (الأعمدة ، الرسوم البيانية ، الخطوط المربعة ، الأشجار ، إلخ).

وذلك لأن النموذج يفتقد كائنات مهمة عند إنشاء الرسوم التخطيطية، ويولد أسهم علاقة كائن غير صحيحة، وينتج تسميات نصية غير قابلة للقراءة تفتقر إلى تحكم تخطيط دقيق على الكائنات. على وجه الخصوص ، عندما تحتوي كائنات متعددة على أسهم معقدة أو علاقات مقطع خطي ، لا يمكن عرض نص واضح وقابل للقراءة ، وهو أمر بالغ الأهمية لإنشاء المخطط.

من أجل حل هاتين المشكلتين ، اقترحت جامعة نورث كارولينا إطار عمل DiagrammerGPT. أولا ، استخدم GPT-4 للعمل ك "مخطط" لإنشاء معلومات تخطيط التخطيط للرسم التخطيطي بناء على أوصاف النص.

تحتوي معلومات التخطيط على كيانات (كائنات وتسميات نصية) وعلاقات بين الكيانات (أسهم ومقاطع وما إلى ذلك) ومعلومات تخطيط للكيانات (إحداثيات المربع المحيط). بعد ذلك ، يتم استخدام GPT-4 ك "مدقق" لمراجعة خطة التخطيط بأكملها وتحسين تفاصيل المخططات.

في مرحلة إنشاء الرسم التخطيطي ، يمكن استخدام نموذج نشر DiagramGLIGEN لإنشاء مخططات دقيقة وفقا لخطة الرسم التخطيطي ، ويمكن عرض التسميات النصية بواسطة مكتبة Pillow لتحسين الدقة.

وفقا لبيانات الاختبار ، يعد DiagrammerGPT أفضل بكثير من المخططات التي تم إنشاؤها بواسطة نماذج مثل الانتشار المستقر و VPGen و AutomaTikZ على مؤشرات كمية متعددة.

من حيث تقييم دقة العلاقة بين المخططات والنصوص والكائنات ، حقق DiagrammerGPT درجات أفضل بنسبة 36٪ و 48٪ من النموذج القياسي ، على التوالي. تعد هذه الدراسة إنجازا كبيرا لنماذج الرسوم البيانية عالية الدقة لتوليد النصوص.

عنوان مفتوح المصدر:

عنوان:

تخطيط الرسم البياني

أكبر ابتكار في إطار عمل DiagrammerGPT هو أنه يستخدم قوة معالجة اللغة الطبيعية القوية ل GPT-4 لتوجيه إنشاء تخطيطات الرسم التخطيطي. من أجل إنشاء خطة أكثر دقة ، تم أيضا تصميم آلية تغذية مرتدة مغلقة الحلقة.

يعمل أحد GPT-4 ك "مخطط" لإنشاء الخطة الأولية ، ويعمل GPT-4 الآخر ك "مدقق" ، حيث يقوم بتقييم دقة الخطة وتقديم الملاحظات. يمكن للمخططين ضبط التخطيط بناء على الملاحظات.

**1) إنشاء تخطيط الرسم البياني الأولي **

قام الباحثون بتدريب GPT-4 على 10 عينات تعلم سياقية ، يحتوي كل منها على وصف كامل لنص الرسم التخطيطي والكيانات والعلاقات ومعلومات التخطيط. هناك 3 عناصر للخطة:

الكيانات: قائمة بالكائنات والتسميات النصية. يشير الكائن إلى عنصر صورة في رسم تخطيطي ، وتشير تسمية النص إلى وصف نصي لكائن.

العلاقات: العلاقات بين الكيانات، مثل اتصالات الأسهم واتصالات مقطع الخط وكائنات تسمية تسمية التسمية النصية وما إلى ذلك.

التخطيط: تنسيق معلومات المربع المحيط لجميع الكيانات، بتنسيق [x,y,w,h].

2) تحسين التخطيط

ومن أجل زيادة تحسين نوعية التخطيط، اقترحت آلية تغذية مرتدة مغلقة الحلقة للمخططين ومراجعي الحسابات من أجل التحسين التكراري. يعمل GPT-4 كمخطط ويعمل GPT-4 آخر كمدقق. يتحقق المدقق مما إذا كانت الخطة تتطابق مع وصف النص ويقدم ملاحظات ؛ يقوم المخططون بتحديث الخطط بناء على التعليقات.

من بينها ، يتم تدريب المدقق GPT-4 أيضا من خلال التعلم الخاص بالسياق لتقديم ملاحظات فعالة. يستخدم كلا التدريبين عينات تعليمية سياقية مختلفة.

إنشاء الرسم البياني

استخدم الباحثون نموذج نشر Diagram GLIGEN لتوليد الرسم البياني ، وأضافوا طبقة انتباه ذاتي مسورة ، والتي يمكنها استخدام معلومات تخطيط تخطيط الرسم البياني لتوجيه توليد الصور.

على عكس نموذج GLIGEN الأصلي ، الذي يتعامل فقط مع الكائنات ، يمكن ل DiagramGLIGEN التعامل مع كل من تسمية النص وعلاقات الأسهم كمدخلات تخطيط. يتم تدريب DiagramGLIGEN على مجموعة بيانات AI2D-Caption لإنشاء مخططات علمية خاصة بالمجال.

ومع ذلك ، نظرا لسوء عرض نص نموذج الانتشار نفسه ، استخدم الباحثون مكتبة Pillow لتقديم تسميات نصية بشكل صريح لتحسين وضوح النص.

مجموعة بيانات التدريب والتقييم

استنادا إلى مجموعة بيانات الرسم البياني العلمي AI2D ، قام الباحثون ببناء مجموعة بيانات AI2D-Caption للتدريب واختبار البيانات لإنشاء النص إلى الرسم البياني. يحتوي AI2D على حوالي 4900 صورة للمخططات والرسوم البيانية العلمية ، والتي تغطي علم الفلك والبيولوجيا والهندسة والمزيد.

تم اختيار ما مجموعه 105 مخططات ، وتم استخدام نموذج لغة كبير لإنشاء عناوين صور مفصلة وأوصاف كائنات لكل مخطط. من بينها ، تم استخدام 30 كعينات تعليمية سياقية لنموذج اللغة ، و 75 تم استخدامها كمجموعات اختبار.

بالمقارنة مع AI2D الأصلي ، الذي كان له عنوان بسيط فقط ، يوفر AI2D-Caption وصفا نصيا أكثر ثراء ، بما في ذلك عنوان المخطط الكامل وتفاصيل كل كائن.

تظهر البيانات المعيارية المتعددة أنه في VP ، فإن كائن DiagrammerGPT ورقمه وعلاقته ودقة عرض النص أفضل بكثير من النموذج القياسي ، مما يثبت الجودة العالية للمخططات التي تم إنشاؤها في العديد من الجوانب.

في التسميات التوضيحية للصور ، يمكن أن تنتج المخططات التي تم إنشاؤها بواسطة DiagrammerGPT تسميات توضيحية أكثر صلة أقرب إلى قيم الحقيقة. على CLIPScore ، يكون تشابه صورة إلى نص وصورة صورة في DiagrammerGPT أعلى ، أقرب إلى مخططات وعناوين الحقيقة. كما تم إجراء تقييمات بشرية ، حيث قال الغالبية إنهم يفضلون المخططات التي تم إنشاؤها بواسطة DiagrammerGPT.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت