مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
تم إطلاق نموذج القاعدة من الجيل الثالث المطور ذاتيا ChatGLM3 اليوم!
هذا تحسين آخر لنموذج ChatGLM الأساسي من قبل فريق Zhipu الذكاء الاصطناعي منذ إطلاق طراز الجيل الثاني في يونيو.
بالإضافة إلى ذلك ، في مؤتمر الكمبيوتر الصيني لعام 2023 (CNCC) في 27 أكتوبر ، الذكاء الاصطناعي Zhipu أيضا ChatGLM3-6B (32k) مفتوح الوسائط ، CogVLM-17B متعدد الوسائط ، ووكيل AgentLM.
بعد إصدار سلسلة طرازات ChatGLM3 ، أصبحت Zhipu الشركة الوحيدة في الصين التي قامت بقياس خط إنتاج الطراز الكامل ل OpenAI.
أصبح مساعد الذكاء الاصطناعي التوليدي Zhipu Qingyan أيضا أول منتج نموذجي واسع النطاق يتمتع بقدرات تفاعل الكود في الصين.
تم تطوير النموذج ذاتيا بالكامل ، ويتكيف مع الرقائق المحلية ، مع أداء أقوى ونظام بيئي أكثر انفتاحا للمصدر.
كأول شركة تدخل البحث النموذجي على نطاق واسع ، فإن Zhipu الذكاء الاصطناعي هي أول من قدم الورقة!
علاوة على ذلك ، أكملت Zhipu الذكاء الاصطناعي ما مجموعه أكثر من 2.5 مليار يوان في التمويل هذا العام ، Meituan و Ant و Alibaba و Tencent ... تظهر قائمة المستثمرين الفاخرة ثقة الصناعة القوية في Zhipu الذكاء الاصطناعي.
** تهدف إلى الترقية التقنية ل GPT-4V **
في الوقت الحاضر ، أظهر نموذج الرؤية متعدد الوسائط GPT-4V قدرات قوية للتعرف على الصور.
في الوقت نفسه ، بهدف GPT-4V ، قامت Zhipu الذكاء الاصطناعي أيضا بترقية القدرات الأخرى ل ChatGLM3 هذه المرة. من بينها ، يمكن لنموذج الفهم متعدد الوسائط CogVLM محاولة فهم وتحديث 10+ مجموعات بيانات تقييم الرسوم البيانية والنصوص القياسية الدولية SOTA. حاليا ، CogVLM-17B مفتوح المصدر.
يمكن لمترجم التعليمات البرمجية إنشاء وتنفيذ التعليمات البرمجية وفقا لاحتياجات المستخدم ، وإكمال المهام المعقدة تلقائيا مثل تحليل البيانات ومعالجة الملفات.
يعمل بحث الويب على تحسين WebGLM ، والذي يمكنه العثور تلقائيا على المعلومات ذات الصلة على الإنترنت وفقا للسؤال ، وتوفير روابط إلى الأدبيات أو المقالات المرجعية ذات الصلة عند الإجابة.
بالإضافة إلى ذلك ، تم أيضا تحسين القدرات الدلالية والمنطقية ل ChatGLM3 بشكل كبير.
الإصدار 6B المصدر المفتوح المباشر
تجدر الإشارة إلى أنه بمجرد إصدار ChatGLM3 ، الذكاء الاصطناعي Zhipu مباشرة نموذج المعلمة 6B مفتوح المصدر للمجتمع.
تظهر نتائج التقييم أنه بالمقارنة مع ChatGLM 2 ومقارنة بالنماذج المحلية من نفس الحجم ، احتل ChatGLM3-6B المرتبة الأولى في 9 من 44 اختبارا لمجموعة البيانات العامة الصينية والإنجليزية.
ارتفع MMLU بنسبة 36٪ ، C بنسبة 33٪ ، GSM8K بنسبة 179٪ ، و BBH بنسبة 126٪.
يعمل إصدار 32k مفتوح المصدر ، ChatGLM3-6B-32K ، بشكل أفضل في LongBench.
بالإضافة إلى ذلك ، فهي أحدث "تقنية تحسين الاستدلال الديناميكي + ذاكرة الفيديو الفعالة" التي تجعل إطار الاستدلال الحالي أكثر كفاءة في ظل نفس ظروف الأجهزة والطرازات.
مقارنة بأفضل تطبيق مفتوح المصدر الحالي ، مقارنة ب vLLM الذي أطلقته جامعة بيركلي وأحدث إصدار من Hugging Face TGI ، تزداد سرعة الاستدلال بمقدار 2-3 مرات ، ويتم تقليل تكلفة الاستدلال بمقدار 1 مرة ، مع 0.5 نقطة فقط لكل ألف رمز ، وهو أقل تكلفة.
**ضبط الوكيل المطور ذاتيا ، تنشيط قدرة الوكيل **
الأمر الأكثر إثارة للدهشة هو أن ChatGLM3 يجلب أيضا قدرة وكيل جديدة.
يأمل Zhipu الذكاء الاصطناعي أن تتمكن النماذج الكبيرة من التواصل بشكل أفضل مع الأدوات الخارجية من خلال واجهات برمجة التطبيقات ، وحتى تحقيق تفاعل كبير للنموذج من خلال الوكلاء.
من خلال دمج تقنية AgentTuning المطورة ذاتيا ، يمكن تنشيط قدرة الوكيل الذكي للنموذج ، خاصة فيما يتعلق بالتخطيط والتنفيذ الذكي ، وهو أعلى بنسبة 1000٪ من ChatGLM 2.
في أحدث إصدار من AgentBench ، يقترب ChatGLM3-turbo من GPT-3.5.
في الوقت نفسه ، فإن AgentLM مفتوح أيضا لمجتمع المصادر المفتوحة. ما يأمله فريق Zhipu الذكاء الاصطناعي هو جعل النموذج مفتوح المصدر يصل أو حتى يتجاوز قدرة الوكيل لنموذج المصدر المغلق.
وهذا يعني أن الوكيل سيمكن الدعم الأصلي للنماذج المحلية الكبيرة للسيناريوهات المعقدة مثل "استدعاء الأدوات ، وتنفيذ التعليمات البرمجية ، والألعاب ، وعمليات قاعدة البيانات ، والبحث في الرسم البياني المعرفي والاستدلال ، وأنظمة التشغيل".
** تم إصدار 1.5B / 3B في نفس الوقت ، يمكن تشغيل الهاتف المحمول **
هل تريد تشغيل ChatGLM على هاتفك؟ موافق!
هذه المرة ، أطلقت ChatGLM3 أيضا نموذج اختبار طرفي يمكن نشره على الهواتف المحمولة ، مع معلمتين: 1.5B و 3B.
يمكنه دعم مجموعة متنوعة من الهواتف المحمولة بما في ذلك Vivo و Xiaomi و Samsung والأنظمة الأساسية داخل السيارة ، وحتى يدعم الاستدلال على رقائق وحدة المعالجة المركزية على الأنظمة الأساسية للجوال ، بسرعة تصل إلى 20 رمزا / ثانية.
من حيث الدقة ، فإن أداء طرازي 1.5B و 3B قريب من أداء نموذج ChatGLM2-6B في التقييم القياسي العام ، لذا امض قدما وجربه!
** تم إطلاق جيل جديد من "Zhipu Qingyan" بالكامل **
تماما كما تمتلك ChatGPT نموذج GPT-4 قوي وراءها ، فإن مساعد الذكاء الاصطناعي التوليدي "Zhipu Qingyan" لفريق Zhipu الذكاء الاصطناعي يباركه أيضا ChatGLM3.
بعد عرض البث المباشر لهذا الفريق ، تم إطلاق الوظيفة مباشرة ، والشيء الرئيسي هو الإخلاص!
عنوان الاختبار:
مترجم الكود
كواحد من أكثر المكونات الإضافية شيوعا ل ChatGPT ، يمكن لتحليل البيانات المتقدم (مترجم الكود سابقا) تحليل المشكلات بمزيد من التفكير الرياضي بناء على إدخال اللغة الطبيعية ، وإنشاء التعليمات البرمجية المناسبة في نفس الوقت.
الآن ، بدعم من ChatGLM3 الذي تمت ترقيته حديثا ، أصبح "Zhipu Qingyan" أول منتج نموذجي واسع النطاق يتمتع بقدرات تحليل البيانات المتقدمة في الصين ، والتي يمكنها دعم معالجة الصور والحوسبة الرياضية وتحليل البيانات وسيناريوهات الاستخدام الأخرى.
لا يمكن فهم رومانسية رجال العلوم والهندسة إلا من قبل "Zhipu Qingyan".
على الرغم من أن الرئيس التنفيذي Zhang Peng قدم أداء حيا لرسم انقلاب "القلب الأحمر" ، إلا أنه حاول مرة أخرى ، وظهرت النتيجة في ثوان.
وبالمثل ، فإن ChatGLM3 الذي تمت ترقيته جيد جدا في تحليل البيانات.
بعد إجراء بعض التحليل ، يمكن رسم رسم بياني لتوزيع الطول بناء على طول الحقل.
### تحسينات البحث
مع إضافة قدرات نموذج WebGLM الكبيرة ، أصبح لدى "Zhipu Qingyan" الآن أيضا القدرة على البحث عن المحسن - يمكنه تلخيص الإجابات على الأسئلة بناء على أحدث المعلومات على الإنترنت ، وإرفاق روابط مرجعية.
على سبيل المثال ، بشر iPhone 15 مؤخرا بموجة من تخفيضات الأسعار ، ما هو حجم التقلبات المحددة؟
الجواب الذي قدمه "Zhipu Qingyan" ليس سيئا!
### الفهم الجرافيكي
يعمل نموذج CogVLM على تحسين قدرة فهم الصورة والنص الصينية ل Zhipu Qingyan ، ويحصل على قدرة فهم الصورة بالقرب من GPT-4V.
يمكنه الإجابة على أنواع مختلفة من الأسئلة المرئية ، ويمكنه إكمال اكتشاف الكائنات المعقدة ووضع العلامات وإكمال التعليق التوضيحي التلقائي للبيانات.
على سبيل المثال ، دع CogVLM يحدد عدد الأشخاص الموجودين في الصورة.
أضف القليل من الصعوبة ، ثم أعط صورة لثلاث برتقال معا ، ويمكنك أيضا تحديد الكمية بدقة.
نيمار ، ميسي ، رونالدو ، CogVLM هو أيضا لا لبس فيه.
بالنسبة لمشاكل الرياضيات المرئية حيث تتم إضافة تفاحة 2 وتفاحة واحدة ، يمكن ل CogVLM أيضا القيام بذلك بشكل صحيح.
** GLM مقابل GPT: قياس مجموعة منتجات OpenAI الكاملة! **
من ChatGPT ، تطبيق الدردشة والمحادثة ، مترجم التعليمات البرمجية ، المكون الإضافي لإنشاء التعليمات البرمجية ، إلى DALL · E 3 ، ثم إلى النموذج المرئي متعدد الوسائط GPT-4V ، لدى OpenAI حاليا مجموعة كاملة من بنية المنتج.
إذا نظرنا إلى الوراء في الصين ، فإن الشركة الوحيدة التي يمكنها تحقيق تغطية المنتج الأكثر شمولا هي Zhipu الذكاء الاصطناعي.
### محادثة: ChatGPT مقابل. شات جي إل إم
ليست هناك حاجة لقول المزيد عن إدخال الدجاج المقلي الشهير ChatGPT.
في بداية هذا العام ، أصدر فريق Zhipu الذكاء الاصطناعي أيضا ChatGLM ، وهو نموذج حوار على مستوى 100 مليار.
بالاعتماد على أفكار تصميم ChatGPT ، قام المطورون بحقن التدريب المسبق للكود في النموذج الأساسي 100 مليار GLM-130B.
في الواقع ، في وقت مبكر من عام 2022 ، افتتحت Zhipu الذكاء الاصطناعي GLM-130B لمجتمع البحث والصناعة ، وتم قبول هذا البحث أيضا بواسطة ACL 2022 و ICLR 2023.
تم تدريب كل من طرازي ChatGLM-6B و ChatGLM-130B على المتن الصيني والإنجليزي الذي يحتوي على رموز 1T ، باستخدام الضبط الدقيق الخاضع للإشراف (SFT) ، وتمهيد التغذية المرتدة ، وتعلم تعزيز التغذية الراجعة البشرية (RLHF).
نموذج ChatGLM قادر على توليد إجابات تتوافق مع التفضيلات البشرية. إلى جانب تقنية التكميم ، يمكن للمستخدمين النشر محليا على بطاقات الرسومات من فئة المستهلك (مطلوب فقط 6 جيجابايت من ذاكرة الفيديو على مستوى التكميم INT4) ، وتشغيل ChatGLM الخاص بهم على أجهزة الكمبيوتر المحمولة استنادا إلى طراز GLM.
في 14 مارس ، الذكاء الاصطناعي Zhipu ChatGLM-6B مفتوح المصدر للمجتمع ، وفاز بالمركز الأول في تقييم الطرف الثالث للغة الطبيعية الصينية والحوار الصيني والأسئلة والأجوبة الصينية ومهام التفكير.
في الوقت نفسه ، ولدت مئات المشاريع أو التطبيقات القائمة على ChatGLM-6B.
من أجل زيادة تعزيز تطوير مجتمع المصدر المفتوح للنموذج الكبير ، أصدرت Zhipu الذكاء الاصطناعي ChatGLM2 في يونيو ، وتم ترقية نموذج الحوار الأساسي البالغ 100 مليار ومفتوح المصدر ، بما في ذلك أحجام مختلفة 6B و 12B و 32B و 66B و 130B، وتحسين القدرات وإثراء السيناريوهات.
يحتل ChatGLM 2 المرتبة الأولى في القائمة الصينية ، اعتبارا من 25 يونيو 2023 ، يحتل ChatGLM2 المرتبة 0 في القائمة C ، ويحتل ChatGLM2-6B المرتبة 6. بالمقارنة مع طراز الجيل الأول ، حقق ChatGLM 2 تحسينات بنسبة 16٪ و 36٪ و 280٪ في MMLU و C- و GSM8K على التوالي.
تجدر الإشارة إلى أنه في غضون بضعة أشهر فقط ، تم استخدام ChatGLM-6B و ChatGLM2-6B على نطاق واسع.
في الوقت الحاضر ، تم جمع ما مجموعه 50,000+ نجمة على GitHub. بالإضافة إلى ذلك ، هناك 10,000,000+ تنزيل على Hugging Face ، لتحتل المرتبة الأولى في الاتجاه لمدة أربعة أسابيع.
شاتGLM-6B:
شاتGLM2-6B:
** تحسينات البحث: WebGPT مقابل ويب جي إل إم**
من أجل حل مشكلة "وهم" النماذج الكبيرة ، فإن الحل العام هو الجمع بين المعرفة في محرك البحث والسماح للنموذج الكبير بتنفيذ "تحسين الاسترجاع".
في وقت مبكر من عام 2021 ، قام OpenAI بضبط نموذج يمكنه تجميع نتائج البحث بناء على GPT-3 - WebGPT.
يقوم WebGPT بنمذجة سلوك البحث البشري ، والبحث في صفحات الويب للعثور على إجابات ذات صلة ، وإعطاء مصادر الاقتباس ، بحيث يمكن تتبع نتائج الإخراج.
الأهم من ذلك ، أنها حققت نتائج ممتازة في المجال المفتوح أسئلة وأجوبة طويلة.
بتوجيه من هذه الفكرة ، ولد WebGLM ، نموذج "الإصدار الشبكي" من ChatGLM ، وهو نموذج يعتمد على ضبط معلمة ChatGLM البالغ 10 مليارات ، وينصب التركيز الرئيسي على البحث في الشبكة.
عنوان:
على سبيل المثال ، عندما تريد معرفة سبب لون السماء باللون الأزرق. يعطي WebGLM الإجابة على الفور عبر الإنترنت ويتضمن رابطا لتعزيز مصداقية استجابة النموذج.
من الناحية المعمارية ، يتضمن نظام تحسين البحث WebGLM ثلاثة مكونات مهمة: المسترد والمولد والهداف.
ينقسم المسترد القائم على LLM إلى مرحلتين ، أحدهما عبارة عن استرجاع شبكة خشنة الحبيبات (البحث ، الاستحواذ ، الاستخراج) ، والآخر هو استرجاع التقطير الدقيق.
في العملية الكاملة للمسترد ، يتم استهلاك الوقت بشكل أساسي في عملية جلب صفحة الويب ، لذلك يستخدم WebGLM تقنية غير متزامنة متوازية لتحسين الكفاءة.
مولد التمهيد هو النواة وهو مسؤول عن توليد إجابات عالية الجودة للأسئلة من الصفحات المرجعية التي تم الحصول عليها من المسترد.
يستخدم قدرات الاستدلال السياقي للنماذج الكبيرة لإنشاء مجموعات بيانات ضمان الجودة عالية الجودة ، ويصمم استراتيجيات التصحيح والاختيار لتصفية مجموعات فرعية عالية الجودة للتدريب.
يتم استخدام المقيم النهائي لتسجيل الإجابات التي تم إنشاؤها بواسطة WebGLM من خلال RLHF من أجل التوافق مع التفضيلات البشرية.
تظهر النتائج التجريبية أن WebGLM يمكنه توفير نتائج أكثر دقة وإكمال مهام الأسئلة والأجوبة بكفاءة. حتى ، يمكن أن تقترب من WebGPT مع 175 مليار معلمة مع أداء 10 مليارات معلمة.
في الوقت الحاضر ، تم قبول هذا البحث من قبل KDD 2023 ، كما قام فريق Zhipu الذكاء الاصطناعي بفتح المصادر للقدرات ومجموعات البيانات.
عنوان المشروع:
** فهم الصورة والنص: GPT-4V مقابل. CogVLM **
في سبتمبر من هذا العام ، رفعت OpenAI رسميا الحظر المفروض على قدرات GPT-4 متعددة الوسائط المذهلة.
يتمتع GPT-4V ، المدعوم بهذا ، بقدرة قوية على فهم الصور وقادر على معالجة المدخلات متعددة الوسائط المختلطة بشكل تعسفي.
على سبيل المثال ، لا يمكن معرفة أن الطبق الموجود في الصورة هو مابو توفو ، ويمكنه حتى إعطاء المكونات اللازمة لصنعه.
في أكتوبر ، قامت Zhipu بفتح المصدر نموذجا أساسيا جديدا للغة المرئية ، CogVLM ، والذي يمكنه تحقيق التكامل العميق لميزات اللغة المرئية دون التضحية بأداء أي مهام البرمجة اللغوية العصبية.
يختلف CogVLM عن طرق الاندماج الضحلة الشائعة ، حيث يدمج وحدة خبير رؤية قابلة للتدريب في آلية الانتباه وطبقة الشبكة العصبية المغذية.
يحقق هذا التصميم محاذاة عميقة بين ميزات الصورة والنص ، مما يعوض بشكل فعال عن الاختلافات بين نموذج اللغة المدرب مسبقا ومشفر الصور.
في الوقت الحاضر ، CogVLM-17B هو النموذج الذي حصل على أول درجة شاملة في القائمة الأكاديمية الموثوقة متعددة الوسائط ، وقد حقق نتائج SOTA أو المركز الثاني في 14 مجموعة بيانات.
يحقق أفضل أداء (SOTA) عبر 10 معايير موثوقة عبر الوسائط ، بما في ذلك NoCaps و Flicker30k captioning و RefCOCO و RefCOCO + و RefCOCOg و Visual7W و GQA و ScienceQA و VizWiz-VQA و TDIUC.
الفكرة الأساسية ل CogVLM هي "المرئية أولا".
عادة ما تقوم النماذج متعددة الوسائط السابقة بمحاذاة ميزات الصورة مباشرة إلى مساحة الإدخال الخاصة بميزات النص ، وعادة ما يكون برنامج تشفير ميزات الصورة صغيرا ، وفي هذه الحالة ، يمكن اعتبار الصورة "تابعة" للنص ، ويكون التأثير محدودا بشكل طبيعي.
من ناحية أخرى ، يعطي CogVLM الأولوية للفهم المرئي في النموذج متعدد الوسائط ، باستخدام مشفر رؤية 5B معلمة ووحدة خبير رؤية 6B معلمة لنمذجة ميزات الصورة بإجمالي معلمات 11B ، وهو أكثر من مقدار المعلمة 7B للنص.
في بعض الاختبارات ، تفوقت CogVLM على GPT-4V.
هناك 4 منازل في الصورة ، 3 مرئية بالكامل ، ولا يمكن رؤية 1 إلا إذا قمت بالتكبير.
يمكن ل CogVLM تحديد هذه المنازل الأربعة بدقة ، بينما يمكن ل GPT-4V تحديد 3 منازل فقط.
في هذا السؤال، يتم اختبار الصور التي تحتوي على نص.
يصف CogVLM بأمانة المشهد والنص المقابل.
### ** مخطط ونشنغ: دال · E مقابل. كوجفيو**
أقوى نموذج رسم بياني Wensheng من OpenAI هو DALL · E 3 أيضا.
في المقابل ، أطلق فريق Zhipu الذكاء الاصطناعي CogView ، وهو نموذج عالمي قائم على تحويل النص إلى صورة تم تدريبه مسبقا.
عنوان:
الفكرة العامة ل CogView هي إجراء تدريب الانحدار الذاتي عن طريق ربط ميزات النص وميزات رمز الصورة. أخيرا ، يتم إدخال ميزة الرمز المميز للنص فقط ، ويمكن للنموذج إنشاء رموز مميزة للصور باستمرار.
على وجه التحديد ، يتم تحويل النص "الصورة الرمزية للقط اللطيف" أولا إلى رمز مميز ، ويتم استخدام نموذج SentencePiece هنا.
ثم يتم إدخال صورة قطة ، ويتم تحويل جزء الصورة إلى رمز مميز من خلال وحدة فك ترميز تلقائية منفصلة.
بعد ذلك ، يتم تجميع ميزات الرمز المميز للنص والصورة معا ، ثم إدخالها في نموذج GPT لبنية المحول لتعلم إنشاء الصور.
أخيرا ، بعد اكتمال التدريب ، سيقوم النموذج بفرز النتائج التي تم إنشاؤها عن طريق حساب درجة التسمية التوضيحية لتحديد النتائج الأكثر تطابقا أثناء مهمة إنشاء النص إلى صورة.
مقارنة بين دال · E ومخططات GAN الشائعة ، تم تحسين نتائج CogView بشكل كبير.
في عام 2022 ، قام الباحثون بترقية نموذج الرسم البياني Wensheng CogView2 مرة أخرى ، وتمت مقارنة التأثير مباشرة ب DALL · E2。
عنوان:
بالمقارنة مع CogView ، تعتمد بنية CogView2 على التسلسل الهرمي ووضع الانحدار الذاتي المتوازي لتوليد الصور.
في الورقة ، قام الباحثون بتدريب نموذج محول معلمة 6 مليارات ، نموذج اللغة العامة عبر الوسائط (CogLM) ، وضبطه لتحقيق دقة فائقة سريعة.
أظهرت النتائج التجريبية أن العلاقة مع دال· يتمتع E2 أيضا بميزة توليد النتائج باستخدام CogView2 ويمكنه أيضا دعم التحرير التفاعلي الموجه بالنص للصور.
في نوفمبر من نفس العام ، قام الفريق ببناء نموذج لتوليد النص إلى فيديو ، CogVideo ، استنادا إلى نموذج CogView2.
تنقسم بنية النموذج إلى وحدتين: يعتمد الجزء الأول على CogView2 ويولد عدة إطارات من الصور من النص. الجزء الثاني هو استيفاء الصورة بناء على نموذج الانتباه ثنائي الاتجاه لإنشاء فيديو كامل بمعدل إطارات أعلى.
في الوقت الحاضر ، جميع النماذج المذكورة أعلاه مفتوحة المصدر. هل الفرق من تسينغهوا مباشرة وصادقة؟
كود: الدستور الغذائي مقابل كود جيكس
في مجال إنشاء التعليمات البرمجية ، أصدرت OpenAI مخطوطة جديدة ومطورة في وقت مبكر من أغسطس 2021 ، وهي بارعة في أكثر من 10 لغات برمجة بما في ذلك Python و Java و Go و Perl و PHP و Ruby و Swift و Type وحتى Shell.
عنوان:
يمكن للمستخدمين ببساطة إعطاء مطالبة بسيطة وجعل الدستور الغذائي يكتب الكود تلقائيا باللغة الطبيعية.
يتم تدريب الدستور الغذائي على GPT-3 ، وتحتوي البيانات على مليارات الأسطر من شفرة المصدر. وبالإضافة إلى ذلك، يمكن للدستور الغذائي أن يدعم المعلومات السياقية التي تزيد عن 3 مرات أطول من GPT-3.
كشركة رائدة في الصين ، Zhipu مفتوح المصدر CodeGeeX ، وهو نموذج مدرب مسبقا لإنشاء التعليمات البرمجية والترجمة التحريرية وتفسير لغات البرمجة المتعددة مع 13 مليار معلمة ، في سبتمبر 2022 ، وتم قبوله لاحقا من قبل KDD 2023 (Long Beach).
عنوان:
في يوليو 2023 ، أصدرت Zhipu CodeGeeX2-6B أقوى وأسرع وأخف وزنا ، والذي يمكنه دعم أكثر من 100 لغة ، والوزن مفتوح تماما للبحث الأكاديمي.
عنوان المشروع:
يعتمد CodeGeeX2 على بنية ChatGLM2 الجديدة وهو محسن لمجموعة متنوعة من المهام المتعلقة بالبرمجة ، مثل الإكمال التلقائي للتعليمات البرمجية وإنشاء التعليمات البرمجية وترجمة التعليمات البرمجية وإكمال التعليمات البرمجية عبر الملفات والمزيد.
بفضل ترقية ChatGLM2 ، لا يمكن ل CodeGeeX2 دعم الإدخال الصيني والإنجليزي بشكل أفضل فحسب ، بالإضافة إلى الحد الأقصى لطول التسلسل البالغ 8192 ، ولكن أيضا تحسين مؤشرات الأداء المختلفة بشكل كبير - Python + 57٪ ، C ++ + 71٪ ، Java + 54٪ ، Java + 83٪ ، Go + 56٪ ، Rust + 321٪.
في المراجعة البشرية ، تجاوز CodeGeeX2 بشكل شامل نموذج StarCoder البالغ 15 مليار معلمة ، بالإضافة إلى نموذج Code-Cushman-001 من OpenAI (النموذج المستخدم من قبل GitHub Copilot).
بالإضافة إلى ذلك ، فإن سرعة الاستدلال في CodeGeeX2 أسرع أيضا من سرعة الجيل الأول من CodeGeeX-13B ، والتي تحتاج فقط إلى 6 جيجابايت من ذاكرة الفيديو للتشغيل بعد التكميم ، وتدعم النشر الموضعي خفيف الوزن.
في الوقت الحالي ، يمكن تنزيل المكون الإضافي CodeGeeX وتجربته في IDEs السائدة مثل VS Code و IntelliJ IDEA و PyCharm و GoLand و WebStorm و Android Studio.
** النموذج المحلي الكبير مطور ذاتيا بالكامل **
في المؤتمر ، ألقى Zhang Peng ، الرئيس التنفيذي لشركة Zhipu الذكاء الاصطناعي ، رأيه الخاص في البداية - لم تكن السنة الأولى من النموذج الكبير في العام الذي تسبب فيه ChatGPT في طفرة LLM ، ولكن في عام 2020 ، عندما ولدت GPT-3.
في ذلك الوقت ، بدأت Zhipu الذكاء الاصطناعي ، التي تم تأسيسها للتو لمدة عام واحد ، في استخدام قوة الشركة بأكملها للجميع في الطرز الكبيرة.
باعتبارها واحدة من أوائل الشركات التي دخلت في أبحاث النماذج واسعة النطاق ، تراكمت لدى Zhipu الذكاء الاصطناعي قدرات خدمة مؤسسية كافية. باعتبارها واحدة من "أولى الشركات التي تأكل سرطان البحر" على المصدر المفتوح ، تصدرت ChatGLM-6B قائمة اتجاهات وجه Hugging في غضون أربعة أسابيع من إطلاقها ، وفازت بنجوم 5w + على GitHub.
إن إصدار ChatGLM3 يجعل خط إنتاج النموذج الكامل الذي قامت Zhipu الذكاء الاصطناعي ببنائه أكثر قوة.
في عام 2023 ، عندما تستعر الحرب في صناعة النماذج الكبيرة ، يقف Zhipu الذكاء الاصطناعي مرة أخرى في دائرة الضوء ويحتل ميزة المحرك الأول مع ChatGLM3 الذي تمت ترقيته حديثا.
موارد:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
قسم تسينغهوا ChatGLM3 مظاهرة الوجه المباشر! تعدد الوسائط قريب من GPT-4V ، ومترجم الكود المحلي قادم
المصدر الأصلي: نيو تشييوان
تم إطلاق نموذج القاعدة من الجيل الثالث المطور ذاتيا ChatGLM3 اليوم!
هذا تحسين آخر لنموذج ChatGLM الأساسي من قبل فريق Zhipu الذكاء الاصطناعي منذ إطلاق طراز الجيل الثاني في يونيو.
بالإضافة إلى ذلك ، في مؤتمر الكمبيوتر الصيني لعام 2023 (CNCC) في 27 أكتوبر ، الذكاء الاصطناعي Zhipu أيضا ChatGLM3-6B (32k) مفتوح الوسائط ، CogVLM-17B متعدد الوسائط ، ووكيل AgentLM.
بعد إصدار سلسلة طرازات ChatGLM3 ، أصبحت Zhipu الشركة الوحيدة في الصين التي قامت بقياس خط إنتاج الطراز الكامل ل OpenAI.
تم تطوير النموذج ذاتيا بالكامل ، ويتكيف مع الرقائق المحلية ، مع أداء أقوى ونظام بيئي أكثر انفتاحا للمصدر.
كأول شركة تدخل البحث النموذجي على نطاق واسع ، فإن Zhipu الذكاء الاصطناعي هي أول من قدم الورقة!
علاوة على ذلك ، أكملت Zhipu الذكاء الاصطناعي ما مجموعه أكثر من 2.5 مليار يوان في التمويل هذا العام ، Meituan و Ant و Alibaba و Tencent ... تظهر قائمة المستثمرين الفاخرة ثقة الصناعة القوية في Zhipu الذكاء الاصطناعي.
** تهدف إلى الترقية التقنية ل GPT-4V **
في الوقت الحاضر ، أظهر نموذج الرؤية متعدد الوسائط GPT-4V قدرات قوية للتعرف على الصور.
في الوقت نفسه ، بهدف GPT-4V ، قامت Zhipu الذكاء الاصطناعي أيضا بترقية القدرات الأخرى ل ChatGLM3 هذه المرة. من بينها ، يمكن لنموذج الفهم متعدد الوسائط CogVLM محاولة فهم وتحديث 10+ مجموعات بيانات تقييم الرسوم البيانية والنصوص القياسية الدولية SOTA. حاليا ، CogVLM-17B مفتوح المصدر.
يمكن لمترجم التعليمات البرمجية إنشاء وتنفيذ التعليمات البرمجية وفقا لاحتياجات المستخدم ، وإكمال المهام المعقدة تلقائيا مثل تحليل البيانات ومعالجة الملفات.
يعمل بحث الويب على تحسين WebGLM ، والذي يمكنه العثور تلقائيا على المعلومات ذات الصلة على الإنترنت وفقا للسؤال ، وتوفير روابط إلى الأدبيات أو المقالات المرجعية ذات الصلة عند الإجابة.
بالإضافة إلى ذلك ، تم أيضا تحسين القدرات الدلالية والمنطقية ل ChatGLM3 بشكل كبير.
الإصدار 6B المصدر المفتوح المباشر
تجدر الإشارة إلى أنه بمجرد إصدار ChatGLM3 ، الذكاء الاصطناعي Zhipu مباشرة نموذج المعلمة 6B مفتوح المصدر للمجتمع.
تظهر نتائج التقييم أنه بالمقارنة مع ChatGLM 2 ومقارنة بالنماذج المحلية من نفس الحجم ، احتل ChatGLM3-6B المرتبة الأولى في 9 من 44 اختبارا لمجموعة البيانات العامة الصينية والإنجليزية.
ارتفع MMLU بنسبة 36٪ ، C بنسبة 33٪ ، GSM8K بنسبة 179٪ ، و BBH بنسبة 126٪.
يعمل إصدار 32k مفتوح المصدر ، ChatGLM3-6B-32K ، بشكل أفضل في LongBench.
بالإضافة إلى ذلك ، فهي أحدث "تقنية تحسين الاستدلال الديناميكي + ذاكرة الفيديو الفعالة" التي تجعل إطار الاستدلال الحالي أكثر كفاءة في ظل نفس ظروف الأجهزة والطرازات.
مقارنة بأفضل تطبيق مفتوح المصدر الحالي ، مقارنة ب vLLM الذي أطلقته جامعة بيركلي وأحدث إصدار من Hugging Face TGI ، تزداد سرعة الاستدلال بمقدار 2-3 مرات ، ويتم تقليل تكلفة الاستدلال بمقدار 1 مرة ، مع 0.5 نقطة فقط لكل ألف رمز ، وهو أقل تكلفة.
**ضبط الوكيل المطور ذاتيا ، تنشيط قدرة الوكيل **
الأمر الأكثر إثارة للدهشة هو أن ChatGLM3 يجلب أيضا قدرة وكيل جديدة.
يأمل Zhipu الذكاء الاصطناعي أن تتمكن النماذج الكبيرة من التواصل بشكل أفضل مع الأدوات الخارجية من خلال واجهات برمجة التطبيقات ، وحتى تحقيق تفاعل كبير للنموذج من خلال الوكلاء.
من خلال دمج تقنية AgentTuning المطورة ذاتيا ، يمكن تنشيط قدرة الوكيل الذكي للنموذج ، خاصة فيما يتعلق بالتخطيط والتنفيذ الذكي ، وهو أعلى بنسبة 1000٪ من ChatGLM 2.
في أحدث إصدار من AgentBench ، يقترب ChatGLM3-turbo من GPT-3.5.
في الوقت نفسه ، فإن AgentLM مفتوح أيضا لمجتمع المصادر المفتوحة. ما يأمله فريق Zhipu الذكاء الاصطناعي هو جعل النموذج مفتوح المصدر يصل أو حتى يتجاوز قدرة الوكيل لنموذج المصدر المغلق.
وهذا يعني أن الوكيل سيمكن الدعم الأصلي للنماذج المحلية الكبيرة للسيناريوهات المعقدة مثل "استدعاء الأدوات ، وتنفيذ التعليمات البرمجية ، والألعاب ، وعمليات قاعدة البيانات ، والبحث في الرسم البياني المعرفي والاستدلال ، وأنظمة التشغيل".
** تم إصدار 1.5B / 3B في نفس الوقت ، يمكن تشغيل الهاتف المحمول **
هل تريد تشغيل ChatGLM على هاتفك؟ موافق!
هذه المرة ، أطلقت ChatGLM3 أيضا نموذج اختبار طرفي يمكن نشره على الهواتف المحمولة ، مع معلمتين: 1.5B و 3B.
يمكنه دعم مجموعة متنوعة من الهواتف المحمولة بما في ذلك Vivo و Xiaomi و Samsung والأنظمة الأساسية داخل السيارة ، وحتى يدعم الاستدلال على رقائق وحدة المعالجة المركزية على الأنظمة الأساسية للجوال ، بسرعة تصل إلى 20 رمزا / ثانية.
من حيث الدقة ، فإن أداء طرازي 1.5B و 3B قريب من أداء نموذج ChatGLM2-6B في التقييم القياسي العام ، لذا امض قدما وجربه!
** تم إطلاق جيل جديد من "Zhipu Qingyan" بالكامل **
تماما كما تمتلك ChatGPT نموذج GPT-4 قوي وراءها ، فإن مساعد الذكاء الاصطناعي التوليدي "Zhipu Qingyan" لفريق Zhipu الذكاء الاصطناعي يباركه أيضا ChatGLM3.
بعد عرض البث المباشر لهذا الفريق ، تم إطلاق الوظيفة مباشرة ، والشيء الرئيسي هو الإخلاص!
عنوان الاختبار:
مترجم الكود
كواحد من أكثر المكونات الإضافية شيوعا ل ChatGPT ، يمكن لتحليل البيانات المتقدم (مترجم الكود سابقا) تحليل المشكلات بمزيد من التفكير الرياضي بناء على إدخال اللغة الطبيعية ، وإنشاء التعليمات البرمجية المناسبة في نفس الوقت.
الآن ، بدعم من ChatGLM3 الذي تمت ترقيته حديثا ، أصبح "Zhipu Qingyan" أول منتج نموذجي واسع النطاق يتمتع بقدرات تحليل البيانات المتقدمة في الصين ، والتي يمكنها دعم معالجة الصور والحوسبة الرياضية وتحليل البيانات وسيناريوهات الاستخدام الأخرى.
لا يمكن فهم رومانسية رجال العلوم والهندسة إلا من قبل "Zhipu Qingyan".
على الرغم من أن الرئيس التنفيذي Zhang Peng قدم أداء حيا لرسم انقلاب "القلب الأحمر" ، إلا أنه حاول مرة أخرى ، وظهرت النتيجة في ثوان.
مع إضافة قدرات نموذج WebGLM الكبيرة ، أصبح لدى "Zhipu Qingyan" الآن أيضا القدرة على البحث عن المحسن - يمكنه تلخيص الإجابات على الأسئلة بناء على أحدث المعلومات على الإنترنت ، وإرفاق روابط مرجعية.
على سبيل المثال ، بشر iPhone 15 مؤخرا بموجة من تخفيضات الأسعار ، ما هو حجم التقلبات المحددة؟
الجواب الذي قدمه "Zhipu Qingyan" ليس سيئا!
يعمل نموذج CogVLM على تحسين قدرة فهم الصورة والنص الصينية ل Zhipu Qingyan ، ويحصل على قدرة فهم الصورة بالقرب من GPT-4V.
يمكنه الإجابة على أنواع مختلفة من الأسئلة المرئية ، ويمكنه إكمال اكتشاف الكائنات المعقدة ووضع العلامات وإكمال التعليق التوضيحي التلقائي للبيانات.
على سبيل المثال ، دع CogVLM يحدد عدد الأشخاص الموجودين في الصورة.
** GLM مقابل GPT: قياس مجموعة منتجات OpenAI الكاملة! **
من ChatGPT ، تطبيق الدردشة والمحادثة ، مترجم التعليمات البرمجية ، المكون الإضافي لإنشاء التعليمات البرمجية ، إلى DALL · E 3 ، ثم إلى النموذج المرئي متعدد الوسائط GPT-4V ، لدى OpenAI حاليا مجموعة كاملة من بنية المنتج.
إذا نظرنا إلى الوراء في الصين ، فإن الشركة الوحيدة التي يمكنها تحقيق تغطية المنتج الأكثر شمولا هي Zhipu الذكاء الاصطناعي.
ليست هناك حاجة لقول المزيد عن إدخال الدجاج المقلي الشهير ChatGPT.
في بداية هذا العام ، أصدر فريق Zhipu الذكاء الاصطناعي أيضا ChatGLM ، وهو نموذج حوار على مستوى 100 مليار.
بالاعتماد على أفكار تصميم ChatGPT ، قام المطورون بحقن التدريب المسبق للكود في النموذج الأساسي 100 مليار GLM-130B.
في الواقع ، في وقت مبكر من عام 2022 ، افتتحت Zhipu الذكاء الاصطناعي GLM-130B لمجتمع البحث والصناعة ، وتم قبول هذا البحث أيضا بواسطة ACL 2022 و ICLR 2023.
تم تدريب كل من طرازي ChatGLM-6B و ChatGLM-130B على المتن الصيني والإنجليزي الذي يحتوي على رموز 1T ، باستخدام الضبط الدقيق الخاضع للإشراف (SFT) ، وتمهيد التغذية المرتدة ، وتعلم تعزيز التغذية الراجعة البشرية (RLHF).
في 14 مارس ، الذكاء الاصطناعي Zhipu ChatGLM-6B مفتوح المصدر للمجتمع ، وفاز بالمركز الأول في تقييم الطرف الثالث للغة الطبيعية الصينية والحوار الصيني والأسئلة والأجوبة الصينية ومهام التفكير.
في الوقت نفسه ، ولدت مئات المشاريع أو التطبيقات القائمة على ChatGLM-6B.
من أجل زيادة تعزيز تطوير مجتمع المصدر المفتوح للنموذج الكبير ، أصدرت Zhipu الذكاء الاصطناعي ChatGLM2 في يونيو ، وتم ترقية نموذج الحوار الأساسي البالغ 100 مليار ومفتوح المصدر ، بما في ذلك أحجام مختلفة 6B و 12B و 32B و 66B و 130B، وتحسين القدرات وإثراء السيناريوهات.
تجدر الإشارة إلى أنه في غضون بضعة أشهر فقط ، تم استخدام ChatGLM-6B و ChatGLM2-6B على نطاق واسع.
في الوقت الحاضر ، تم جمع ما مجموعه 50,000+ نجمة على GitHub. بالإضافة إلى ذلك ، هناك 10,000,000+ تنزيل على Hugging Face ، لتحتل المرتبة الأولى في الاتجاه لمدة أربعة أسابيع.
** تحسينات البحث: WebGPT مقابل ويب جي إل إم**
من أجل حل مشكلة "وهم" النماذج الكبيرة ، فإن الحل العام هو الجمع بين المعرفة في محرك البحث والسماح للنموذج الكبير بتنفيذ "تحسين الاسترجاع".
في وقت مبكر من عام 2021 ، قام OpenAI بضبط نموذج يمكنه تجميع نتائج البحث بناء على GPT-3 - WebGPT.
يقوم WebGPT بنمذجة سلوك البحث البشري ، والبحث في صفحات الويب للعثور على إجابات ذات صلة ، وإعطاء مصادر الاقتباس ، بحيث يمكن تتبع نتائج الإخراج.
الأهم من ذلك ، أنها حققت نتائج ممتازة في المجال المفتوح أسئلة وأجوبة طويلة.
بتوجيه من هذه الفكرة ، ولد WebGLM ، نموذج "الإصدار الشبكي" من ChatGLM ، وهو نموذج يعتمد على ضبط معلمة ChatGLM البالغ 10 مليارات ، وينصب التركيز الرئيسي على البحث في الشبكة.
على سبيل المثال ، عندما تريد معرفة سبب لون السماء باللون الأزرق. يعطي WebGLM الإجابة على الفور عبر الإنترنت ويتضمن رابطا لتعزيز مصداقية استجابة النموذج.
ينقسم المسترد القائم على LLM إلى مرحلتين ، أحدهما عبارة عن استرجاع شبكة خشنة الحبيبات (البحث ، الاستحواذ ، الاستخراج) ، والآخر هو استرجاع التقطير الدقيق.
في العملية الكاملة للمسترد ، يتم استهلاك الوقت بشكل أساسي في عملية جلب صفحة الويب ، لذلك يستخدم WebGLM تقنية غير متزامنة متوازية لتحسين الكفاءة.
مولد التمهيد هو النواة وهو مسؤول عن توليد إجابات عالية الجودة للأسئلة من الصفحات المرجعية التي تم الحصول عليها من المسترد.
يستخدم قدرات الاستدلال السياقي للنماذج الكبيرة لإنشاء مجموعات بيانات ضمان الجودة عالية الجودة ، ويصمم استراتيجيات التصحيح والاختيار لتصفية مجموعات فرعية عالية الجودة للتدريب.
تظهر النتائج التجريبية أن WebGLM يمكنه توفير نتائج أكثر دقة وإكمال مهام الأسئلة والأجوبة بكفاءة. حتى ، يمكن أن تقترب من WebGPT مع 175 مليار معلمة مع أداء 10 مليارات معلمة.
** فهم الصورة والنص: GPT-4V مقابل. CogVLM **
في سبتمبر من هذا العام ، رفعت OpenAI رسميا الحظر المفروض على قدرات GPT-4 متعددة الوسائط المذهلة.
يتمتع GPT-4V ، المدعوم بهذا ، بقدرة قوية على فهم الصور وقادر على معالجة المدخلات متعددة الوسائط المختلطة بشكل تعسفي.
على سبيل المثال ، لا يمكن معرفة أن الطبق الموجود في الصورة هو مابو توفو ، ويمكنه حتى إعطاء المكونات اللازمة لصنعه.
يختلف CogVLM عن طرق الاندماج الضحلة الشائعة ، حيث يدمج وحدة خبير رؤية قابلة للتدريب في آلية الانتباه وطبقة الشبكة العصبية المغذية.
يحقق هذا التصميم محاذاة عميقة بين ميزات الصورة والنص ، مما يعوض بشكل فعال عن الاختلافات بين نموذج اللغة المدرب مسبقا ومشفر الصور.
في الوقت الحاضر ، CogVLM-17B هو النموذج الذي حصل على أول درجة شاملة في القائمة الأكاديمية الموثوقة متعددة الوسائط ، وقد حقق نتائج SOTA أو المركز الثاني في 14 مجموعة بيانات.
يحقق أفضل أداء (SOTA) عبر 10 معايير موثوقة عبر الوسائط ، بما في ذلك NoCaps و Flicker30k captioning و RefCOCO و RefCOCO + و RefCOCOg و Visual7W و GQA و ScienceQA و VizWiz-VQA و TDIUC.
عادة ما تقوم النماذج متعددة الوسائط السابقة بمحاذاة ميزات الصورة مباشرة إلى مساحة الإدخال الخاصة بميزات النص ، وعادة ما يكون برنامج تشفير ميزات الصورة صغيرا ، وفي هذه الحالة ، يمكن اعتبار الصورة "تابعة" للنص ، ويكون التأثير محدودا بشكل طبيعي.
من ناحية أخرى ، يعطي CogVLM الأولوية للفهم المرئي في النموذج متعدد الوسائط ، باستخدام مشفر رؤية 5B معلمة ووحدة خبير رؤية 6B معلمة لنمذجة ميزات الصورة بإجمالي معلمات 11B ، وهو أكثر من مقدار المعلمة 7B للنص.
في بعض الاختبارات ، تفوقت CogVLM على GPT-4V.
يمكن ل CogVLM تحديد هذه المنازل الأربعة بدقة ، بينما يمكن ل GPT-4V تحديد 3 منازل فقط.
في هذا السؤال، يتم اختبار الصور التي تحتوي على نص.
أقوى نموذج رسم بياني Wensheng من OpenAI هو DALL · E 3 أيضا.
الفكرة العامة ل CogView هي إجراء تدريب الانحدار الذاتي عن طريق ربط ميزات النص وميزات رمز الصورة. أخيرا ، يتم إدخال ميزة الرمز المميز للنص فقط ، ويمكن للنموذج إنشاء رموز مميزة للصور باستمرار.
على وجه التحديد ، يتم تحويل النص "الصورة الرمزية للقط اللطيف" أولا إلى رمز مميز ، ويتم استخدام نموذج SentencePiece هنا.
ثم يتم إدخال صورة قطة ، ويتم تحويل جزء الصورة إلى رمز مميز من خلال وحدة فك ترميز تلقائية منفصلة.
بعد ذلك ، يتم تجميع ميزات الرمز المميز للنص والصورة معا ، ثم إدخالها في نموذج GPT لبنية المحول لتعلم إنشاء الصور.
مقارنة بين دال · E ومخططات GAN الشائعة ، تم تحسين نتائج CogView بشكل كبير.
في عام 2022 ، قام الباحثون بترقية نموذج الرسم البياني Wensheng CogView2 مرة أخرى ، وتمت مقارنة التأثير مباشرة ب DALL · E2。
بالمقارنة مع CogView ، تعتمد بنية CogView2 على التسلسل الهرمي ووضع الانحدار الذاتي المتوازي لتوليد الصور.
في الورقة ، قام الباحثون بتدريب نموذج محول معلمة 6 مليارات ، نموذج اللغة العامة عبر الوسائط (CogLM) ، وضبطه لتحقيق دقة فائقة سريعة.
في نوفمبر من نفس العام ، قام الفريق ببناء نموذج لتوليد النص إلى فيديو ، CogVideo ، استنادا إلى نموذج CogView2.
تنقسم بنية النموذج إلى وحدتين: يعتمد الجزء الأول على CogView2 ويولد عدة إطارات من الصور من النص. الجزء الثاني هو استيفاء الصورة بناء على نموذج الانتباه ثنائي الاتجاه لإنشاء فيديو كامل بمعدل إطارات أعلى.
كود: الدستور الغذائي مقابل كود جيكس
في مجال إنشاء التعليمات البرمجية ، أصدرت OpenAI مخطوطة جديدة ومطورة في وقت مبكر من أغسطس 2021 ، وهي بارعة في أكثر من 10 لغات برمجة بما في ذلك Python و Java و Go و Perl و PHP و Ruby و Swift و Type وحتى Shell.
يمكن للمستخدمين ببساطة إعطاء مطالبة بسيطة وجعل الدستور الغذائي يكتب الكود تلقائيا باللغة الطبيعية.
يتم تدريب الدستور الغذائي على GPT-3 ، وتحتوي البيانات على مليارات الأسطر من شفرة المصدر. وبالإضافة إلى ذلك، يمكن للدستور الغذائي أن يدعم المعلومات السياقية التي تزيد عن 3 مرات أطول من GPT-3.
في يوليو 2023 ، أصدرت Zhipu CodeGeeX2-6B أقوى وأسرع وأخف وزنا ، والذي يمكنه دعم أكثر من 100 لغة ، والوزن مفتوح تماما للبحث الأكاديمي.
يعتمد CodeGeeX2 على بنية ChatGLM2 الجديدة وهو محسن لمجموعة متنوعة من المهام المتعلقة بالبرمجة ، مثل الإكمال التلقائي للتعليمات البرمجية وإنشاء التعليمات البرمجية وترجمة التعليمات البرمجية وإكمال التعليمات البرمجية عبر الملفات والمزيد.
بفضل ترقية ChatGLM2 ، لا يمكن ل CodeGeeX2 دعم الإدخال الصيني والإنجليزي بشكل أفضل فحسب ، بالإضافة إلى الحد الأقصى لطول التسلسل البالغ 8192 ، ولكن أيضا تحسين مؤشرات الأداء المختلفة بشكل كبير - Python + 57٪ ، C ++ + 71٪ ، Java + 54٪ ، Java + 83٪ ، Go + 56٪ ، Rust + 321٪.
في المراجعة البشرية ، تجاوز CodeGeeX2 بشكل شامل نموذج StarCoder البالغ 15 مليار معلمة ، بالإضافة إلى نموذج Code-Cushman-001 من OpenAI (النموذج المستخدم من قبل GitHub Copilot).
بالإضافة إلى ذلك ، فإن سرعة الاستدلال في CodeGeeX2 أسرع أيضا من سرعة الجيل الأول من CodeGeeX-13B ، والتي تحتاج فقط إلى 6 جيجابايت من ذاكرة الفيديو للتشغيل بعد التكميم ، وتدعم النشر الموضعي خفيف الوزن.
في الوقت الحالي ، يمكن تنزيل المكون الإضافي CodeGeeX وتجربته في IDEs السائدة مثل VS Code و IntelliJ IDEA و PyCharm و GoLand و WebStorm و Android Studio.
** النموذج المحلي الكبير مطور ذاتيا بالكامل **
في المؤتمر ، ألقى Zhang Peng ، الرئيس التنفيذي لشركة Zhipu الذكاء الاصطناعي ، رأيه الخاص في البداية - لم تكن السنة الأولى من النموذج الكبير في العام الذي تسبب فيه ChatGPT في طفرة LLM ، ولكن في عام 2020 ، عندما ولدت GPT-3.
في ذلك الوقت ، بدأت Zhipu الذكاء الاصطناعي ، التي تم تأسيسها للتو لمدة عام واحد ، في استخدام قوة الشركة بأكملها للجميع في الطرز الكبيرة.
باعتبارها واحدة من أوائل الشركات التي دخلت في أبحاث النماذج واسعة النطاق ، تراكمت لدى Zhipu الذكاء الاصطناعي قدرات خدمة مؤسسية كافية. باعتبارها واحدة من "أولى الشركات التي تأكل سرطان البحر" على المصدر المفتوح ، تصدرت ChatGLM-6B قائمة اتجاهات وجه Hugging في غضون أربعة أسابيع من إطلاقها ، وفازت بنجوم 5w + على GitHub.
في عام 2023 ، عندما تستعر الحرب في صناعة النماذج الكبيرة ، يقف Zhipu الذكاء الاصطناعي مرة أخرى في دائرة الضوء ويحتل ميزة المحرك الأول مع ChatGLM3 الذي تمت ترقيته حديثا.
موارد: