تطور "Consultation 2.0" ، يقف أمام تخطيط نموذج كبير من SenseTime

2023-07-10 08:05:29

نحن نشهد موجة هائلة من البنية التحتية الجديدة للذكاء الاصطناعي.

في غضون نصف عام ، انتشر النموذج واسع النطاق بسرعة من إجماع صغير الحجم. وفقًا للتقرير الصادر عن CITIC ، فقد تم إصدار عدد النماذج الكبيرة التي تحتوي على أكثر من مليار نموذج معلمة حتى الآن ما يقرب من 80 نموذجًا ، نصفها من الشركات والنصف الآخر من مؤسسات البحث العلمي.

في عملية التكوين التدريجي للنموذج البيئي المحلي واسع النطاق ، بدأت أيضًا في التخلص من سعيها نحو OpenAI والعثور على مسارها الخاص بالتدريج. لقد تغير معيار قياس نجاح النماذج الكبيرة أيضًا من منافسة المعلمات للجسور الصلبة والخيول الصلبة إلى حل المشكلات الحقيقي.

أعلنت SenseTime عن نظام نموذجي واسع النطاق لـ "SenseNova" لأول مرة في أبريل من هذا العام ، وأصدرت عددًا من نماذج وتطبيقات الذكاء الاصطناعي واسعة النطاق بما في ذلك نموذج اللغة الصينية واسع النطاق المطور ذاتيًا "SenseChat". أعلنت SenseTime مؤخرًا في المؤتمر العالمي للذكاء الاصطناعي ، عن أول تكرار رئيسي لنظام "Daily New SenseNova Large Model". تمت ترقية نموذج اللغة الكبير "التفاوض" إلى الإصدار 2.0.

إنه أقوى. في نظام تخطيط النماذج واسع النطاق SenseTime بأكمله ، أصبح دوره أكثر وضوحًا.

أقوى "تفاوض 2.0"

كيف تعكس بصريا تحسين قدرة "التشاور 2.0"؟ أظهر Xu Li ، رئيس مجلس الإدارة والرئيس التنفيذي لشركة SenseTime ، حوارًا غير موجود بين لاو تزو وكونفوشيوس.

تدور الإجابة على "الاستشارة 2.0" حول "تاو". سأل كونفوشيوس لاو تزو ، وعلى الرغم من أن لاو تزو كان مستنيرًا ، إلا أنه لم يستطع التحدث إلى كونفوشيوس ، لذلك ابتعد للتو. الحوار الذي يتم إجراؤه في هذا المشهد سلس ومتدفق. حتى أن عبارة "مناقشة 2.0" أضافت مزحة إلى النص:

قال كونفوشيوس: "لقد سمعت اسم المعلم ، وإنه بالفعل ثروة كبيرة أن ألتقي بك اليوم!"

قال لاو تزو بابتسامة: "لا ، أنا أسير على نفس الطريق الذي تسير فيه ، كيف تأتي" الأرواح الثلاثة "؟"

ووفقًا للسؤال ، يظهر الحوار بأكمله باللغة الصينية الكلاسيكية. ولتجنب الالتباس ، ذكرت "الاستشارة 2.0" أيضًا فرضية "هذا مجرد خيال ولا ينبغي اعتباره سجلًا حقيقيًا للتاريخ" في الجملة الأولى من الإجابة.

عندما تم إطلاق "Consultation 1.0" لأول مرة ، أظهر العرض التوضيحي في الموقع حواره متعدد الجولات الممتاز وقدراته على الإبداع المشترك بين الإنسان والآلة. بعد ثلاثة أشهر ، حققت "Consultation 2.0" مزيدًا من التحسينات في دقة المعلومات المعرفية ، والقدرة على الحكم المنطقي ، والقدرة على فهم السياق ، والإبداع.

على سبيل المثال ، استخدم "Consultation 2.0" للقيام بالتخطيط للسفر ، واطلب منه عمل جدول:

أو اختبر موضوع "الصديقات على حق":

لا يمكنك فقط فهم الصديقات ، ولكن "مناقشة 2.0" يمكن أيضًا أن تقرأ القليل من السخرية أو نغمة يين ويانغ:

ما حدث لـ "Consultation 2.0" في الأشهر الثلاثة الماضية ، في الواقع ، ما عليك سوى إلقاء نظرة على نتائج بعض الاختبارات. في نتائج التقييم لثلاثة معايير تقييم مرجعية لنموذج اللغة الكبيرة (MMLU ، AGI ، C-) في جميع أنحاء العالم ، تجاوز أداء "Consultation 2.0" ChatGPT.

بالإضافة إلى ذلك ، ربما لاحظ بعض الأشخاص في الصور التوضيحية للحوار بين Lao Tzu و Confucius أن "Shangshang 2.0" به عرض توضيحي مقسم للشاشة لإصدارات XL و S. هناك العديد من الطرز الكبيرة ذات المعلمات والأحجام المختلفة للعملاء اختر ، ويمكن تشغيل إصدار النموذج الذي يحتوي على أصغر المعلمات حتى على المطاريف المتنقلة.

من حيث اللغة ، أضافت "Consultation 2.0" لغات جديدة مثل العربية والكانتونية. دعم التفاعل بين الصينية المبسطة والصينية التقليدية والإنجليزية واللغات الأخرى. كما تمت زيادة دعم "Consultation 2.0" للنصوص الطويلة جدًا من 2k إلى 32k ، مما يتيح فهمًا أفضل للسياق.

بالنسبة إلى الشركات المصنعة للنماذج واسعة النطاق الموجهة إلى ToB مثل SenseTime ، فإن جودة النموذج واسع النطاق نفسه ليست سوى نقطة البداية. كيف يمكن لعملاء المؤسسة تحديد مخطط تفصيلي معين للنموذج واسع النطاق بناءً على احتياجاتهم الخاصة ، وكيف هل يمكن لهذا الأخير تحقيق عملية تكرارية مستقرة والتعامل معها خطوة بخطوة؟ نقطة الألم الحقيقية هي المكان الذي سيتم تحديد الفائز فيه.

قدرات دمج قاعدة المعرفة المفتوحة

بعد تدريب SenseTime على "Consultation 2.0" مع فهم فائق وحوار واستدلال وقدرات أخرى ، يمكن لعملاء الشركات أيضًا استخدام معرفتهم المتراكمة للشركات لتحويل النموذج الكبير إلى "موهبة مهنية" يمكنها خدمة شركاتهم بشكل جيد.

إن كيفية حل هذه المشكلات الهندسية بكفاءة أمر مهم للغاية.

أضافت "Consultation 2.0" التي أطلقتها SenseTime واجهة تكامل لقاعدة المعرفة ، مما يسمح للمؤسسات باكتساب المعرفة والقدرات المهنية بسرعة دون انتظار الترقيات التكرارية للنموذج الأساسي الكبير. بعد تكامل قاعدة المعرفة ، يمكن تعزيز قدرة النموذج على تحديث وفهم المعرفة ، ويمكن تعزيز الفهم السريع للمعرفة واكتسابها ، وفي الوقت نفسه ، ستنخفض تكلفة نماذج تدريب العملاء بشكل كبير.

قال وانغ شياو قانغ ، المؤسس المشارك وكبير العلماء في SenseTime: "من خلال قاعدة المعرفة ، من السهل نسبيًا تلخيص المعرفة المقابلة في هذا المجال دون الدخول في نموذجنا نفسه" ، ولأن المعلومات أكثر دقة ، كما تحل مشكلة الهلوسة.

الإنسان الرقمي كأداة إنتاجية

في نفس الوقت مع الترقية الشاملة لـ "Consultation 2.0" ، فإن قدرات منصة AIGC في نظام "SenseNova Large Model" تتقدم باستمرار ، وبعد دمج قدرات النموذج اللغوي الكبير ، تم تحقيق قفزة في التحسين.

على سبيل المثال ، تمت ترقية منصة إنشاء Wenshengtu "Miaohua" المذكورة أعلاه إلى الإصدار 3.0 هذه المرة ، وتمت زيادة معلمات النموذج إلى ترتيب 7 مليارات ، ووصلت تفاصيل الصور التي تم إنشاؤها إلى مستوى التصوير الفوتوغرافي الاحترافي. بالنسبة إلى صداع الكلمات السريعة ، يوفر "Discussion 2.0" "Miahua 3.0" القدرة على توسيع الكلمات الفورية تلقائيًا. هذا يعني أن المستخدمين يحتاجون فقط إلى بضع كلمات سريعة بسيطة لتحقيق نتيجة صورة مفصلة.

في مجال البشر الرقميين ، تم أيضًا ترقية منصة SenseTime لتوليد الفيديو البشري الرقمي "Ruying" إلى الإصدار 2.0. زادت طلاقة الصوت والفم لـ "Ruying 2.0" بأكثر من 30٪ ، ويمكن تحقيق فيديو 4K. التأثير . في المؤتمر الصحفي ، ظهرت الصور البشرية الرقمية للاقتصادي رن زيبينج والماستر يانكان وشو لي ، وكان التأثير واقعيًا بدرجة كافية.

في مشهد الهبوط للنموذج الكبير ، يعتبر الإنسان الرقمي طريقة حمل مهمة للغاية.بث مباشر رقمي للإنسان هو مشهد نموذجي. يعد البث المباشر ، بما في ذلك مقاطع الفيديو القصيرة ، أيضًا أحد أكثر المشاهد تركيزًا للعملاء خلال الاختبار الداخلي والعام لـ "Ruying 2.0" لمدة ثلاثة أشهر.

قال Luan Qing ، المدير العام لقسم الترفيه الرقمي في SenseTime ، إنه في إطار AIGC ، يمكن لـ "المناقشة 2.0" القيام بكتابة النصوص وإنشاء البرامج النصية للبث المباشر للفيديو القصير. وكيف يمكن لـ "Ronin 2.0" مواكبة الاتجاه السائد في الاتصال يعتمد أيضًا على قدرة نموذج اللغة الكبير في "Consultation 2.0" لتعلم أحدث مجموعة من مقاطع الفيديو القصيرة.

بالإضافة إلى الفيديو القصير ومشاهد البث المباشر ، يعمل "Ronin 2.0" على تسريع دخوله إلى جميع مناحي الحياة.

على سبيل المثال ، في صناعة التأمين ، يحتاج كل متخصص تأمين إلى الترويج لمنتجات جديدة أو غيرها من مخرجات المحتوى الموجه نحو الخدمة للعملاء. "Ruying 2.0" يمكن أن يحل محل متخصصي التأمين في أعياد ميلاد العملاء أو عند إطلاق بعض منتجات إدارة الثروات. المحتوى والخدمات الشخصية ؛ في صناعة التعليم ، بدأت "Roning 2.0" في مساعدة المعلمين على أعلى منصات التعليم المهني المحلية لإنتاج مواد تعليمية لتلبية الاحتياجات الداخلية لإنتاج الفيديو.

قال Luan Qing: "الإنسان الرقمي هو أداة كفاءة نموذجية داخل المؤسسة."

كمنصة إنشاء AIGC ، سيستمر Ronin في التعمق في مجال إنشاء الفيديو في المستقبل.يعتقد Luan Qing أن هذا بسبب أن إنشاء المحتوى يخضع لتغيير الأبعاد من النص والصور إلى مقاطع الفيديو.

نحو الوسائط المتعددة

نظرًا لأن الصور ومعلومات الفيديو تمثل نسبة كبيرة في العالم الحقيقي ، تتجاوز بكثير المعلومات اللغوية ، فإن الحاجة إلى فهم العالم الحقيقي ستجعل مستقبل النموذج الأساسي واسع النطاق يتجه نحو الوسائط المتعددة ، والتي تمت رؤيتها لأول مرة من خلال فكرة "الاستشارة 2.0".

بالإضافة إلى النص ، فإن "Consultation 2.0" لديه القدرة على تحليل الصور ومحتوى الفيديو.

على سبيل المثال ، كما هو موضح في الشكل أعلاه ، يمكن لـ "الاستشارة 2.0" تحديد كائنات معينة في صورة مكتب فوضوية ، والجمع بين خصائص كل كائن للإجابة "ماذا تفعل عندما تشعر بالحر؟" هذا قريب من تصميم العملية الأسئلة المفتوحة ؛ أو بعد رؤية صورة القائمة ، ساعد المستخدمين على تقديم خيارات حسب الطلب ضمن نطاق سعري محدود.

SenseTime ، التي دخلت في البداية مجال الذكاء الاصطناعي من خلال البحث في رؤية الكمبيوتر وتجاوزت موجة الذكاء الاصطناعي ، أصبحت أكثر اقتناعًا بأن هذه الموجة من النماذج الكبيرة ستكون فرصة حقيقية.

يعتمد البحث الحالي على نطاق واسع على بنية شبكة المحولات. "لقد شاركت SenseTime في أبحاث نموذجية واسعة النطاق منذ عام 2019. في ذلك الوقت ، كان هذا هو الطريق للقيام بالرؤية." وفقًا لـ Wang Xiaogang ، المؤسس المشارك وكبير العلماء في SenseTime ، فإن بعض المعايير المرئية ومعايير اللغة الطبيعية أصبحت تدريجيًا تتقارب اليوم. ، "عندما نتطور في اتجاه متعدد الوسائط ، تبدأ اللغة والرؤية في الحصول على تكامل أعمق ، مما يعكس تراكمًا وقدرة قوية نسبيًا في هذا المجال."

يجب تطبيق العديد من سيناريوهات التطبيق التي نواجهها في الحياة الواقعية ، كما هو الحال في سلسلة من المجالات مثل القيادة الذاتية والروبوتات ، على الوسائط المتعددة. "ومع ذلك ، غالبًا ما لا يكون من السهل الحصول على البيانات متعددة الوسائط وبعض المهام وتتطلب تراكمًا عميقًا في الصناعة. هذه أيضًا ميزة SenseTime." قدم وانغ شياو قانغ.

بعد ثلاثة أشهر من ظهوره العلني الأول في المؤتمر العالمي للذكاء الاصطناعي لهذا العام ، تمت ترقية نظام SenseTime "Daily New SenseNova Large Model" بالكامل وفتحه لمستخدمي المؤسسات. في الوقت نفسه ، لم يلاحظ الكثير من الناس أن Shangtang قد أصدرت أيضًا نموذجًا متعدد الوسائط واسع النطاق للعلماء مع مختبر شنغهاي للذكاء الاصطناعي. في المستقبل ، يجدر بنا التطلع إلى ما إذا كان بإمكان SenseTime تولي زمام المبادرة في إيجاد مفتاح الطريق متعدد الوسائط.

شاهد النسخة الأصلية

المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.