مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
أدى ظهور النماذج الكبيرة التوليدية التي تمثلها GPT إلى تحقيق قفزة أخرى في تكنولوجيا الذكاء الاصطناعي ، وتمر التكنولوجيا الذكاء الاصطناعي بعملية تغيير النموذج التقني من التمييز إلى التوليد. مع إدخال تقنيات النماذج الكبيرة مثل التوليدية ، والتدريب المسبق ، والوسائط المتعددة ، فإنها توفر أيضا إمكانية لتكنولوجيا القيادة الذاتية لتنضج وغير مأهولة.
من معهد تسينغهوا لأبحاث الصناعة الذكية (AIR) ، المؤسسة الرائدة في مجال أبحاث الذكاء الاصطناعي في العالم ، والشركة المحلية الرائدة في مجال تكنولوجيا الذكاء الاصطناعي القيادة الذاتية ، تتمتع Milli Zhixing بحكم ثابت بشكل مدهش على الاتجاه التقني وتطبيق النماذج الكبيرة. وفي الوقت نفسه، أجرى الطرفان أيضا استكشافات متعمقة في اتجاه تحسين عملية صنع القرار القائمة على البيانات، وعززا بشكل مشترك التعاون المتعمق بين الصناعة والجامعات والبحوث الشاملة والمتعددة المستويات، وسرعا تطبيق التكنولوجيا الذكاء الاصطناعي في مجال القيادة الذاتية.
في 11 أكتوبر 2023 ، حضر تشانغ ياكين ، الأكاديمي في الأكاديمية الصينية للهندسة ، وأستاذ جامعة تسينغهوا ورئيس معهد تسينغهوا لبحوث الصناعة الذكية (AIR) ، يوم الذكاء الاصطناعي HAOMO التاسع الذي عقده Milli Zhixing ، وألقى خطابا رئيسيا بعنوان "التقدم الجديد للقيادة الذكية - النموذج الكبير والقيادة التوليدية والقيادة الذكية" ، حيث شارك أحدث أفكاره حول تطبيق النماذج الذكاء الاصطناعي الكبيرة التوليدية على تكنولوجيا القيادة الذاتية. وقدم أحدث إنجازات Tsinghua AIR في بناء منصة النموذج الأساسي Real2Sim2Real ومنصة محاكاة القيادة الذاتية.
وفيما يلي النص الكامل لخطاب الأكاديمي تشانغ ياكين:
مثل هذا الطقس الجميل ، مثل هذا المكان الجميل ، أنا سعيد جدا بالمشاركة في HAOMO الذكاء الاصطناعي DAY ، وأشكر أيضا الرئيس Zhang Kai و Weihao على الدعوة.
اليوم هو اليوم التاسع ل HAOMO الذكاء الاصطناعي ، أولا وقبل كل شيء ، أود أن أهنئ مومو على الإنجازات العظيمة التي حققها في أقل من 4 سنوات ، وخاصة صياغة طريقه الخاص. لدي انطباع بأن مومو كانت أول من أطلق النموذج الكبير التوليدي DriveGPT في القيادة الذاتية ، وسرعان ما تحرك نحو الحجم ، وتمكن من أن يصبح رائدا في مجال القيادة الذاتية في مثل هذا الوقت القصير.
اليوم أريد أن أتحدث عن التقدم الجديد في القيادة الذكية ، لقد كنت أستخدم نفس الموضوع على مر السنين ، ولكن في كل مرة أجد أن المحتوى مختلف تماما ، خاصة بعد ظهور الذكاء الاصطناعي التوليدية الأخيرة ، كان هناك ترويج كبير للقيادة الذاتية.
لقد تحدثنا عن "التحديثات الأربعة" الجديدة - الشبكات والذكاء والمشاركة والكهرباء ، وأهمها التحديثان - الكهرباء والذكاء. يمكن فهم الكهرباء على أنها طاقة جديدة ، والآن تعد الصين بالفعل أكثر أسواق الطاقة الجديدة نشاطا وأكبر في العالم ، سواء كان ذلك في نطاق المستخدمين أو حجم التصدير هو الأول في العالم ، وهو النصف الأول من السيارات الجديدة. أهم شيء في النصف الثاني هو القيادة الذكية ، والنقطة الساخنة والارتفاع القيادي للمنافسة العالمية في السنوات 5-10 القادمة هي القيادة الذاتية. الذكاء الاصطناعي هو القوة الدافعة للتكنولوجيا الأساسية للقيادة الذاتية ، ومنذ إنشائها ، كانت HAOMO الذكاء الاصطناعي DAY هي المحرك التكنولوجي للشركة ، لذا فإن HAOMO الذكاء الاصطناعي DAY مهم جدا.
لماذا تقوم العديد من الشركات بالقيادة الذكية؟ بما في ذلك شركات تصنيع السيارات التقليدية ، والقوى الجديدة ، وشركات التكنولوجيا الفائقة تدخل سوق القيادة الذاتية؟ في الواقع ، هناك العديد من التحديات التقنية ، أولا وقبل كل شيء ، من منظور الذكاء الاصطناعي ، القيادة التلقائية معقدة للغاية ، وتتطلب الكثير من قوة الحوسبة ، والخوارزميات الجديدة ، هي الأكثر تحديا الذكاء الاصطناعي مشكلة المجال الرأسي ، وثانيا ، القيادة التلقائية هي أيضا تقاطع الذكاء المركز ، وذكاء الحافة ، والذكاء المستقل الذي نراه حاليا. في فيديو الاختبار الآن ، يمكنك أن ترى أن القيادة الذاتية تواجه العديد من السيناريوهات والتغييرات المعقدة ، وهناك بالفعل العديد من التحديات.
ومع ذلك ، أعتقد أن القيادة الذاتية قابلة للتحقيق تماما ، وهناك بعض القضايا الرئيسية ، بعضها عوامل السوق ، وبعضها قوى غير سوقية. تشمل عوامل السوق: هل التكنولوجيا مجدية؟ هل لدى المستخدمين احتياجات حقيقية؟ البيئة الصناعية ونموذج الأعمال. العوامل غير السوقية مهمة جدا أيضا ، وتتطلب اختراقات تكنولوجية في الصناعة ، فضلا عن دعم الصناعة الحكومية ، واختراقات في السياسات واللوائح.
فيما يتعلق بالتكنولوجيا ، في البداية ، كان الكثير من الناس يتحدثون عما إذا كانت القيادة بدون سائق ممكنة ، خاصة ما إذا كانت ممكنة فوق L4؟ اعتقدت أنه كان ممكنا منذ البداية. في الآونة الأخيرة ، رأيت بعض البيانات التي تفيد بأن القيادة بدون سائق أكثر أمانا بحوالي 10 مرات من القيادة المأهولة ، وفي العام الماضي كنت أتحدث عن 3 مرات ، وهذا العام وصلت إلى 10 مرات. هذا يدل على أن الاختراق التكنولوجي قد اكتمل. في خارطة طريق التسويق ، توجد حاليا مجموعة متنوعة من الطرق ، بعضها يستخدم ذكاء الدراجات ، وبعضها تنسيق الطرق ، وهناك طرق تدريجية ، وطرق قفزة ، ومفتوحة المصدر ، وطرق مغلقة ، وتستكشف شركات مختلفة خرائط طريق مختلفة ، ولا تقول أيهما صحيح تماما ، تحاول الصناعة القيادة التلقائية بطرق مختلفة. أعلم أن مومو اختار التقدمية ، وأعتقد أن كل شيء جيد ، ويستكشفه الناس بطرق مختلفة.
كان هناك الكثير من الاختراقات الجديدة في الذكاء الاصطناعي مؤخرا. نرى خوارزميات جديدة ، وأطر عمل جديدة ، خاصة ما قبل التدريب ، والتعلم متعدد الوسائط ، والتعلم متعدد الإشراف ، والنماذج الكبيرة تصبح سائدة. قبل Transformer ، اعتاد ResNeT أن يكون إطار خوارزمية رؤية مستخدما على نطاق واسع ، والسبب في أنني ذكرت ResNeT على وجه التحديد ، يتم تنفيذ هذه الخوارزمية بالفعل من قبل علماء صينيين شباب في الصين ، لذلك قدم العلماء الصينيون مساهمات كبيرة في الذكاء الاصطناعي. لقد سمعت الكثير من التصريحات بأن جوهر الذكاء الاصطناعي يأتي بشكل أساسي من أوروبا ، والنظرية الأساسية تأتي من هناك ، لكن العلماء الصينيين قدموا أيضا الكثير من المساهمات في مجال الذكاء الاصطناعي.
من المهم أن تخترق النماذج الكبيرة القيود التقنية. في السنوات الست أو السبعين الماضية ، كانت هناك ثلاث نظريات رئيسية: قانون مور ، وهندسة فون نيومان ، وقوانين شانون الثلاثة ، والآن يتم كسر النظريات الثلاث. إذا لم يكن هناك اختراق ، فمن المستحيل تحقيق النموذج الكبير ، الأمر الذي يتطلب طريقة استشعار جديدة ، وطريقة إدراك جديدة ، واختراق في بنية الكمبيوتر الجديدة ، بما في ذلك إطار جديد من الرقائق ، وما إلى ذلك ، والآن الشبكات العصبية التلافيفية السائدة Transformer و CNN مختلفة أيضا. في الوقت الحاضر ، تعتمد صناعة التكنولوجيا الرقمية بشكل أساسي على الحوسبة القائمة على رقاقة السيليكون ، وقد تكون هناك علوم بيولوجية وحوسبة ضوئية وحوسبة كمومية في المستقبل.
في الوقت الحاضر ، من المهم جدا أن تجلب النماذج الكبيرة الذكاء الاصطناعي توليدية ، وفي الماضي ، تحدثت الذكاء الاصطناعي عن التصنيف ، أي الذكاء الاصطناعي التمييزية. أصبح من الممكن الآن إنشاء أفكار محتوى جديدة وأفكار بيانات والكثير من الأفكار الجديدة للمشاهد. واسمحوا لي الآن أن أقول قليلا عن عملي في هذا المجال.
النماذج الكبيرة تذهب في اتجاه جديد. الأول هو متعدد الوسائط ، ليس فقط اللغة الطبيعية والصور والفيديو ، ولكن أيضا إشارات الاستشعار والليدار والإدراك المادي الآخر والإشارات الحسية الحيوية المنبعثة من جميع المركبات. ترى أن نموذج GPT-4 متعدد الوسائط ، ووظيفته قوية جدا ، لكن الكفاءة منخفضة جدا ، أقل بحوالي 1000 مرة تقريبا من كفاءة الحساب واتخاذ القرار في الدماغ البشري ، لذلك لا تزال هناك حاجة لخوارزميات جديدة ، أعتقد أنه ستكون هناك خوارزميات جديدة في 5 سنوات. والثاني هو الذكاء الذاتي، والذي يمكنه إكمال المهام تلقائيا، بما في ذلك حوسبة الحافة، وكيفية وضع نماذج كبيرة معقدة للغاية على حافة الهواتف المحمولة، والسيارات، والروبوتات، والذكاء المتجسد والعالم المادي معا، أعتقد أن القيادة التلقائية هي أهم مشهد ذكي مجسد. المستقبل هو مرحلة ذكاء الدماغ الحاسوبي ، وسيواجه النموذج الكبير كيفية استخدام عالم الأحياء ، وعالم الحياة ، وكيفية ربط الناس والأدمغة بشكل أفضل.
ستستخدم معماريات التكنولوجيا الجديدة نماذج كبيرة ، تماما مثل نظام التشغيل الذكاء الاصطناعي الجديد ، سيكون هناك العديد من النماذج الرأسية ، بما في ذلك القيادة الذاتية أو النماذج الرأسية الأخرى مثل علوم الحياة.
سأتحدث بإيجاز عن معهد تسينغهوا لأبحاث الصناعة الذكية (AIR) ، وهو معهد أبحاث صناعة الذكاء الاصطناعي الذي أسسته بعد تقاعدي من Baidu ، والذي تطور بسرعة في 3 سنوات ، وأنا محظوظ أيضا للعثور على مجموعة من العلماء والمديرين التنفيذيين للشركات ذوي الخلفيات الصناعية العميقة والإنجازات الأكاديمية العميقة. يوجد الآن حوالي 300 من زملاء وطلاب ما بعد الدكتوراه ، والقيادة الذاتية هي أحد الاتجاهات ، حوالي 100 شخص.
في كل مرة أتحدث فيها عن أبحاث AIR ، أفكر في 25 عاما مضت عندما عدت إلى الصين لتأسيس Microsoft Research Asia. سيحتفل الشهر المقبل بالذكرى السنوية ال 25 لأبحاث Microsoft Asia ، والتي كانت ناجحة للغاية. تم تطوير النموذج الكبير الذي تحدثت عنه للتو في Microsoft Research ، على أمل بناء معهد أبحاث للصناعة الصينية.
عندما نشارك في أبحاث مختلفة ، نأمل أن يكون لدينا إطار عمل كبير ، مثل القيادة الذكية ، يجب علينا أولا تحديد بعض الطرق التقنية. بادئ ذي بدء ، أعتقد أن الإدراك متعدد الوسائط مهم جدا ، والبيانات متعددة المقاييس ومتعددة الأبعاد من الأصل مهمة جدا. لأن للقيام بالقيادة بدون طيار ، والقيادة الذكية ، فإن ميزة الروبوتات هي أولا وقبل كل شيء تتطلب المزيد من البيانات ، ولا يزال من الممكن إزالة ميزة البيانات هذه ، لذلك لا أتفق مع Musk قال إن استخدام الكاميرات فقط ، نحتاج إلى استخدام المزيد من مصادر البيانات. ثانيا ، ستستخدم العديد من القيادة الذاتية الآن الكثير من الخرائط عالية الدقة ، لكننا نعتقد أن المستقبل هو خرائط خفيفة ولا يمكن الاعتماد بشكل كامل على الخرائط.
يجب تحقيق القيادة الذاتية للوصول إلى المرحلة النهائية الآمنة والموثوقة من البداية إلى النهاية ، وهذا أيضا صعب للغاية ، وهناك عوامل تقنية أكثر تفصيلا ، بما في ذلك الذكاء الاصطناعي التوليدي ، والتعلم المعزز ، ونموذج اللغة الكبيرة ، ولدينا منصتان: منصة نموذج البيانات الكبيرة ، منصة المحاكاة.
كما اقترحت AIR نموذجها الأساسي الخاص للقيادة الذاتية. أولا ، يقترح النموذج كيفية الحصول على بيانات مختلفة ، بما في ذلك بيانات العالم الحقيقي وبيانات المحاكاة. يتم تنظيف البيانات من خلال خط أنابيب متحكم فيه ، ثم يمر عبر نموذجين كبيرين: نموذج الإدراك ، نموذج صنع القرار ، بما في ذلك اتخاذ القرارات في بعض الأماكن الرئيسية في السحابة وفي نهاية السيارة ، وبعض الوحدات تعتمد على المعلومات ، وبعضها إحصائي ، وبعضها وحدات قائمة على القواعد.
لقد أخرجت على وجه التحديد "التعلم المعزز" فيه ، لأن التعلم المعزز الذي كنت أستخدمه منذ بايدو ، لكن من الصعب استخدامه. نظرا لأن سلامة القيادة الذاتية مهمة جدا ، فمن الصعب جدا استخدامها ، لكنني أعتقد أن هذه هي الطريقة الوحيدة التي يمكننا من خلالها تحقيق أمان أعلى حقا ، ويمكن للتعلم المعزز تعلم أشياء جديدة ، والآن تعتمد طريقة التعميم على التعلم المعزز للتعلم ، وكان هناك العديد من التطورات الجديدة مؤخرا. كيفية استخدام التعلم المعزز في الكثير من عمليات المحاكاة واتخاذ القرار، واستخدامه في سلوك القيادة الحقيقية. النموذج الموجود على اليسار هو البيانات الضخمة العمودية ، وكيفية استخدام التعلم المعزز لضبط النموذج.
بالإضافة إلى ذلك ، كيف يمكن استخدام الذكاء الاصطناعي التوليدية في المحاكاة وصنع القرار؟ هناك مثال صغير هنا ، كل من النماذج الكبيرة والتعلم العميق لديها مشاكل في الشفافية ، لذلك قمنا أيضا بهذا البحث ، لماذا اتخذت هذا القرار؟ انعطف يسارا ، يمينا ، فرملة ، أخبرني بما أراه ولماذا أتخذ هذا القرار ، ويمكن أن يرشدني إلى كيفية اتخاذ القرار. هذا لاستخدام البيانات الحقيقية وبيانات المحاكاة والنماذج الرأسية والنماذج الكبيرة لإنشاء مشاهد عمق دلالية ، بما في ذلك معلومات حركة المرور والمشاة.
والآخر هو اندماج الدماغ البشري والآلة ، علينا أن ندرس كيف يقود الناس. في بعض الأحيان يتخذ الناس قرارات جيدة ، وأحيانا لا يفعلون ذلك ، ويجمعون هذه المعلومات من خلال أجهزة الاستشعار. من ناحية ، لفترة طويلة ، يتعين على الأشخاص والآلات القيادة معا ، ويجب على الأشخاص بدون سائق أن يفهموا ببطء القيادة البشرية. من ناحية أخرى ، يتم استخدام النموذج في الخوارزمية لتحسين كفاءة الخوارزمية.
أخيرا ، نحن متحمسون جدا لوجود تعاون تقني عميق مع Milli حول كيفية تطبيق التعلم المعزز على صنع القرار المعرفي. في الوقت الحاضر ، يواجه التعلم المعزز العديد من المشكلات ، عبر الإنترنت أو دون اتصال بالإنترنت ، بما في ذلك مشاكل تعريف الوظيفة ، وغموض السياسة ، لذلك أجرينا الكثير من هذه الأبحاث. خلال العام الماضي أو نحو ذلك ، تم نشر الكثير من الأوراق في المؤتمر الدولي الأعلى ، وهناك أيضا براءات اختراع ، والشيء الأكثر أهمية هو أنه بدأ استخدامه في السيارات ، والسيارة التي شهدت للتو الخدمات اللوجستية بدأت في استخدام هذه الخوارزميات.
باختصار ، إذا نظرت إلى المراحل المختلفة للقيادة الذكية والقيادة التلقائية ، في البداية ، فهي مدفوعة أكثر بالليدار والأجهزة ، ويعتمد المزيد على القواعد الاصطناعية. 2.0 مدفوع بالبرامج والخوارزميات ، وهذه المرحلة بها المزيد من أجهزة الاستشعار ، وتعتمد أيضا على التعلم الآلي والقواعد. الآن إلى عصر 3.0 ، يتم تشغيله بواسطة نماذج كبيرة ، وفي هذه المرحلة ، هناك العديد من أجهزة الاستشعار التي تستخدم خوارزميات شاملة ، كما سيتم استخدام التعلم المعزز ، والذي يمكن أن يحقق القيادة التلقائية في العالم الحقيقي إلى حد كبير.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تشانغ ياكين ، أكاديمي في أكاديمية الهندسة: ستجلب النماذج الكبيرة قبل التدريب والتوليدية تغييرات جديدة في نموذج تكنولوجيا القيادة الذاتية
أدى ظهور النماذج الكبيرة التوليدية التي تمثلها GPT إلى تحقيق قفزة أخرى في تكنولوجيا الذكاء الاصطناعي ، وتمر التكنولوجيا الذكاء الاصطناعي بعملية تغيير النموذج التقني من التمييز إلى التوليد. مع إدخال تقنيات النماذج الكبيرة مثل التوليدية ، والتدريب المسبق ، والوسائط المتعددة ، فإنها توفر أيضا إمكانية لتكنولوجيا القيادة الذاتية لتنضج وغير مأهولة.
من معهد تسينغهوا لأبحاث الصناعة الذكية (AIR) ، المؤسسة الرائدة في مجال أبحاث الذكاء الاصطناعي في العالم ، والشركة المحلية الرائدة في مجال تكنولوجيا الذكاء الاصطناعي القيادة الذاتية ، تتمتع Milli Zhixing بحكم ثابت بشكل مدهش على الاتجاه التقني وتطبيق النماذج الكبيرة. وفي الوقت نفسه، أجرى الطرفان أيضا استكشافات متعمقة في اتجاه تحسين عملية صنع القرار القائمة على البيانات، وعززا بشكل مشترك التعاون المتعمق بين الصناعة والجامعات والبحوث الشاملة والمتعددة المستويات، وسرعا تطبيق التكنولوجيا الذكاء الاصطناعي في مجال القيادة الذاتية.
وفيما يلي النص الكامل لخطاب الأكاديمي تشانغ ياكين:
مثل هذا الطقس الجميل ، مثل هذا المكان الجميل ، أنا سعيد جدا بالمشاركة في HAOMO الذكاء الاصطناعي DAY ، وأشكر أيضا الرئيس Zhang Kai و Weihao على الدعوة.
اليوم هو اليوم التاسع ل HAOMO الذكاء الاصطناعي ، أولا وقبل كل شيء ، أود أن أهنئ مومو على الإنجازات العظيمة التي حققها في أقل من 4 سنوات ، وخاصة صياغة طريقه الخاص. لدي انطباع بأن مومو كانت أول من أطلق النموذج الكبير التوليدي DriveGPT في القيادة الذاتية ، وسرعان ما تحرك نحو الحجم ، وتمكن من أن يصبح رائدا في مجال القيادة الذاتية في مثل هذا الوقت القصير.
اليوم أريد أن أتحدث عن التقدم الجديد في القيادة الذكية ، لقد كنت أستخدم نفس الموضوع على مر السنين ، ولكن في كل مرة أجد أن المحتوى مختلف تماما ، خاصة بعد ظهور الذكاء الاصطناعي التوليدية الأخيرة ، كان هناك ترويج كبير للقيادة الذاتية.
لقد تحدثنا عن "التحديثات الأربعة" الجديدة - الشبكات والذكاء والمشاركة والكهرباء ، وأهمها التحديثان - الكهرباء والذكاء. يمكن فهم الكهرباء على أنها طاقة جديدة ، والآن تعد الصين بالفعل أكثر أسواق الطاقة الجديدة نشاطا وأكبر في العالم ، سواء كان ذلك في نطاق المستخدمين أو حجم التصدير هو الأول في العالم ، وهو النصف الأول من السيارات الجديدة. أهم شيء في النصف الثاني هو القيادة الذكية ، والنقطة الساخنة والارتفاع القيادي للمنافسة العالمية في السنوات 5-10 القادمة هي القيادة الذاتية. الذكاء الاصطناعي هو القوة الدافعة للتكنولوجيا الأساسية للقيادة الذاتية ، ومنذ إنشائها ، كانت HAOMO الذكاء الاصطناعي DAY هي المحرك التكنولوجي للشركة ، لذا فإن HAOMO الذكاء الاصطناعي DAY مهم جدا.
لماذا تقوم العديد من الشركات بالقيادة الذكية؟ بما في ذلك شركات تصنيع السيارات التقليدية ، والقوى الجديدة ، وشركات التكنولوجيا الفائقة تدخل سوق القيادة الذاتية؟ في الواقع ، هناك العديد من التحديات التقنية ، أولا وقبل كل شيء ، من منظور الذكاء الاصطناعي ، القيادة التلقائية معقدة للغاية ، وتتطلب الكثير من قوة الحوسبة ، والخوارزميات الجديدة ، هي الأكثر تحديا الذكاء الاصطناعي مشكلة المجال الرأسي ، وثانيا ، القيادة التلقائية هي أيضا تقاطع الذكاء المركز ، وذكاء الحافة ، والذكاء المستقل الذي نراه حاليا. في فيديو الاختبار الآن ، يمكنك أن ترى أن القيادة الذاتية تواجه العديد من السيناريوهات والتغييرات المعقدة ، وهناك بالفعل العديد من التحديات.
ومع ذلك ، أعتقد أن القيادة الذاتية قابلة للتحقيق تماما ، وهناك بعض القضايا الرئيسية ، بعضها عوامل السوق ، وبعضها قوى غير سوقية. تشمل عوامل السوق: هل التكنولوجيا مجدية؟ هل لدى المستخدمين احتياجات حقيقية؟ البيئة الصناعية ونموذج الأعمال. العوامل غير السوقية مهمة جدا أيضا ، وتتطلب اختراقات تكنولوجية في الصناعة ، فضلا عن دعم الصناعة الحكومية ، واختراقات في السياسات واللوائح.
فيما يتعلق بالتكنولوجيا ، في البداية ، كان الكثير من الناس يتحدثون عما إذا كانت القيادة بدون سائق ممكنة ، خاصة ما إذا كانت ممكنة فوق L4؟ اعتقدت أنه كان ممكنا منذ البداية. في الآونة الأخيرة ، رأيت بعض البيانات التي تفيد بأن القيادة بدون سائق أكثر أمانا بحوالي 10 مرات من القيادة المأهولة ، وفي العام الماضي كنت أتحدث عن 3 مرات ، وهذا العام وصلت إلى 10 مرات. هذا يدل على أن الاختراق التكنولوجي قد اكتمل. في خارطة طريق التسويق ، توجد حاليا مجموعة متنوعة من الطرق ، بعضها يستخدم ذكاء الدراجات ، وبعضها تنسيق الطرق ، وهناك طرق تدريجية ، وطرق قفزة ، ومفتوحة المصدر ، وطرق مغلقة ، وتستكشف شركات مختلفة خرائط طريق مختلفة ، ولا تقول أيهما صحيح تماما ، تحاول الصناعة القيادة التلقائية بطرق مختلفة. أعلم أن مومو اختار التقدمية ، وأعتقد أن كل شيء جيد ، ويستكشفه الناس بطرق مختلفة.
من المهم أن تخترق النماذج الكبيرة القيود التقنية. في السنوات الست أو السبعين الماضية ، كانت هناك ثلاث نظريات رئيسية: قانون مور ، وهندسة فون نيومان ، وقوانين شانون الثلاثة ، والآن يتم كسر النظريات الثلاث. إذا لم يكن هناك اختراق ، فمن المستحيل تحقيق النموذج الكبير ، الأمر الذي يتطلب طريقة استشعار جديدة ، وطريقة إدراك جديدة ، واختراق في بنية الكمبيوتر الجديدة ، بما في ذلك إطار جديد من الرقائق ، وما إلى ذلك ، والآن الشبكات العصبية التلافيفية السائدة Transformer و CNN مختلفة أيضا. في الوقت الحاضر ، تعتمد صناعة التكنولوجيا الرقمية بشكل أساسي على الحوسبة القائمة على رقاقة السيليكون ، وقد تكون هناك علوم بيولوجية وحوسبة ضوئية وحوسبة كمومية في المستقبل.
في الوقت الحاضر ، من المهم جدا أن تجلب النماذج الكبيرة الذكاء الاصطناعي توليدية ، وفي الماضي ، تحدثت الذكاء الاصطناعي عن التصنيف ، أي الذكاء الاصطناعي التمييزية. أصبح من الممكن الآن إنشاء أفكار محتوى جديدة وأفكار بيانات والكثير من الأفكار الجديدة للمشاهد. واسمحوا لي الآن أن أقول قليلا عن عملي في هذا المجال.
النماذج الكبيرة تذهب في اتجاه جديد. الأول هو متعدد الوسائط ، ليس فقط اللغة الطبيعية والصور والفيديو ، ولكن أيضا إشارات الاستشعار والليدار والإدراك المادي الآخر والإشارات الحسية الحيوية المنبعثة من جميع المركبات. ترى أن نموذج GPT-4 متعدد الوسائط ، ووظيفته قوية جدا ، لكن الكفاءة منخفضة جدا ، أقل بحوالي 1000 مرة تقريبا من كفاءة الحساب واتخاذ القرار في الدماغ البشري ، لذلك لا تزال هناك حاجة لخوارزميات جديدة ، أعتقد أنه ستكون هناك خوارزميات جديدة في 5 سنوات. والثاني هو الذكاء الذاتي، والذي يمكنه إكمال المهام تلقائيا، بما في ذلك حوسبة الحافة، وكيفية وضع نماذج كبيرة معقدة للغاية على حافة الهواتف المحمولة، والسيارات، والروبوتات، والذكاء المتجسد والعالم المادي معا، أعتقد أن القيادة التلقائية هي أهم مشهد ذكي مجسد. المستقبل هو مرحلة ذكاء الدماغ الحاسوبي ، وسيواجه النموذج الكبير كيفية استخدام عالم الأحياء ، وعالم الحياة ، وكيفية ربط الناس والأدمغة بشكل أفضل.
ستستخدم معماريات التكنولوجيا الجديدة نماذج كبيرة ، تماما مثل نظام التشغيل الذكاء الاصطناعي الجديد ، سيكون هناك العديد من النماذج الرأسية ، بما في ذلك القيادة الذاتية أو النماذج الرأسية الأخرى مثل علوم الحياة.
سأتحدث بإيجاز عن معهد تسينغهوا لأبحاث الصناعة الذكية (AIR) ، وهو معهد أبحاث صناعة الذكاء الاصطناعي الذي أسسته بعد تقاعدي من Baidu ، والذي تطور بسرعة في 3 سنوات ، وأنا محظوظ أيضا للعثور على مجموعة من العلماء والمديرين التنفيذيين للشركات ذوي الخلفيات الصناعية العميقة والإنجازات الأكاديمية العميقة. يوجد الآن حوالي 300 من زملاء وطلاب ما بعد الدكتوراه ، والقيادة الذاتية هي أحد الاتجاهات ، حوالي 100 شخص.
في كل مرة أتحدث فيها عن أبحاث AIR ، أفكر في 25 عاما مضت عندما عدت إلى الصين لتأسيس Microsoft Research Asia. سيحتفل الشهر المقبل بالذكرى السنوية ال 25 لأبحاث Microsoft Asia ، والتي كانت ناجحة للغاية. تم تطوير النموذج الكبير الذي تحدثت عنه للتو في Microsoft Research ، على أمل بناء معهد أبحاث للصناعة الصينية.
عندما نشارك في أبحاث مختلفة ، نأمل أن يكون لدينا إطار عمل كبير ، مثل القيادة الذكية ، يجب علينا أولا تحديد بعض الطرق التقنية. بادئ ذي بدء ، أعتقد أن الإدراك متعدد الوسائط مهم جدا ، والبيانات متعددة المقاييس ومتعددة الأبعاد من الأصل مهمة جدا. لأن للقيام بالقيادة بدون طيار ، والقيادة الذكية ، فإن ميزة الروبوتات هي أولا وقبل كل شيء تتطلب المزيد من البيانات ، ولا يزال من الممكن إزالة ميزة البيانات هذه ، لذلك لا أتفق مع Musk قال إن استخدام الكاميرات فقط ، نحتاج إلى استخدام المزيد من مصادر البيانات. ثانيا ، ستستخدم العديد من القيادة الذاتية الآن الكثير من الخرائط عالية الدقة ، لكننا نعتقد أن المستقبل هو خرائط خفيفة ولا يمكن الاعتماد بشكل كامل على الخرائط.
يجب تحقيق القيادة الذاتية للوصول إلى المرحلة النهائية الآمنة والموثوقة من البداية إلى النهاية ، وهذا أيضا صعب للغاية ، وهناك عوامل تقنية أكثر تفصيلا ، بما في ذلك الذكاء الاصطناعي التوليدي ، والتعلم المعزز ، ونموذج اللغة الكبيرة ، ولدينا منصتان: منصة نموذج البيانات الكبيرة ، منصة المحاكاة.
كما اقترحت AIR نموذجها الأساسي الخاص للقيادة الذاتية. أولا ، يقترح النموذج كيفية الحصول على بيانات مختلفة ، بما في ذلك بيانات العالم الحقيقي وبيانات المحاكاة. يتم تنظيف البيانات من خلال خط أنابيب متحكم فيه ، ثم يمر عبر نموذجين كبيرين: نموذج الإدراك ، نموذج صنع القرار ، بما في ذلك اتخاذ القرارات في بعض الأماكن الرئيسية في السحابة وفي نهاية السيارة ، وبعض الوحدات تعتمد على المعلومات ، وبعضها إحصائي ، وبعضها وحدات قائمة على القواعد.
لقد أخرجت على وجه التحديد "التعلم المعزز" فيه ، لأن التعلم المعزز الذي كنت أستخدمه منذ بايدو ، لكن من الصعب استخدامه. نظرا لأن سلامة القيادة الذاتية مهمة جدا ، فمن الصعب جدا استخدامها ، لكنني أعتقد أن هذه هي الطريقة الوحيدة التي يمكننا من خلالها تحقيق أمان أعلى حقا ، ويمكن للتعلم المعزز تعلم أشياء جديدة ، والآن تعتمد طريقة التعميم على التعلم المعزز للتعلم ، وكان هناك العديد من التطورات الجديدة مؤخرا. كيفية استخدام التعلم المعزز في الكثير من عمليات المحاكاة واتخاذ القرار، واستخدامه في سلوك القيادة الحقيقية. النموذج الموجود على اليسار هو البيانات الضخمة العمودية ، وكيفية استخدام التعلم المعزز لضبط النموذج.
بالإضافة إلى ذلك ، كيف يمكن استخدام الذكاء الاصطناعي التوليدية في المحاكاة وصنع القرار؟ هناك مثال صغير هنا ، كل من النماذج الكبيرة والتعلم العميق لديها مشاكل في الشفافية ، لذلك قمنا أيضا بهذا البحث ، لماذا اتخذت هذا القرار؟ انعطف يسارا ، يمينا ، فرملة ، أخبرني بما أراه ولماذا أتخذ هذا القرار ، ويمكن أن يرشدني إلى كيفية اتخاذ القرار. هذا لاستخدام البيانات الحقيقية وبيانات المحاكاة والنماذج الرأسية والنماذج الكبيرة لإنشاء مشاهد عمق دلالية ، بما في ذلك معلومات حركة المرور والمشاة.
والآخر هو اندماج الدماغ البشري والآلة ، علينا أن ندرس كيف يقود الناس. في بعض الأحيان يتخذ الناس قرارات جيدة ، وأحيانا لا يفعلون ذلك ، ويجمعون هذه المعلومات من خلال أجهزة الاستشعار. من ناحية ، لفترة طويلة ، يتعين على الأشخاص والآلات القيادة معا ، ويجب على الأشخاص بدون سائق أن يفهموا ببطء القيادة البشرية. من ناحية أخرى ، يتم استخدام النموذج في الخوارزمية لتحسين كفاءة الخوارزمية.
أخيرا ، نحن متحمسون جدا لوجود تعاون تقني عميق مع Milli حول كيفية تطبيق التعلم المعزز على صنع القرار المعرفي. في الوقت الحاضر ، يواجه التعلم المعزز العديد من المشكلات ، عبر الإنترنت أو دون اتصال بالإنترنت ، بما في ذلك مشاكل تعريف الوظيفة ، وغموض السياسة ، لذلك أجرينا الكثير من هذه الأبحاث. خلال العام الماضي أو نحو ذلك ، تم نشر الكثير من الأوراق في المؤتمر الدولي الأعلى ، وهناك أيضا براءات اختراع ، والشيء الأكثر أهمية هو أنه بدأ استخدامه في السيارات ، والسيارة التي شهدت للتو الخدمات اللوجستية بدأت في استخدام هذه الخوارزميات.
باختصار ، إذا نظرت إلى المراحل المختلفة للقيادة الذكية والقيادة التلقائية ، في البداية ، فهي مدفوعة أكثر بالليدار والأجهزة ، ويعتمد المزيد على القواعد الاصطناعية. 2.0 مدفوع بالبرامج والخوارزميات ، وهذه المرحلة بها المزيد من أجهزة الاستشعار ، وتعتمد أيضا على التعلم الآلي والقواعد. الآن إلى عصر 3.0 ، يتم تشغيله بواسطة نماذج كبيرة ، وفي هذه المرحلة ، هناك العديد من أجهزة الاستشعار التي تستخدم خوارزميات شاملة ، كما سيتم استخدام التعلم المعزز ، والذي يمكن أن يحقق القيادة التلقائية في العالم الحقيقي إلى حد كبير.