Zhang Yaqin, akademisi Akademi Teknik: Pra-pelatihan dan model besar generatif akan membawa perubahan baru dalam paradigma teknologi mengemudi otonom

Sumber gambar: Dihasilkan oleh Unbounded AI

Munculnya model besar generatif yang diwakili oleh GPT telah membuat lompatan lain dalam teknologi kecerdasan buatan, dan teknologi AI sedang mengalami proses mengubah paradigma teknis dari diskriminan menjadi generatif. Dengan diperkenalkannya teknologi model besar seperti generatif, pra-pelatihan, dan multi-modal, itu juga memberikan kemungkinan bagi teknologi mengemudi otonom untuk matang dan tak berawak.

Dari Tsinghua Intelligent Industry Research Institute (AIR), lembaga penelitian kecerdasan buatan terkemuka di dunia, dan perusahaan teknologi AI mengemudi otonom domestik terkemuka, Milli Zhixing memiliki penilaian yang sangat konsisten tentang tren teknis dan penerapan model besar. Pada saat yang sama, kedua pihak juga telah melakukan eksplorasi mendalam ke arah optimalisasi pengambilan keputusan berbasis data, bersama-sama mempromosikan kerja sama mendalam penelitian industri-universitas-menyeluruh dan multi-level, dan mempercepat penerapan teknologi AI di bidang mengemudi otonom.

Pada 11 Oktober 2023, Zhang Yaqin, akademisi Akademi Teknik Tiongkok, profesor Universitas Tsinghua dan presiden Institut Penelitian Industri Cerdas (AIR) Tsinghua, menghadiri HAOMO AI DAY ke-9 yang diadakan oleh Milli Zhixing, dan menyampaikan pidato utama berjudul "Kemajuan Baru Mengemudi Cerdas - Model Besar, Generatif Al, dan Mengemudi Cerdas", berbagi pemikiran terbarunya tentang penerapan model besar AI generatif pada teknologi mengemudi otonom. dan memperkenalkan pencapaian terbaru Tsinghua AIR dalam membangun platform model dasar Real2Sim2Real dan platform simulasi mengemudi otonom.

Berikut teks lengkap pidato Akademisi Zhang Yaqin:

Cuaca yang begitu indah, tempat yang begitu indah, saya sangat senang berpartisipasi dalam HAOMO AI DAY, dan juga berterima kasih kepada Ketua Zhang Kai dan Weihao atas undangannya.

Hari ini adalah HAOMO AI DAY kesembilan, pertama-tama, saya ingin mengucapkan selamat kepada Momo atas pencapaian besar yang telah dia capai dalam waktu kurang dari 4 tahun, terutama menempa jalannya sendiri. Saya mendapat kesan bahwa Momo adalah orang pertama yang merilis DriveGPT model besar generatif dalam mengemudi otonom, dan dengan cepat bergerak menuju skala, dan mampu menjadi pemimpin di bidang mengemudi otonom dalam waktu singkat.

Hari ini saya ingin berbicara tentang kemajuan baru dalam mengemudi cerdas, saya telah menggunakan topik yang sama selama bertahun-tahun, tetapi setiap kali saya akan menemukan bahwa kontennya benar-benar berbeda, terutama setelah AI generatif baru-baru ini keluar, telah ada promosi besar mengemudi otonom.

Kami telah berbicara tentang "empat modernisasi" baru - jaringan, kecerdasan, berbagi, dan elektrifikasi, yang paling penting adalah dua modernisasi - elektrifikasi dan kecerdasan. Elektrifikasi dapat dipahami sebagai energi baru, dan sekarang China sudah menjadi pasar energi baru paling aktif dan terbesar di dunia, apakah itu dalam skala pengguna atau skala ekspor adalah yang pertama di dunia, yang merupakan paruh pertama mobil baru. Hal terpenting di babak kedua adalah mengemudi cerdas, dan hot spot serta puncak persaingan global dalam 5-10 tahun ke depan adalah mengemudi otonom. Kecerdasan buatan adalah kekuatan pendorong teknologi inti dari mengemudi otonom, dan sejak awal, HAOMO AI DAY telah menjadi mesin teknologi perusahaan, jadi HAOMO AI DAY sangat penting.

Mengapa begitu banyak perusahaan melakukan mengemudi cerdas? Termasuk produsen mobil tradisional, kekuatan baru, perusahaan teknologi tinggi memasuki pasar mengemudi otonom? Faktanya, ada banyak tantangan teknis, pertama-tama, dari perspektif AI, mengemudi otomatis sangat kompleks, membutuhkan banyak daya komputasi, algoritma baru, adalah masalah bidang vertikal AI yang paling menantang, kedua, mengemudi otomatis juga merupakan persimpangan kecerdasan terkonsentrasi, kecerdasan tepi, dan kecerdasan otonom yang saat ini terlihat. Dalam video uji barusan, Anda dapat melihat bahwa mengemudi otonom menghadapi begitu banyak skenario dan perubahan yang kompleks, dan memang ada banyak tantangan.

Namun, saya pikir mengemudi otonom sepenuhnya dapat dicapai, dan ada beberapa masalah utama, beberapa di antaranya adalah faktor pasar, dan beberapa di antaranya adalah kekuatan non-pasar. Faktor pasar meliputi: Apakah teknologinya layak? Apakah pengguna memiliki kebutuhan nyata? Ekologi industri dan model bisnis. Faktor non-pasar juga sangat penting, membutuhkan terobosan teknologi di industri, serta dukungan industri pemerintah, dan terobosan dalam kebijakan dan peraturan.

Dari segi teknologi, pada awalnya, banyak orang membicarakan apakah mengemudi tanpa pengemudi layak, terutama apakah layak di atas L4? Saya pikir itu layak sejak awal. Baru-baru ini, saya telah melihat beberapa data bahwa tanpa pengemudi sekitar 10 kali lebih aman daripada mengemudi berawak, dan tahun lalu saya berbicara tentang 3 kali, dan tahun ini telah mencapai 10 kali. Ini menunjukkan bahwa terobosan teknologi telah selesai. Dalam peta jalan komersialisasi, saat ini ada berbagai cara, ada yang menggunakan kecerdasan sepeda, ada yang koordinasi jalan, dan ada yang bertahap, rute lompatan, open source, rute tertutup, perusahaan yang berbeda mengeksplorasi peta jalan yang berbeda, tidak mengatakan mana yang sepenuhnya benar, industri mencoba mengemudi otomatis dengan cara yang berbeda. Saya tahu bahwa Momo memilih yang progresif, dan saya pikir semuanya baik-baik saja, dan orang-orang menjelajahinya dengan cara yang berbeda.

Ada banyak terobosan baru dalam AI baru-baru ini. Kami melihat algoritma baru, kerangka kerja baru, terutama pra-pelatihan, multi-modal, pembelajaran multi-pengawasan, dan model besar menjadi arus utama. Sebelum Transformer, ResNeT dulunya adalah kerangka kerja algoritma visi yang sangat banyak digunakan, dan alasan mengapa saya secara khusus menyebutkan ResNeT, algoritma ini sebenarnya dilakukan oleh ilmuwan muda Cina di Cina, sehingga ilmuwan Cina telah memberikan kontribusi besar untuk kecerdasan buatan. Saya telah mendengar banyak pernyataan bahwa inti AI terutama dari Eropa, dan teori dasarnya berasal dari sana, tetapi para ilmuwan Cina juga telah memberikan banyak kontribusi di bidang kecerdasan buatan.

Penting bagi model besar untuk menerobos batasan teknis. Dalam enam atau tujuh puluh tahun terakhir, ada tiga teori utama: Hukum Moore, arsitektur von Neumann, tiga hukum Shannon, dan sekarang ketiga teori tersebut sedang dilanggar. Jika tidak ada terobosan, model besar tidak mungkin dicapai, yang membutuhkan metode penginderaan baru, metode persepsi baru, terobosan dalam arsitektur komputer baru, termasuk kerangka chip baru, dll., Dan sekarang Transformer arus utama dan jaringan saraf konvolusional CNN juga berbeda. Saat ini, industri teknologi digital terutama didasarkan pada komputasi berbasis wafer silikon, dan mungkin ada ilmu biologi, komputasi optik, dan komputasi kuantum di masa depan.

Saat ini, sangat penting bahwa model besar membawa AI generatif, dan di masa lalu, AI berbicara tentang klasifikasi, yaitu AI diskriminan. Sekarang dimungkinkan untuk sepenuhnya menghasilkan ide konten baru, ide data, dan banyak ide baru untuk adegan. Izinkan saya sekarang mengatakan sedikit tentang pekerjaan saya di bidang ini.

Model besar pergi ke arah yang baru. Yang pertama adalah multi-modalitas, tidak hanya bahasa alami, gambar, video, tetapi juga sinyal penginderaan, lidar dan persepsi fisik lainnya dan sinyal biosensori yang dipancarkan dari semua kendaraan. Anda lihat bahwa model GPT-4 adalah multi-modal, fungsinya sangat kuat, tetapi efisiensinya sangat rendah, kira-kira setidaknya 1000 kali lebih rendah dari perhitungan dan efisiensi pengambilan keputusan otak manusia, jadi masih ada kebutuhan untuk algoritma baru, saya pikir akan ada algoritma baru dalam 5 tahun. Yang kedua adalah kecerdasan otonom, yang dapat secara otomatis menyelesaikan tugas, termasuk komputasi tepi, bagaimana menempatkan model besar yang sangat kompleks di tepi ponsel, mobil, robot, dan kecerdasan yang diwujudkan dan dunia fisik bersama-sama, saya pikir mengemudi otomatis adalah adegan cerdas yang diwujudkan yang paling penting. Masa depan adalah tahap kecerdasan otak-komputer, dan model besar akan menghadapi bagaimana menggunakan dunia biologi, dunia kehidupan, dan bagaimana menghubungkan orang dan otak dengan lebih baik.

Arsitektur teknologi baru akan menggunakan model besar, sama seperti sistem operasi AI baru, akan ada banyak model vertikal, termasuk mengemudi otonom atau model vertikal lainnya seperti ilmu kehidupan.

Saya akan berbicara singkat tentang Tsinghua Intelligent Industry Research Institute (AIR), yang merupakan lembaga penelitian industri kecerdasan buatan yang saya dirikan setelah pensiun dari Baidu, yang telah berkembang pesat dalam 3 tahun, dan saya juga beruntung menemukan sekelompok ilmuwan dan CTO perusahaan dengan latar belakang industri yang mendalam dan pencapaian akademis yang mendalam. Sekarang ada sekitar 300 rekan dan mahasiswa postdoctoral, dan mengemudi otonom adalah salah satu arah, sekitar 100 orang.

Setiap kali saya berbicara tentang AIR Research, saya memikirkan 25 tahun yang lalu ketika saya kembali ke China untuk menemukan Microsoft Research Asia. Bulan depan akan merayakan ulang tahun ke-25 Microsoft Research Asia, yang dengan sendirinya telah cukup sukses. Model besar yang baru saja saya bicarakan dikembangkan di Microsoft Research, berharap dapat membangun lembaga penelitian untuk industri Cina.

Ketika kami terlibat dalam berbagai penelitian, kami berharap memiliki kerangka kerja yang besar, seperti mengemudi cerdas, pertama-tama kami harus menentukan beberapa rute teknis. Pertama-tama, saya pikir persepsi multimodal sangat penting, dan multi-skala, data multidimensi dari aslinya sangat penting. Karena untuk melakukan unmanned driving, intelligent driving, kelebihan robot adalah pertama-tama membutuhkan lebih banyak data, keunggulan data ini masih belum bisa dihilangkan, jadi saya tidak setuju Musk mengatakan bahwa hanya menggunakan kamera, kita perlu menggunakan lebih banyak sumber data. Kedua, banyak mengemudi otonom sekarang akan menggunakan banyak peta definisi tinggi, tetapi kami percaya bahwa masa depan adalah peta cahaya dan tidak dapat sepenuhnya bergantung pada peta.

Mengemudi otonom untuk mencapai tahap akhir yang aman dan andal harus dicapai dari ujung ke ujung, ini juga sangat sulit, ada faktor teknis yang lebih rinci, termasuk AI generatif, pembelajaran penguatan, model bahasa besar, kami memiliki dua platform: platform model data besar, platform simulasi.

AIR juga telah mengusulkan model dasar mengemudi otonom sendiri. Pertama, model mengusulkan bagaimana memperoleh data yang berbeda, termasuk data dunia nyata dan data simulasi. Data dibersihkan melalui pipa terkontrol, dan kemudian melewati dua model besar: model persepsi, model pengambilan keputusan, termasuk membuat keputusan di beberapa tempat utama di cloud dan di ujung kendaraan, beberapa modul berbasis informasi, beberapa statistik, dan beberapa modul berbasis aturan.

Saya secara khusus mengeluarkan "pembelajaran penguatan" di dalamnya, karena pembelajaran penguatan telah saya gunakan sejak Baidu, tetapi sulit untuk digunakan. Karena keselamatan mengemudi otonom sangat penting, cukup sulit untuk digunakan, tetapi saya pikir ini adalah satu-satunya cara kita benar-benar dapat mencapai keselamatan yang lebih tinggi, pembelajaran penguatan dapat mempelajari hal-hal baru, dan sekarang metode generalisasi bergantung pada pembelajaran penguatan untuk belajar, dan ada banyak perkembangan baru baru-baru ini. Bagaimana menggunakan pembelajaran penguatan dalam banyak simulasi dan pengambilan keputusan, dan menggunakannya dalam perilaku mengemudi nyata. Model di sebelah kiri adalah data besar vertikal, bagaimana menggunakan pembelajaran penguatan untuk menyesuaikan model.

Selain itu, bagaimana AI generatif dapat digunakan dalam simulasi dan pengambilan keputusan? Ada contoh kecil di sini, baik model besar maupun pembelajaran mendalam memiliki masalah transparansi, jadi kami juga melakukan penelitian ini, mengapa saya membuat keputusan ini? Belok kiri, kanan, rem, beri tahu saya apa yang saya lihat dan mengapa saya membuat keputusan ini, dan itu dapat memandu bagaimana membuat keputusan. Ini menggunakan data nyata, data simulasi, model vertikal, dan model besar untuk menghasilkan adegan kedalaman semantik, termasuk informasi lalu lintas dan pejalan kaki.

Yang lainnya adalah perpaduan otak manusia dan mesin, kita harus mempelajari bagaimana orang mengemudi. Terkadang orang membuat keputusan yang baik, terkadang tidak, dan mengumpulkan informasi ini melalui sensor. Di satu sisi, untuk waktu yang lama, orang dan mesin harus mengemudi bersama, dan orang tanpa pengemudi harus perlahan-lahan memahami mengemudi manusia. Di sisi lain, model ini digunakan dalam algoritma untuk meningkatkan efisiensi algoritma.

Akhirnya, kami sangat senang memiliki kolaborasi teknis yang mendalam dengan Milli tentang bagaimana menerapkan pembelajaran penguatan untuk pengambilan keputusan kognitif. Saat ini, pembelajaran penguatan memiliki banyak masalah, online atau offline, termasuk masalah definisi fungsi, ambiguitas kebijakan, sehingga kami telah melakukan banyak penelitian semacam itu. Selama setahun terakhir ini, banyak makalah telah diterbitkan di International Top Conference, dan ada juga paten, dan yang paling penting adalah sudah mulai digunakan di mobil, dan mobil yang baru saja melihat logistik sudah mulai menggunakan algoritma ini.

Singkatnya, jika Anda melihat berbagai tahapan mengemudi cerdas dan mengemudi otomatis, pada awalnya, itu lebih didorong oleh lidar dan perangkat keras, dan lebih banyak didasarkan pada aturan buatan. 2.0 didorong oleh perangkat lunak dan algoritma, dan tahap ini memiliki lebih banyak sensor, juga mengandalkan pembelajaran mesin dan aturan. Sekarang ke era 3.0, didorong oleh model-model besar, dan pada tahap ini, ada banyak sensor yang menggunakan algoritma ujung ke ujung, dan pembelajaran penguatan juga akan digunakan, yang dapat mencapai mengemudi otomatis di dunia nyata ke tingkat yang lebih besar.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)