Dialog dengan Zeng Guoyang: Masa depan kecerdasan buatan di mata CTO perusahaan model besar berusia 25 tahun

Sumber asli: Ilmu Pengetahuan dan Teknologi Masa Depan

Sumber gambar: Dihasilkan oleh Unbounded AI

Dalam satu hal, Face Wall adalah perusahaan model skala besar yang khas. Itu lahir dari laboratorium NLP Universitas Tsinghua, dan salah satu pendirinya, Liu Zhiyuan, adalah wakil direktur Pusat Pemodelan Dasar Tsinghua, latar belakang yang membuat wajah dinding terlihat berbeda di pasar modal ventura yang sedikit sepi - sama seperti semua perusahaan model skala besar Tsinghua lainnya.

Bahkan, ada pemilihan rute teknis arus utama dan mutakhir - untuk meningkatkan kemampuan model dasar, dan bahkan atas dasar ini, tiga produk Agen AI yang disebut "troika" telah dikembangkan.

Namun dari sudut pandang lain, Facewall adalah perusahaan "alternatif". Beberapa petunjuk dapat dilihat dari namanya: nama "Face Wall" berasal dari novel "The Three-Body Problem", dan model besar multimodal menggunakan Luca, yang awalnya berarti nenek moyang bersama kehidupan di bumi (The Last Universal Common Ancestor). Nama-nama ini semuanya penuh dengan idealisme sastra dan optimis tertentu, yang sama sekali berbeda dari gaya berpikir sains dan teknik yang ketat dan disiplin di benak orang biasa.

CTO Zeng Guoyang juga merupakan tempat "alternatif" yang menghadap ke dinding. Lahir pada tahun 1998, dia baru berusia 25 tahun tahun ini, tetapi dia telah memimpin tim teknis inti Face Wall selama 3 tahun, dan pengembangan CPM model besar dasar Face Wall telah dipimpin oleh Zeng Guoyang sejak awal, dan perusahaan bahkan belum didirikan pada saat itu.

Sekarang Zeng Guoyang bertanggung jawab atas semua bisnis teknis tembok, sebagai CTO dari perusahaan tahap pertumbuhan (skala dan bisnis perusahaan berkembang pesat dengan iterasi berkelanjutan dari kemampuan model besar), Zeng Guoyang menunjukkan ketenangan dan kepercayaan diri yang mengejutkan dalam dialog, dan dia berbicara tentang masalah utama tanpa penundaan, dan bahkan tahu bagaimana menangani beberapa topik sensitif.

Baru kemudian kami merasa bahwa ini adalah pertama kalinya CTO muda secara resmi melakukan percakapan dengan platform konten teknologi.

Dari apa yang telah kami pelajari, orang-orang di sekitarnya yang akrab dengan Zeng mengoceh tentang kemampuannya – bukan hanya seberapa pintar dia. Meskipun Zeng Guoyang juga merupakan Universitas Tsinghua yang dikawal oleh kompetisi, dan memasuki Tsinghua NLP di tahun keduanya, yaitu jenius laboratorium Profesor Liu Zhiyuan, orang-orang seperti itu tidak jarang di Universitas Tsinghua.

Yang lebih mengesankan adalah kemampuan teknik Zeng Guoyang, yang melibatkan esensi dari sebuah perusahaan komersial: tidak hanya untuk mempelajari teknologi mutakhir, tetapi juga untuk memimpin tim untuk menerapkan teknologi dalam skala besar, Zeng Guoyang telah dipuji secara luas oleh orang-orang di sekitarnya dalam hal ini, meskipun dia sendiri tidak berbicara terlalu banyak tentang bagian percakapan ini, tetapi menurut apa yang kita ketahui, lebih dari satu orang berkomentar bahwa Zeng Guoyang diakui di laboratorium NLP sebagai orang yang secara pribadi meyakinkan secara teknis dan dapat memimpin tim.

Faktanya, selama percakapan, staf di sebelahnya memberikan contoh kecil tapi ilustratif, Wi-Fi di gedung perkantoran yang menghadap ke Taman Sains dan Teknologi Tsinghua dipasang oleh Zeng Guoyang sendiri.

Percakapan kami berakhir lebih cepat dari yang diharapkan, dan setelah percakapan berakhir, Zeng Guoyang bangkit dengan rapi dan dengan cepat beralih ke pertemuan berikutnya, meninggalkan kami dengan visi yang lengkap dan unik tentang dunia model besar untuk perusahaan muda yang menghadap ke dinding.

Berikut ini telah diedit tanpa mengubah arti aslinya:

Zeng Guoyang

Struktur model telah mencapai kemacetan

T: Pertama-tama, kami ingin tahu kemajuan seperti apa yang sedang dibuat di bidang model dasar.

Model CPM kami awalnya telah mencapai tingkat GPT 3.5 dalam rangkaian evaluasi internal kami, dan kami yakin bahwa kami akan sepenuhnya mengejar ketinggalan tahun ini.

T: Apakah ini berarti bahwa akan ada rilis lain dari model besar tahun ini?**

Jadi untuk berbicara, kami masih merencanakan.

T: Kecepatan iterasi model dinding muka tampaknya sangat cepat. Saat ini, kami mengamati bahwa model besar di pasaran pada dasarnya akan berulang setiap 3-6 bulan sekali, dan apakah ini juga berlaku untuk dinding wajah? **

Secara internal, itu akan menjadi sedikit lebih sering. Termasuk kami, pada kenyataannya, OpenAI juga melakukan iterasi internal setiap dua minggu.

T: Apa pendapat Anda tentang tujuan mengejar ketinggalan dengan ChatGPT3.5 dalam tahun ini?Atau bagaimana Anda mengevaluasi kesenjangan antara kami dan OpenAI?**

Persepsi ini sebenarnya berubah sepanjang waktu. Ketika ChatGPT pertama kali keluar pada akhir tahun lalu, semua orang umumnya pesimis, merasa bahwa itu akan lebih dari dua tahun di belakang. Namun, dengan eksplorasi dan praktik semua orang, serta munculnya karya open source, kecepatan mengejar ketinggalan telah sangat dipercepat.

Saya pikir semua orang umumnya berpikir bahwa GPT 3.5 adalah keadaan jangka pendek yang dapat dicapai, dan GPT4 adalah tujuan sekitar satu tahun.

T: Tapi GPT4 sendiri juga berkembang. **

Ini terutama merupakan evolusi fungsional, tetapi menurut pemahaman kami, termasuk komunikasi dengan pengembang, umpan baliknya adalah bahwa dengan pembaruan model, kemampuan GPT4 sebenarnya sedikit menurun.

Saya pikir jika OpenAI terus mengulangi seperti ini, kemampuan model masih akan meningkat perlahan, tetapi kecepatannya tidak akan terlalu cepat, dan tidak akan ada perasaan lompatan tiba-tiba. Pada saat yang sama, sebagai pengejaran, kita setara dengan bergerak maju di sepanjang jalan yang telah dilalui orang lain, yang memungkinkan kita untuk menghindari banyak jalan memutar, jadi setidaknya level kita saat ini tidak akan menjadi keadaan ditarik lebih dan lebih.

T: Dengan kata lain, meskipun OpenAI bukan GPT4 open source, Anda memiliki beberapa penilaian dan pemahaman tentang kemampuan dan arsitekturnya. **

Itu normal bagi dunia luar untuk tidak jelas, tetapi untuk lingkaran pelatihan model besar, masih ada banyak informasi untuk berkomunikasi secara internal. Selain itu, komunitas open source juga telah memberikan banyak bantuan.

Kemampuan model yang mendasarinya tergantung pada arsitektur terlebih dahulu, dan data kedua. Dalam satu atau dua tahun terakhir, arsitektur model telah dieksplorasi lebih banyak di industri, dan harus dikatakan bahwa ada konsensus tentang cara melatih model monolitik yang lebih baik.

Optimasi model sekarang lebih jatuh ke poin kedua, yaitu penggunaan data.

T: Dibandingkan dengan arsitektur model, di sinilah kita memiliki kesenjangan yang lebih besar dengan OpenAI?**

Ya, pemahaman saya adalah ini, di satu sisi, kualitas data, di sisi lain, kemampuan data.

T: Apa itu kemampuan data?

Kemampuan untuk menghasilkan data. Misalnya, pada bulan Februari tahun ini, kami juga mencoba membayar orang untuk melabeli data seperti ChatGPT, tetapi pada kenyataannya, tim data domestik belum dapat mencapai kualitas itu. Anda dapat dengan jelas merasakan bahwa OpenAI memiliki banyak akumulasi data, dan juga memiliki kemampuan yang relatif kuat untuk membuat dan menghasilkan data baru.

Saya pikir masih ada kekurangan kemampuan domestik dalam hal ini, sejauh yang saya tahu, sebenarnya sulit bagi semua orang untuk melakukan ini dengan baik, atau jika Anda ingin melakukannya dengan baik, biayanya akan menjadi sangat tinggi, tetapi OpenAI jelas tidak menggunakan biaya tinggi untuk melakukan pekerjaan data, itu harus memiliki hal-hal yang mendalam dalam metode Dunia luar tidak tahu.

Q: Apakah ini alasan kerjasama erat antara Face Wall dan Zhihu?**

Untuk pelatihan model, data berkualitas tinggi memang bisa mendapatkan hasil yang lebih baik, dan kami juga telah melakukan lebih banyak investasi dalam konstruksi data. Salah satu perasaan yang dapat saya bagikan adalah bahwa pertumbuhan kemampuan model kami saat ini lebih bergantung pada akumulasi dan investasi kami dalam data.

**Q: Jawaban ini sangat resmi (tertawa), mari kita katakan dengan cara lain, dalam hal kemampuan data, apa keuntungan unik menghadap tembok? Bagaimanapun, produsen besar tampaknya memiliki lebih banyak keuntungan dalam hal ini, setidaknya dalam hal modal dan sumber daya. **

Sangat mudah untuk jatuh ke dalam perangkap terlalu memperhatikan jumlah absolut data, tetapi pada kenyataannya, kualitas data, cara menggunakan data, dan persepsi data lebih penting.

Jika arahnya salah, tidak peduli seberapa besar jumlahnya, itu tidak akan mencerminkan efek apa pun. Banyak pengalaman menghadap dinding pada model besar tercermin dalam kognisi data. Jenis data apa yang dibutuhkan untuk model besar, jenis data apa yang dapat memperkaya model besar dengan lebih baik, dan bagaimana kami harus menambang data yang sesuai ketika kemampuan tertentu tidak mencukupi, ada banyak pengalaman yang terakumulasi di bidang ini, dan kami telah membuat model besar sejak akhir 2020.

** Untuk membuat model besar tidak akan mencekik diri sendiri karena daya komputasi **

T: Sebagai penanggung jawab tim teknis, apa pendapat Anda tentang masalah terpanas dari daya komputasi model besar yang macet, dan bagaimana menyesuaikan daya komputasi lokalisasi ke dinding?

Untuk tim yang melakukan penelitian dan pengembangan model besar relatif awal, adaptasi lokalisasi pada dasarnya telah selesai, karena dilakukan lebih awal.

Faktanya, kesenjangan dalam daya komputasi lokal tidak sebesar yang dibayangkan, terutama untuk perangkat seperti Huawei Ascend, yang telah mencapai tingkat penggunaan komersial skala besar. Masalah leher macet akan berdampak dalam jangka pendek, tetapi dalam jangka panjang, semua orang selalu dapat menemukan cara, yang sebenarnya bagus untuk daya komputasi lokal, dan membuat model besar tidak akan mencekik dirinya sendiri karena daya komputasi.

Selain daya komputasi dasar, Facewall juga telah berupaya keras untuk memanfaatkan daya komputasi secara efisien, termasuk komputasi paralel yang efisien, inferensi, dan kami juga telah merilis kerangka kerja pelatihan yang efisien seperti BMTrain.

T: Ini adalah mitos lama bahwa tim yang berbeda dan model yang berbeda akan memiliki efek yang sangat berbeda pada kartu yang sama. **

Saya memiliki pemahaman yang mendalam tentang ini. Ketika kami melakukan CPM2 pada tahun 21, kami masih menggunakan teknologi lama, ketika 40 V100 berjalan selama 20 hari dan melatih model 10 miliar, dan kemudian dengan peningkatan teknologi, kami menggunakan 4 V100 untuk berlatih selama 30 hari dan menyelesaikan pelatihan yang sama.

Untuk perusahaan yang memasuki bidang ini setelah model besar menjadi populer, ini adalah hambatan teknis yang relatif tinggi, karena jika Anda tidak melakukan daya komputasi dan hal-hal teknis yang mendasarinya, Anda tidak tahu masalah seperti apa yang akan terjadi di sini.

T: Rumor lain adalah bahwa penjadwalan cluster juga merupakan ujian besar bagi kemampuan perusahaan model besar, dan ada sangat sedikit perusahaan di China yang memiliki pengalaman dalam penjadwalan cluster ribuan atau bahkan puluhan ribu kartu. **

Memang benar bahwa ketika jumlah kartu meningkat, stabilitas seluruh cluster menurun secara dramatis. Ketika OpenAI melatih GPT3, tingkat pemanfaatan cluster sekitar 60%, sedangkan GPT4 hanya lebih dari 30%.

Kami juga memiliki kerjasama yang luas dengan laboratorium berkinerja tinggi seperti Universitas Tsinghua, dan kami masih relatif percaya diri dalam mengatasi masalah ini.

Jalan menuju AGI agak panjang

T: Dibandingkan dengan perusahaan lain, ada banyak produk Agen AI di Facewall, termasuk AgentVerse, XAgent, dan ChatDev, dari sudut pandang teknis, apa pendapat Facewall tentang Agen, dan mengapa perlu begitu banyak upaya untuk membuat produk ini?**

Arah sangat penting bagi orang yang melakukan teknologi. Terus terang, selama periode 2021 hingga 2022, arah model besar dalam negeri sebenarnya kurang tepat. Arti terpenting dari ChatGPT adalah memberi tahu semua orang bahwa model besar harus dapat memberikan nilai kepada orang, itu harus berguna, tidak perlu menggulung parameter yang lebih besar, dan teknologi Agen adalah teknologi yang dapat membuat model besar lebih berguna.

Teknologi agen itu sendiri juga telah melalui beberapa putaran perubahan, yang pertama adalah melakukan penalaran selangkah demi selangkah, kemudian menambahkan mekanisme ReAct (reaksi), dan kemudian ke AutoGPT, pekerjaan terbaru kami disebut XAgent, yang menggunakan generasi baru teknologi Agen, artinya, rantai pemikiran-pengamatan-reaksi-tindakan bukan lagi siklus tunggal, tetapi siklus ganda, satu lapisan adalah melakukan perencanaan penilaian makro seperti seseorang, dan lapisan lainnya lebih fokus pada hal-hal tertentu.

T: Apakah ada korelasi kuat antara kemampuan agen dan kemampuan model dasar?

Akan ada beberapa koneksi, teknologi Agen seperti penguat kemampuan model yang memperluas apa yang dapat Anda lakukan beberapa kali lipat. Dengan peningkatan kemampuan model dasar, batas-batas apa yang dapat dilakukan agen juga akan ditingkatkan.

T: Konsep lain yang lebih diperhatikan semua orang adalah model vertikal, atau model industri, bagaimana menurut Anda?**

Ini mungkin lebih menyimpang dari pendaratan spesifik di beberapa industri, saya merasa itu termasuk dalam skema kompromi, karena teknologi umum yang dianjurkan oleh model besar itu sendiri, yaitu melakukan segalanya dengan model, tetapi sebelum kedatangan AGI, industri mungkin perlu sedikit berkompromi jika Anda ingin menggunakannya, yang sebenarnya adalah rencana kompromi, karena jalan menuju AGI agak panjang, dan jalan untuk menghasilkan uang ada di sebelahnya, dan Anda harus membuat sedikit jalan memutar untuk membuat model industri yang besar.

Beberapa orang mengatakan bahwa model dasar tidak membutuhkan sebanyak itu, dan lebih baik menerapkan volume daripada model volume. **

Jumlah model besar yang ada memang agak terlalu banyak (tertawa), untuk teknologi umum, penerapan model besar memang menjadi masalah utama untuk kita pertimbangkan, dan konsep model besar itu sendiri akan menjadi semakin encer di masa depan, karena semua orang melihat lebih banyak aplikasi daripada model di balik aplikasi.

Q: Apakah ada rencana terkait aplikasi untuk face wall?

Kami juga meletakkan aplikasi sisi-C. Apa yang dapat dikatakan adalah bahwa model besar harus jatuh ke dalam aplikasi praktis, dan hanya dengan aplikasi itu dapat lebih memandu arah pembaruan berulang dari model besar.

T: Ini berarti bahwa ada hal-hal yang berorientasi pada teknologi dan berorientasi produk yang harus dilakukan di dinding, mulai dari penelitian ilmiah hingga kemampuan teknik, bagaimana Anda menyeimbangkannya sebagai CTO? **

Saya pikir arahnya pada dasarnya sama, hanya untuk membuatnya lebih berharga. Yang disebut berorientasi teknologi, berorientasi produk, itu bukan dua pertigaan di jalan, itu adalah perbedaan satu langkah, dua langkah, tiga langkah, kami membuat produk untuk mengambil langkah maju, tetapi teknologi mutakhir membutuhkan kami untuk mengambil langkah kedua ke depan, tetapi ini tidak berarti bahwa kami ingin segera menggunakan teknologi paling mutakhir ke produk, tetapi langkah kedua dan ketiga meletakkan dasar untuk produk, menciptakan lebih banyak ruang aplikasi bagi kami di masa depan.

Menurut pendapat saya, ini bukan kontradiksi atau hubungan yang saling eksklusif.

**Saya tidak khawatir tentang kurangnya bakat di China **

Q: Menjadi CTO di usia yang begitu muda, bagaimana Anda melihat posisi Anda. **

Saat ini saya sedang mengerjakan dinding, terutama bertanggung jawab atas penelitian dan pengembangan teknologi model skala besar, dan posisi ini sebenarnya memiliki waktu dan keberuntungan di dalamnya.

Saya adalah salah satu orang pertama di China yang berhubungan dengan model besar, dan kemudian dalam hal teknologi, saya relatif komprehensif, termasuk algoritma, pengembangan arsitektur yang mendasarinya, dan manajemen operasi dan pemeliharaan mesin.

Masih ada tekanan pada posisi CTO, dan saya merasa masih memiliki banyak ruang untuk tumbuh, dan hal yang paling jelas dibandingkan dengan sekolah adalah dalam ritme. Sekolah masih merupakan lingkungan yang lebih belajar dan penelitian ilmiah, dan daya saing serta intensitas kerja perusahaan sangat berbeda.

Q: Apa irama Tsinghua?**

Kecepatan sekolah jelas sedikit lebih berjiwa bebas dan santai.

T: Apakah Anda kesulitan dengan posisi ini?**

Tidak, saya senang. Saya terutama menyukai hal-hal yang menantang di dunia komputer, jadi saya cukup senang untuk melanjutkan.

Model besar berisi banyak teknologi komputer presisi tinggi dan lintas disiplin, dan itu merupakan tantangan besar bagi saya untuk mendukungnya, dan ada banyak hal yang harus saya pikirkan saat belajar. Selain itu, model besar perlu memiliki tim besar, termasuk algoritma, data, dll., Dan juga merupakan tantangan bagi saya untuk mengaturnya dengan baik. Pada awal tahun ini, hanya ada selusin dari kami, dan sekarang kami hampir seratus.

T: Anda berbicara tentang perluasan tim, apa pendapat Anda tentang kinerja China dalam kumpulan bakat model besar?**

Soalnya, kenapa perusahaan model besar berada di gerbang Universitas Tsinghua (mengacu pada Taman Sains dan Teknologi Tsinghua), ada alasannya, yaitu dekat dengan bakat. Tentu saja, tidak hanya Universitas Tsinghua, tetapi juga banyak universitas di sekitarnya, dll., Kemampuan semua orang masih cukup kuat dari sudut pandang pribadi saya.

Jadi sebenarnya, saya tidak memiliki perasaan kekurangan orang yang lebih jelas. Tentu saja, jika Anda ingin mencari seseorang dengan pengalaman dengan model besar, maka jujur saja, tidak ada yang bisa merekrut mereka, karena tidak ada yang ada di pasaran. Namun, dari perspektif kumpulan bakat secara keseluruhan, negara ini masih cukup memadai, dan saya tidak khawatir tentang kurangnya bakat di China.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)