Apakah seseorang sudah membuat GPT-5 untuk OpenAI?

Sumber asli: GenAI Dunia Baru

Penulis|Xue LiangNeil

Sumber gambar: Dihasilkan oleh AI Tanpa Batas‌

Dari teori hingga praktik, seperti apa bentuk lengkap LLM model bahasa besar?

Banyak orang akan mengatakan bahwa ini didasarkan pada pemahaman mendalam tentang bahasa alami, namun seri GPT OpenAI telah berhasil dengan baik dalam hal ini. Beberapa orang juga mendiskusikan kemungkinan praktis dari Agen AI, namun saat ini diskusi tersebut tidak melepaskan diri dari lingkup pemrosesan bahasa alami.

AI generatif sebenarnya mencakup dua aspek. Model bahasa besar adalah salah satunya, yang berfokus pada pemahaman bahasa manusia. Aplikasi AIGC yang lebih luas sebenarnya mengacu pada kemampuan konversi lintas modal yang diwakili oleh model difusi. , juga dikenal sebagai Vincent gambar, video Vincent, dll.

Lalu bagaimana dengan menggabungkan keduanya? Di mata banyak orang, ini sebenarnya adalah GPT generasi berikutnya, atau seperti apa GPT secara keseluruhan. Makalah dari School of Computing di National University of Singapore yang baru-baru ini muncul di situs pracetak arxiv menarik perhatian masyarakat karena model NExT-GPT yang dirancang dalam makalah ini berupaya melakukan konversi modal secara komprehensif.

Dari gambar di atas terlihat bahwa ujung input dan output model NExT-GPT dapat menghasilkan berbagai bentuk modal termasuk teks, gambar, audio dan video. Ujung keluaran menggunakan model difusi yang sesuai dengan mode berbeda kecuali teks. Konversi media antara input dan output bergantung pada model besar.

Gaya model NExT-GPT sebenarnya tidak hanya sesuai dengan tren saat ini di mana orang-orang mencoba menggabungkan dua kekuatan AI generatif: model bahasa besar dan model difusi, bahkan sampai batas tertentu sesuai dengan intuisi manusia: otak manusia mengandalkan tentang Memahami dunia melalui konversi gratis dan pemahaman interaktif berbagai modalitas.

Perlu diperhatikan secara khusus bahwa apa yang disebut kombinasi konversi multi-modal dan kemampuan model bahasa yang besar bukanlah cara sederhana untuk "membangun jembatan" antara satu sama lain, tetapi untuk benar-benar menggabungkan data multi-modal (vektor) dengan bahasa. data. Setelah proses ini benar-benar diperhalus, artinya model besar tidak hanya dapat mempelajari dan memahami bahasa manusia, namun juga memperluas kemampuan ini ke lebih banyak modalitas. Setelah kombinasi ini berhasil, hal ini akan membawa lompatan kualitatif dalam kemampuan AI.

Ikhtisar struktur NExT-GPT:

Dua Titik Puncak

Dikatakan bahwa Google dan GPT5 OpenAI sedang melakukan penelitian serupa. Sebelum itu, mari kita lihat dulu bagaimana model NExT-GPT melakukannya.

Secara umum, model NExT-GPT menghubungkan model besar dengan adaptor multi-modal dan dekoder model difusi, dengan hanya 1% penyesuaian parameter pada lapisan proyeksi. Inovasi makalah ini adalah pembuatan instruksi penyesuaian peralihan modal yang disebut MosIT, dan kumpulan data khusus untuk peralihan lintas modal.

Secara khusus, NExT-GPT terdiri dari tiga lapisan, lapisan pertama adalah berbagai encoder matang yang mengkodekan berbagai input modal, dan kemudian memetakan melalui lapisan proyeksi ke bentuk yang dapat dipahami oleh model bahasa besar. Lapisan kedua adalah model bahasa besar sumber terbuka yang digunakan untuk penalaran. Perlu disebutkan bahwa model bahasa besar tidak hanya menghasilkan teks, tetapi juga menghasilkan tag unik untuk menginstruksikan lapisan decoding untuk mengeluarkan konten modal tertentu. Lapisan ketiga memproyeksikan sinyal perintah ini dan menghasilkan konten yang sesuai dengan pembuat enkode yang berbeda.

Untuk mengurangi biaya, NExT-GPT menggunakan encoder dan decoder siap pakai. Untuk meminimalkan "gangguan" yang terjadi saat mengonversi konten dalam modalitas berbeda, NExT-GPT menggunakan ImageBind, yang merupakan pengkodean terpadu lintas-modal .encoder, sehingga NExT-GPT tidak perlu mengelola banyak encoder modal yang heterogen, tetapi dapat memproyeksikan modalitas yang berbeda secara seragam ke dalam model bahasa yang besar.

Sedangkan untuk tahap keluaran, NExT-GPT secara ekstensif menggunakan berbagai model matang, termasuk difusi stabil untuk pembuatan gambar, Zeroscope untuk pembuatan video, dan AudioLDM untuk sintesis audio. Gambar di bawah ini adalah bagian dari proses penalaran di makalah. Anda dapat melihat bahwa pola teks dan penanda sinyal menentukan bagaimana modalitas dikenali, dipicu, dan dihasilkan. Bagian abu-abu adalah opsi modal yang tidak dipicu.

Hal ini melibatkan masalah pemahaman semantik antara modalitas yang berbeda, sehingga penyelarasan sangatlah penting. Namun karena strukturnya yang relatif jelas, penyelarasan NExT-GPT sebenarnya sangat mudah dioperasikan. Penulis merancang struktur kopling tiga lapis, ujung pengkodean disejajarkan dengan model besar sebagai pusat, dan ujung decoding disejajarkan dengan instruksi. Penyelarasan ini tidak melakukan proses penyelarasan skala penuh antara model difusi dan model bahasa besar, dan sebagai gantinya hanya menggunakan encoder bersyarat teks, yang hanya menyelaraskan Berdasarkan teks murni, penyelarasan ini sangat ringan, dengan hanya sekitar 1% dari parameter yang memerlukan penyesuaian.

Mengingat kebutuhan NExT-GPT untuk memiliki kemampuan menghasilkan dan menalar seluruh modalitas secara akurat, makalah ini juga memperkenalkan MosIT, yaitu Penyetelan Instruksi Pengalihan Modalitas. Pelatihannya didasarkan pada kumpulan data yang terdiri dari 5.000 sampel berkualitas tinggi. .

Proses pelatihan spesifiknya agak rumit, jadi saya tidak akan menjelaskan secara detail.Secara umum, MosIT dapat merekonstruksi konten teks input dan output, sehingga NExT-GPT dapat memahami dengan baik berbagai kombinasi mode teks, gambar, video dan audio .instruksi yang kompleks, yang sangat dekat dengan cara pemahaman dan penalaran manusia.

**Apakah kesempurnaan akan datang? **

Saat ini NExT-GPT masih memiliki banyak kelemahan, penulis juga banyak menyebutkannya di makalah, misalnya sangat mudah untuk menganggap bahwa keempat modalitas tersebut masih terlalu sedikit untuk multi-modal yang benar-benar lengkap dan besar. model Pelatihan MosIT Jumlah kumpulan data juga terbatas.

Selain itu, penulis juga bekerja keras untuk mengadaptasi NExT-GPT ke lebih banyak skenario melalui model bahasa besar dengan ukuran berbeda.

Masalah pelik lainnya adalah lebih praktis daripada ukuran. Meskipun NExT-GPT menunjukkan prospek yang kuat untuk kemampuan multi-modal, tingkat kemampuan AIGC saat ini yang diwakili oleh model difusi masih terbatas, sehingga mempengaruhi kinerja seluruh NExT-GPT.

Secara umum, AI multi-modal memiliki prospek yang sangat menarik, karena lebih terintegrasi dengan skenario aplikasi dan kebutuhan pengguna.Dengan sedikit penurunan popularitas jalur model besar saat ini, AI multi-modal memberi orang ruang imajinasi yang besar. Sebagai model besar multi-modal end-to-end, NExT-GPT sebenarnya memiliki prototipe AI multi-modal. Ide-ide dalam makalah tentang penyelarasan parameter dan penggunaan MosIT untuk meningkatkan kemampuan penalaran model sangat mengesankan, sehingga kami dapat bahkan bisa dikatakan seseorang telah mengambil langkah pertama menuju AI yang lengkap.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)