Penulis|Yao Qian "Direktur Biro Pengawasan Teknologi Komisi Regulasi Sekuritas China"
Sumber| "Keuangan China" Edisi 13, 2023
Sumber gambar: Dihasilkan oleh AI Tak Terbatas
Memasuki tahun 2023, aplikasi kecerdasan buatan yang berorientasi pada pembuatan konten seperti ChatGPT, GPT4, dan Midjourney telah memicu gelombang inovasi. Beberapa orang bahkan berpikir bahwa model besar berkembang secara iteratif dalam satuan hari. Sebagai faktor produksi baru, pengembangan data pelatihan model besar yang ramah dan berkelanjutan sangat penting untuk pengembangan industri model besar dan kecerdasan buatan. Sebagai bidang penting dari aplikasi data besar dan kecerdasan buatan, industri keuangan harus memperhatikan perkembangan terbaru dalam teknologi yang terkait dengan pelatihan model besar. Makalah ini pertama-tama menganalisis jalur evolusi dan peningkatan model besar, dan kemudian membahas kemungkinan metode interaksi antara model besar dan model kecil dan menengah, dan menjelaskan ekologi data dan konstruksi ekologi model model besar. ekologi memberikan gagasan yang relevan.
Peningkatan dan analisis jalur evolusi model besar
Dari perspektif jangka panjang, evolusi model besar memiliki banyak cabang. Baru-baru ini, kecepatan iterasi model besar tidak hanya dipercepat, tetapi juga semakin banyak peserta, yang pada dasarnya mencakup semua perusahaan teknologi besar, dan keragaman serta kompleksitas ekologi pada awalnya muncul.
Saat ini, tidak ada perubahan penting dalam kerangka algoritme yang mendasari proses iteratif peningkatan model besar. Input daya komputasi dan banyaknya data pelatihan masih menjadi kunci evolusi cepatnya, tetapi GPT4 terbaru menghadirkan beberapa hal baru fitur.
**Salah satunya adalah algoritme lebih cocok untuk tugas hilir tertentu. **GPT3 dan GPT3.5 adalah model besar dengan 175 miliar parameter. GPT4 belum mengumumkan parameter spesifik saat ini, tetapi beberapa orang berspekulasi bahwa parameternya akan mencapai triliunan level. Pada saat yang sama, itu juga akan memiliki peningkatan yang signifikan dalam pembelajaran penguatan dan penyelesaian tugas tertentu. Istilah yang lebih populer adalah "penyelarasan". . Jika model seri GPT3 membuktikan kepada semua orang bahwa kecerdasan buatan dapat melakukan banyak tugas dalam satu model, maka GPT4 telah mencapai atau bahkan melampaui level manusia dalam banyak tugas, sekitar 10% teratas.
**Yang kedua adalah memiliki kemampuan tata kelola data pelatihan yang lebih terstandarisasi dan mendukung multi-modalitas. **GPT4 memiliki kemampuan multi-modal "sebanding dengan otak manusia", yang tidak jauh berbeda dari mekanisme multi-modal yang dijelaskan dalam banyak makalah saat ini, tetapi GPT4 dapat menggabungkan kemampuan pemrosesan beberapa sampel dari model teks dengan rantai pemikiran (Chain of Thought), CoT) digabungkan. Tata kelola dan pasokan data pelatihan GPT4 tidak dapat dipisahkan dari pelabelan data, manajemen dan evaluasi data, otomatisasi data, dan sintesis data.
Yang ketiga adalah membangun cluster daya komputasi yang lebih kuat untuk memenuhi lebih banyak set data pelatihan dan parameter input yang lebih besar. ** Misalnya, Microsoft telah mencurahkan lebih dari separuh sumber daya cloudnya untuk pelatihan model besar dan aplikasi konten yang dihasilkan kecerdasan buatan (AIGC). Nvidia bahkan bergabung dengan TSMC, ASML, dan Synopsys untuk membuat platform komputasi baru dan GPU yang lebih bertenaga.
Membangun ekosistem di mana berbagai model saling berhubungan
Model besar seperti GPT sangat kuat dan akan menjadi salah satu infrastruktur penting di banyak industri seperti Internet, keuangan, dan bidang medis di masa depan. Misalnya, di bidang keuangan, setelah pelatihan dengan data profesional yang relevan, model besar dapat memiliki kemampuan untuk memahami pengetahuan bisnis keuangan, dan dapat mengusulkan solusi untuk skenario tertentu, mendukung lembaga keuangan untuk melakukan otomasi pemasaran, penambangan hubungan pelanggan, kecerdasan identifikasi risiko, layanan Pelanggan yang cerdas, penelitian investasi yang cerdas, dll.
Namun, dalam proses penerapan aplikasi tertentu, model besar mirip GPT akan menghadapi serangkaian tantangan. Salah satunya adalah bagaimana memastikan kuantitas dan kualitas data pelatihan. Secara umum, korpus pelatihan model besar adalah korpus tujuan umum dari berbagai bidang, sedangkan kumpulan korpus profesional biasanya memakan waktu dan tenaga, dan ada juga masalah privasi. Akibatnya, model besar mungkin terlihat profesional secara khusus bidang aplikasi individu ketidakcukupan seksual. Yang kedua adalah bagaimana mengurangi biaya operasi dan pemeliharaan model besar. Model besar membutuhkan dukungan daya komputasi yang besar dan tata kelola data yang ketat. Seringkali sulit bagi institusi biasa dan departemen aplikasi untuk mendukung operasi dan peningkatan iteratif model besar. Untuk tujuan ini, perlu dibangun ekologi interaksi yang sehat dan evolusi bersama dari berbagai model untuk memastikan bahwa industri kecerdasan buatan yang terkait dengan model besar dapat berhasil diterapkan di berbagai bidang aplikasi.
Dari sudut pandang teknis, evolusi model besar bergantung pada pembelajaran penguatan dengan umpan balik manusia (Reinforcement Learning from Human Feedback, RLHF) Pelabelan data yang digunakannya berbeda dengan pekerjaan pelabelan data sederhana yang dilakukan dengan tenaga kerja murah di masa lalu Orang yang sangat profesional akan menulis entri, dan memberikan jawaban berkualitas tinggi yang sesuai dengan logika dan ekspresi manusia untuk pertanyaan dan instruksi yang sesuai. Namun, karena adanya kesenjangan antara interaksi manusia dan mesin, mode yang ideal adalah melakukan pembelajaran penguatan melalui interaksi antar model, yaitu pembelajaran penguatan dengan mengandalkan umpan balik model (Reinforcement Learning from Model Feedback, RLMF). Berdasarkan interaksi berbagai model, ekologi data dan model dari seluruh model besar dapat disatukan menjadi sebuah kerangka kerja.
Di masa lalu, di bawah model pengembangan model terdesentralisasi, banyak tugas dalam satu skenario aplikasi kecerdasan buatan perlu didukung oleh banyak model, dan setiap konstruksi model harus melalui proses pengembangan algoritme, pemrosesan data, pelatihan model, dan penyetelan. Model besar pra-pelatihan meningkatkan keserbagunaan dan generalisasi kecerdasan buatan Berdasarkan model besar, penyetelan halus dengan sampel nol atau sampel kecil dapat mencapai hasil yang lebih baik dalam berbagai tugas. Model besar "pra-pelatihan + penyempurnaan" telah membawa paradigma standar baru untuk penelitian dan pengembangan kecerdasan buatan, memungkinkan model kecerdasan buatan mencapai produksi skala besar dengan cara yang lebih terpadu dan ringkas. Berfokus pada inovasi teknologi dan implementasi aplikasi, data dan ekologi industri model besar dapat dibagi menjadi infrastruktur (termasuk korpus umum dan platform daya komputasi), model besar dasar, dan layanan model besar (termasuk data sintetis, pasokan model, dan steker aplikasi). -in). Dalam aplikasi hilir, pengguna dapat menerapkan model kecil mereka sendiri untuk meningkatkan kinerja melalui berbagai layanan model besar, dan pada saat yang sama memberikan layanan umpan balik yang sesuai ke model besar secara terbalik untuk membantu mengembangkan model besar secara iteratif (lihat Gambar 1).
Model besar dasar adalah mesin inti dari ekologi industri model besar. Keunggulannya terletak pada kebasaan dan keserbagunaannya. Model ini berorientasi pada tugas-tugas tipikal seperti pemrosesan bahasa alami, visi komputer, dan tugas lintas-modal. Model ini selanjutnya menggabungkan karakteristik tugas , mengoptimalkan algoritme model, dan mempelajari Data dan pengetahuan terkait, sehingga model besar dapat menunjukkan hasil yang lebih baik, bahkan dapat langsung diterapkan dengan sampel nol.
Model kecil memiliki karakteristik ukuran kecil (biasanya pada level puluhan miliar parameter), pelatihan dan perawatan yang mudah, sehingga cocok untuk berbagai bidang vertikal dan pengembangan internal serta penggunaan di berbagai industri. Secara umum, model kecil lebih murah untuk dilatih, tetapi kinerjanya jauh lebih rendah daripada model besar. Melalui aplikasi interaktif model besar dan kecil, model kecil dapat memperoleh sebagian dari kemampuan model besar atau mewujudkan beberapa fungsi, sehingga kinerja model kecil dapat sangat ditingkatkan tanpa meningkatkan biaya operasi dan pemeliharaan, dan memenuhi kebutuhan spesifik. persyaratan aplikasi. Cara interaksi model besar dan kecil dapat dibagi menjadi tiga kategori: interaksi data, interaksi model, dan interaksi aplikasi (lihat Gambar 2).
* Interaksi data
Interaksi data berarti bahwa model besar dan kecil tidak secara langsung berpartisipasi dalam proses pelatihan atau penalaran satu sama lain, tetapi berinteraksi secara tidak langsung melalui data yang dihasilkan satu sama lain. Pelatihan model besar biasanya membutuhkan korpus tujuan umum berskala besar.Misalnya, korpus pelatihan GPT3 mencapai 753GB, yang berasal dari berbagai sumber data seperti Wikipedia. Korpus tujuan umum mengacu pada korpus yang mencakup berbagai bidang, dan cakupan pengetahuan di beberapa bidang tertentu mungkin tidak mencukupi. Setelah pelatihan model besar selesai, beberapa korpus sintetik khusus domain dapat dihasilkan melalui instruksi, dan kemudian melalui penyebaran lokal, model kecil dapat dilatih bersama dengan korpus khusus lapangan atau korpus swasta industri. Bidang korpus pelatihan model kecil relatif terkonsentrasi, sehingga pengetahuan di bidang ini dapat dikuasai secara sistematis, sehingga keluaran model lebih profesional, lebih detail, dan lebih akurat. Peran model besar dalam proses ini adalah untuk menghasilkan korpus sintetis berkualitas tinggi berskala besar, sehingga pelatihan model kecil dapat lebih memadai, dan mencegah overfitting model karena ukuran korpus khusus yang kecil. atau korpus pribadi. Sebaliknya, korpus profesional yang dihasilkan oleh model kecil juga dapat digunakan sebagai pelengkap korpus pelatihan model besar untuk meningkatkan kemampuan profesional model besar di berbagai bidang, sehingga model besar dapat terus berkembang secara iteratif.
Untuk mencapai interaksi data antara model besar dan kecil, selain mengandalkan organisasi pengelola sumber data, juga perlu mempertimbangkan pembentukan organisasi penyimpanan data dan perdagangan, sehingga data pelatihan model besar dan kecil dapat dikontrol. dan mengalir secara tertib, dan alokasi yang sesuai untuk semua pihak adalah hak dan kepentingan yang wajar.
Model Interaksi
Selain interaksi data tidak langsung, model besar dan kecil juga dapat berinteraksi di tingkat model. Dengan berpartisipasi dalam proses pelatihan satu sama lain, kedua belah pihak dapat saling menguntungkan dan meningkatkan efisiensi iterasi model besar. Di satu sisi, model besar dapat memandu pelatihan model kecil, dan metode yang umum digunakan adalah distilasi pengetahuan. Dalam mode pembelajaran distilasi, model besar yang dilatih dapat digunakan sebagai model guru, dan model kecil yang akan dilatih dapat digunakan sebagai model siswa Untuk kumpulan data pelatihan yang sama, dengan merancang fungsi kerugian yang wajar, soft label yang dihasilkan oleh model besar dan data pelatihan itu sendiri Label keras bersama-sama memandu pelatihan model kecil. Demikian pula, model kecil juga dapat melakukan distilasi balik pada model besar, dan menggunakan model kecil untuk membuat penilaian nilai sampel guna membantu model besar mempercepat konvergensi—setelah lebih menyempurnakan model kecil terlatih pada kumpulan data hilir, sampel diperoleh model penilaian nilai.
Interaksi Aplikasi
Cara khas untuk model besar dan kecil untuk berinteraksi pada level aplikasi adalah mode plug-in, yang merangkum aplikasi yang dibangun oleh model ke dalam layanan plug-in untuk dipanggil oleh model lain. Mode plug-in memiliki dua keunggulan: satu nyaman dan efisien, dan model tidak perlu dilatih ulang; yang lainnya adalah isolasi yang baik, yang dapat menghindari kebocoran detail model, sehingga melindungi hak dan kepentingan pelatih model dengan lebih baik dan pengguna.
Di satu sisi, model besar pada dasarnya mengadopsi metode pra-pelatihan, dan kinerja real-time tidak tinggi. Dengan memanggil plug-in aplikasi model kecil, aplikasi model besar tidak hanya dapat meningkatkan kinerja waktu nyata dari hasil keluaran, tetapi juga memperluas kekurangan pengetahuannya di bidang tertentu. Di sisi lain, aplikasi yang dibangun dengan model kecil juga dapat secara langsung memperoleh generasi yang kuat dan kemampuan penalaran model besar dengan memanggil plug-in yang disediakan oleh model besar seperti GPT. Metode interaksi aplikasi ini dapat menyelamatkan model kecil dari proses pelatihan pengetahuan umum, dan fokus pada produksi konten di bidang tertentu dengan biaya lebih rendah. Pengguna juga dapat merasakan reaksi "kimiawi" yang dihasilkan oleh interkoneksi berbagai model.
Plugin ChatGPT produk baru yang baru-baru ini dirilis oleh Open AI (Open AI) dapat menghubungkan ChatGPT dan aplikasi pihak ketiga melalui plug-in aplikasi. Aplikasi pihak ketiga ini dapat dibangun dari model kecil dari satu domain. Dengan cara ini, model kecil dapat menyelesaikan berbagai fungsi yang diperluas dalam model besar seperti ChatGPT, seperti mengambil informasi waktu nyata atau informasi basis pengetahuan, dan mengganti pengguna dengan "penjadwalan cerdas" dari dunia nyata.
Standarisasi dan kontrol keamanan data pelatihan model besar dan rantai alat model
Performa model besar bergantung pada kualitas data pelatihan. Pada saat yang sama, spesifikasi teknis dasar yang diperlukan oleh model dalam skenario pendaratan yang berbeda juga berbeda. Oleh karena itu, untuk membangun ekologi industri yang baik dengan pembangunan berkelanjutan dan interaksi yang sehat dari model-model besar, perlu untuk mempromosikan standarisasi data pelatihan model besar dan teknologi yang mendasarinya, serta mempercepat iterasi dan implementasi model.
Di satu sisi, kumpulan data pelatihan dari model besar itu sendiri dan antarmuka layanan data (API) yang ditentukan akan menjadi standar de facto industri, dan berbagai aplikasi yang mengakses model besar harus mengikuti standar ini. Saat ini, model "pra-pelatihan + penyempurnaan" telah menjadi proses dan paradigma standar terpadu dalam industri. Atas dasar ini, dikombinasikan dengan skenario aplikasi spesifik dan data profesional, model kecil di berbagai bidang dan industri dapat disesuaikan dan dioptimalkan lebih lanjut. Sampai batas tertentu, data pelatihan model besar dan standar antarmuka layanan data akan menjadi salah satu inti dari standar internasional generasi berikutnya.
Di sisi lain, tool chain yang dibutuhkan oleh teknologi dasar untuk memproses data pelatihan model besar juga harus dibuat dan distandarisasi. Dengan dukungan kuat dari layanan teknis standar, model besar dapat menghasilkan solusi teknis seperti adaptasi perangkat keras, distilasi dan kompresi model, pelatihan dan akselerasi terdistribusi model, database vektor, database grafik, dan interkoneksi model, menyediakan pemrosesan bahasa alami, visi komputer, Berbagai kemampuan seperti lintas modalitas dan grafik pengetahuan memungkinkan lebih banyak perusahaan dan pengembang menerapkan model besar ke bisnis mereka sendiri dan membangun model vertikal industri dengan ambang rendah, sehingga mendorong penerapan kecerdasan buatan secara luas di berbagai bidang.
Perlu dicatat bahwa meskipun pengembangan dan penerapan model besar akan memberikan keuntungan besar bagi pembangunan industri dan ekonomi, jika tidak dikendalikan dengan baik, hal itu juga akan membawa risiko bagi keamanan nasional dan industri. Salah satunya adalah risiko kebocoran data. Pelatihan dan penerapan model besar perlu didukung oleh sejumlah besar data, termasuk industri atau informasi pribadi yang sensitif. Jika tidak ada mekanisme desensitisasi data dan penyimpanan data yang wajar, hal itu dapat menyebabkan kebocoran data dan menyebabkan kerugian bagi industri dan individu. Yang kedua adalah risiko keamanan model. Misalnya, plug-in dapat ditanamkan dengan konten berbahaya dan menjadi alat penipuan dan "peracunan" oleh penjahat, membahayakan keamanan sosial dan industri.
Saran terkait
**Menggunakan data pelatihan model besar sebagai titik awal, formulasi standar dan tata kelola data memiliki dua cabang. ** Mempromosikan pengembangan standar industri dengan merumuskan spesifikasi aplikasi model dan mempersatukan standar antarmuka. Mungkin dipertimbangkan untuk menghosting data sintetis model untuk memperkuat pengawasan dan memastikan kepatuhan konten data, hak dan kepentingan yang jelas, dan sirkulasi yang lancar. Pada saat yang sama, perbaiki undang-undang dan peraturan, optimalkan kebijakan dan sistem, bentuk kekuatan pengaturan bersama dalam berbagai cara dan metode, dan cegah dengan ketat perusakan model dan infiltrasi data berbahaya.
**Bangun pasar elemen data pelatihan model besar. ** Perjelas rantai industri antara pengumpulan dan pemrosesan data pelatihan, layanan data sintetik, interkoneksi antara model besar dan kecil, dan API aplikasi. Mempercepat pembangunan pasar elemen data, memberikan harga yang berorientasi pasar untuk data pelatihan, dan memfasilitasi distribusi dan insentif hak dan kepentingan.
** Bangun ekologi yang baik dari pengembangan simbiosis dan saling mempromosikan model besar dan kecil. **Secara umum, tidak ada perbedaan antargenerasi dalam tingkat algoritme model besar arus utama di dalam dan luar negeri, tetapi ada kesenjangan dalam daya komputasi dan data. Direkomendasikan untuk dengan penuh semangat mendukung perusahaan teknologi terkemuka dalam negeri untuk mengembangkan model skala besar domestik yang independen dan dapat dikontrol di bidang umum.Pada saat yang sama, dorong semua bidang vertikal untuk menggunakan alat sumber terbuka untuk membangun rantai alat independen yang terstandar dan dapat dikontrol berdasarkan model besar, untuk mengeksplorasi "besar dan kuat" Ini juga mengembangkan model industri vertikal "kecil dan indah", untuk membangun ekologi yang baik dari simbiosis interaktif dan evolusi berulang antara model besar dasar dan model kecil profesional.
(Penanggung jawab editor Zhang Lin)
Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Yao Qian: Beberapa Pemikiran tentang Konstruksi Ekologis Model Skala Besar
Penulis|Yao Qian "Direktur Biro Pengawasan Teknologi Komisi Regulasi Sekuritas China"
Sumber| "Keuangan China" Edisi 13, 2023
Memasuki tahun 2023, aplikasi kecerdasan buatan yang berorientasi pada pembuatan konten seperti ChatGPT, GPT4, dan Midjourney telah memicu gelombang inovasi. Beberapa orang bahkan berpikir bahwa model besar berkembang secara iteratif dalam satuan hari. Sebagai faktor produksi baru, pengembangan data pelatihan model besar yang ramah dan berkelanjutan sangat penting untuk pengembangan industri model besar dan kecerdasan buatan. Sebagai bidang penting dari aplikasi data besar dan kecerdasan buatan, industri keuangan harus memperhatikan perkembangan terbaru dalam teknologi yang terkait dengan pelatihan model besar. Makalah ini pertama-tama menganalisis jalur evolusi dan peningkatan model besar, dan kemudian membahas kemungkinan metode interaksi antara model besar dan model kecil dan menengah, dan menjelaskan ekologi data dan konstruksi ekologi model model besar. ekologi memberikan gagasan yang relevan.
Peningkatan dan analisis jalur evolusi model besar
Dari perspektif jangka panjang, evolusi model besar memiliki banyak cabang. Baru-baru ini, kecepatan iterasi model besar tidak hanya dipercepat, tetapi juga semakin banyak peserta, yang pada dasarnya mencakup semua perusahaan teknologi besar, dan keragaman serta kompleksitas ekologi pada awalnya muncul.
Saat ini, tidak ada perubahan penting dalam kerangka algoritme yang mendasari proses iteratif peningkatan model besar. Input daya komputasi dan banyaknya data pelatihan masih menjadi kunci evolusi cepatnya, tetapi GPT4 terbaru menghadirkan beberapa hal baru fitur.
**Salah satunya adalah algoritme lebih cocok untuk tugas hilir tertentu. **GPT3 dan GPT3.5 adalah model besar dengan 175 miliar parameter. GPT4 belum mengumumkan parameter spesifik saat ini, tetapi beberapa orang berspekulasi bahwa parameternya akan mencapai triliunan level. Pada saat yang sama, itu juga akan memiliki peningkatan yang signifikan dalam pembelajaran penguatan dan penyelesaian tugas tertentu. Istilah yang lebih populer adalah "penyelarasan". . Jika model seri GPT3 membuktikan kepada semua orang bahwa kecerdasan buatan dapat melakukan banyak tugas dalam satu model, maka GPT4 telah mencapai atau bahkan melampaui level manusia dalam banyak tugas, sekitar 10% teratas.
**Yang kedua adalah memiliki kemampuan tata kelola data pelatihan yang lebih terstandarisasi dan mendukung multi-modalitas. **GPT4 memiliki kemampuan multi-modal "sebanding dengan otak manusia", yang tidak jauh berbeda dari mekanisme multi-modal yang dijelaskan dalam banyak makalah saat ini, tetapi GPT4 dapat menggabungkan kemampuan pemrosesan beberapa sampel dari model teks dengan rantai pemikiran (Chain of Thought), CoT) digabungkan. Tata kelola dan pasokan data pelatihan GPT4 tidak dapat dipisahkan dari pelabelan data, manajemen dan evaluasi data, otomatisasi data, dan sintesis data.
Yang ketiga adalah membangun cluster daya komputasi yang lebih kuat untuk memenuhi lebih banyak set data pelatihan dan parameter input yang lebih besar. ** Misalnya, Microsoft telah mencurahkan lebih dari separuh sumber daya cloudnya untuk pelatihan model besar dan aplikasi konten yang dihasilkan kecerdasan buatan (AIGC). Nvidia bahkan bergabung dengan TSMC, ASML, dan Synopsys untuk membuat platform komputasi baru dan GPU yang lebih bertenaga.
Membangun ekosistem di mana berbagai model saling berhubungan
Model besar seperti GPT sangat kuat dan akan menjadi salah satu infrastruktur penting di banyak industri seperti Internet, keuangan, dan bidang medis di masa depan. Misalnya, di bidang keuangan, setelah pelatihan dengan data profesional yang relevan, model besar dapat memiliki kemampuan untuk memahami pengetahuan bisnis keuangan, dan dapat mengusulkan solusi untuk skenario tertentu, mendukung lembaga keuangan untuk melakukan otomasi pemasaran, penambangan hubungan pelanggan, kecerdasan identifikasi risiko, layanan Pelanggan yang cerdas, penelitian investasi yang cerdas, dll.
Namun, dalam proses penerapan aplikasi tertentu, model besar mirip GPT akan menghadapi serangkaian tantangan. Salah satunya adalah bagaimana memastikan kuantitas dan kualitas data pelatihan. Secara umum, korpus pelatihan model besar adalah korpus tujuan umum dari berbagai bidang, sedangkan kumpulan korpus profesional biasanya memakan waktu dan tenaga, dan ada juga masalah privasi. Akibatnya, model besar mungkin terlihat profesional secara khusus bidang aplikasi individu ketidakcukupan seksual. Yang kedua adalah bagaimana mengurangi biaya operasi dan pemeliharaan model besar. Model besar membutuhkan dukungan daya komputasi yang besar dan tata kelola data yang ketat. Seringkali sulit bagi institusi biasa dan departemen aplikasi untuk mendukung operasi dan peningkatan iteratif model besar. Untuk tujuan ini, perlu dibangun ekologi interaksi yang sehat dan evolusi bersama dari berbagai model untuk memastikan bahwa industri kecerdasan buatan yang terkait dengan model besar dapat berhasil diterapkan di berbagai bidang aplikasi.
Dari sudut pandang teknis, evolusi model besar bergantung pada pembelajaran penguatan dengan umpan balik manusia (Reinforcement Learning from Human Feedback, RLHF) Pelabelan data yang digunakannya berbeda dengan pekerjaan pelabelan data sederhana yang dilakukan dengan tenaga kerja murah di masa lalu Orang yang sangat profesional akan menulis entri, dan memberikan jawaban berkualitas tinggi yang sesuai dengan logika dan ekspresi manusia untuk pertanyaan dan instruksi yang sesuai. Namun, karena adanya kesenjangan antara interaksi manusia dan mesin, mode yang ideal adalah melakukan pembelajaran penguatan melalui interaksi antar model, yaitu pembelajaran penguatan dengan mengandalkan umpan balik model (Reinforcement Learning from Model Feedback, RLMF). Berdasarkan interaksi berbagai model, ekologi data dan model dari seluruh model besar dapat disatukan menjadi sebuah kerangka kerja.
Di masa lalu, di bawah model pengembangan model terdesentralisasi, banyak tugas dalam satu skenario aplikasi kecerdasan buatan perlu didukung oleh banyak model, dan setiap konstruksi model harus melalui proses pengembangan algoritme, pemrosesan data, pelatihan model, dan penyetelan. Model besar pra-pelatihan meningkatkan keserbagunaan dan generalisasi kecerdasan buatan Berdasarkan model besar, penyetelan halus dengan sampel nol atau sampel kecil dapat mencapai hasil yang lebih baik dalam berbagai tugas. Model besar "pra-pelatihan + penyempurnaan" telah membawa paradigma standar baru untuk penelitian dan pengembangan kecerdasan buatan, memungkinkan model kecerdasan buatan mencapai produksi skala besar dengan cara yang lebih terpadu dan ringkas. Berfokus pada inovasi teknologi dan implementasi aplikasi, data dan ekologi industri model besar dapat dibagi menjadi infrastruktur (termasuk korpus umum dan platform daya komputasi), model besar dasar, dan layanan model besar (termasuk data sintetis, pasokan model, dan steker aplikasi). -in). Dalam aplikasi hilir, pengguna dapat menerapkan model kecil mereka sendiri untuk meningkatkan kinerja melalui berbagai layanan model besar, dan pada saat yang sama memberikan layanan umpan balik yang sesuai ke model besar secara terbalik untuk membantu mengembangkan model besar secara iteratif (lihat Gambar 1).
Model kecil memiliki karakteristik ukuran kecil (biasanya pada level puluhan miliar parameter), pelatihan dan perawatan yang mudah, sehingga cocok untuk berbagai bidang vertikal dan pengembangan internal serta penggunaan di berbagai industri. Secara umum, model kecil lebih murah untuk dilatih, tetapi kinerjanya jauh lebih rendah daripada model besar. Melalui aplikasi interaktif model besar dan kecil, model kecil dapat memperoleh sebagian dari kemampuan model besar atau mewujudkan beberapa fungsi, sehingga kinerja model kecil dapat sangat ditingkatkan tanpa meningkatkan biaya operasi dan pemeliharaan, dan memenuhi kebutuhan spesifik. persyaratan aplikasi. Cara interaksi model besar dan kecil dapat dibagi menjadi tiga kategori: interaksi data, interaksi model, dan interaksi aplikasi (lihat Gambar 2).
Interaksi data berarti bahwa model besar dan kecil tidak secara langsung berpartisipasi dalam proses pelatihan atau penalaran satu sama lain, tetapi berinteraksi secara tidak langsung melalui data yang dihasilkan satu sama lain. Pelatihan model besar biasanya membutuhkan korpus tujuan umum berskala besar.Misalnya, korpus pelatihan GPT3 mencapai 753GB, yang berasal dari berbagai sumber data seperti Wikipedia. Korpus tujuan umum mengacu pada korpus yang mencakup berbagai bidang, dan cakupan pengetahuan di beberapa bidang tertentu mungkin tidak mencukupi. Setelah pelatihan model besar selesai, beberapa korpus sintetik khusus domain dapat dihasilkan melalui instruksi, dan kemudian melalui penyebaran lokal, model kecil dapat dilatih bersama dengan korpus khusus lapangan atau korpus swasta industri. Bidang korpus pelatihan model kecil relatif terkonsentrasi, sehingga pengetahuan di bidang ini dapat dikuasai secara sistematis, sehingga keluaran model lebih profesional, lebih detail, dan lebih akurat. Peran model besar dalam proses ini adalah untuk menghasilkan korpus sintetis berkualitas tinggi berskala besar, sehingga pelatihan model kecil dapat lebih memadai, dan mencegah overfitting model karena ukuran korpus khusus yang kecil. atau korpus pribadi. Sebaliknya, korpus profesional yang dihasilkan oleh model kecil juga dapat digunakan sebagai pelengkap korpus pelatihan model besar untuk meningkatkan kemampuan profesional model besar di berbagai bidang, sehingga model besar dapat terus berkembang secara iteratif.
Untuk mencapai interaksi data antara model besar dan kecil, selain mengandalkan organisasi pengelola sumber data, juga perlu mempertimbangkan pembentukan organisasi penyimpanan data dan perdagangan, sehingga data pelatihan model besar dan kecil dapat dikontrol. dan mengalir secara tertib, dan alokasi yang sesuai untuk semua pihak adalah hak dan kepentingan yang wajar.
Selain interaksi data tidak langsung, model besar dan kecil juga dapat berinteraksi di tingkat model. Dengan berpartisipasi dalam proses pelatihan satu sama lain, kedua belah pihak dapat saling menguntungkan dan meningkatkan efisiensi iterasi model besar. Di satu sisi, model besar dapat memandu pelatihan model kecil, dan metode yang umum digunakan adalah distilasi pengetahuan. Dalam mode pembelajaran distilasi, model besar yang dilatih dapat digunakan sebagai model guru, dan model kecil yang akan dilatih dapat digunakan sebagai model siswa Untuk kumpulan data pelatihan yang sama, dengan merancang fungsi kerugian yang wajar, soft label yang dihasilkan oleh model besar dan data pelatihan itu sendiri Label keras bersama-sama memandu pelatihan model kecil. Demikian pula, model kecil juga dapat melakukan distilasi balik pada model besar, dan menggunakan model kecil untuk membuat penilaian nilai sampel guna membantu model besar mempercepat konvergensi—setelah lebih menyempurnakan model kecil terlatih pada kumpulan data hilir, sampel diperoleh model penilaian nilai.
Cara khas untuk model besar dan kecil untuk berinteraksi pada level aplikasi adalah mode plug-in, yang merangkum aplikasi yang dibangun oleh model ke dalam layanan plug-in untuk dipanggil oleh model lain. Mode plug-in memiliki dua keunggulan: satu nyaman dan efisien, dan model tidak perlu dilatih ulang; yang lainnya adalah isolasi yang baik, yang dapat menghindari kebocoran detail model, sehingga melindungi hak dan kepentingan pelatih model dengan lebih baik dan pengguna.
Di satu sisi, model besar pada dasarnya mengadopsi metode pra-pelatihan, dan kinerja real-time tidak tinggi. Dengan memanggil plug-in aplikasi model kecil, aplikasi model besar tidak hanya dapat meningkatkan kinerja waktu nyata dari hasil keluaran, tetapi juga memperluas kekurangan pengetahuannya di bidang tertentu. Di sisi lain, aplikasi yang dibangun dengan model kecil juga dapat secara langsung memperoleh generasi yang kuat dan kemampuan penalaran model besar dengan memanggil plug-in yang disediakan oleh model besar seperti GPT. Metode interaksi aplikasi ini dapat menyelamatkan model kecil dari proses pelatihan pengetahuan umum, dan fokus pada produksi konten di bidang tertentu dengan biaya lebih rendah. Pengguna juga dapat merasakan reaksi "kimiawi" yang dihasilkan oleh interkoneksi berbagai model.
Plugin ChatGPT produk baru yang baru-baru ini dirilis oleh Open AI (Open AI) dapat menghubungkan ChatGPT dan aplikasi pihak ketiga melalui plug-in aplikasi. Aplikasi pihak ketiga ini dapat dibangun dari model kecil dari satu domain. Dengan cara ini, model kecil dapat menyelesaikan berbagai fungsi yang diperluas dalam model besar seperti ChatGPT, seperti mengambil informasi waktu nyata atau informasi basis pengetahuan, dan mengganti pengguna dengan "penjadwalan cerdas" dari dunia nyata.
Standarisasi dan kontrol keamanan data pelatihan model besar dan rantai alat model
Performa model besar bergantung pada kualitas data pelatihan. Pada saat yang sama, spesifikasi teknis dasar yang diperlukan oleh model dalam skenario pendaratan yang berbeda juga berbeda. Oleh karena itu, untuk membangun ekologi industri yang baik dengan pembangunan berkelanjutan dan interaksi yang sehat dari model-model besar, perlu untuk mempromosikan standarisasi data pelatihan model besar dan teknologi yang mendasarinya, serta mempercepat iterasi dan implementasi model.
Di satu sisi, kumpulan data pelatihan dari model besar itu sendiri dan antarmuka layanan data (API) yang ditentukan akan menjadi standar de facto industri, dan berbagai aplikasi yang mengakses model besar harus mengikuti standar ini. Saat ini, model "pra-pelatihan + penyempurnaan" telah menjadi proses dan paradigma standar terpadu dalam industri. Atas dasar ini, dikombinasikan dengan skenario aplikasi spesifik dan data profesional, model kecil di berbagai bidang dan industri dapat disesuaikan dan dioptimalkan lebih lanjut. Sampai batas tertentu, data pelatihan model besar dan standar antarmuka layanan data akan menjadi salah satu inti dari standar internasional generasi berikutnya.
Di sisi lain, tool chain yang dibutuhkan oleh teknologi dasar untuk memproses data pelatihan model besar juga harus dibuat dan distandarisasi. Dengan dukungan kuat dari layanan teknis standar, model besar dapat menghasilkan solusi teknis seperti adaptasi perangkat keras, distilasi dan kompresi model, pelatihan dan akselerasi terdistribusi model, database vektor, database grafik, dan interkoneksi model, menyediakan pemrosesan bahasa alami, visi komputer, Berbagai kemampuan seperti lintas modalitas dan grafik pengetahuan memungkinkan lebih banyak perusahaan dan pengembang menerapkan model besar ke bisnis mereka sendiri dan membangun model vertikal industri dengan ambang rendah, sehingga mendorong penerapan kecerdasan buatan secara luas di berbagai bidang.
Perlu dicatat bahwa meskipun pengembangan dan penerapan model besar akan memberikan keuntungan besar bagi pembangunan industri dan ekonomi, jika tidak dikendalikan dengan baik, hal itu juga akan membawa risiko bagi keamanan nasional dan industri. Salah satunya adalah risiko kebocoran data. Pelatihan dan penerapan model besar perlu didukung oleh sejumlah besar data, termasuk industri atau informasi pribadi yang sensitif. Jika tidak ada mekanisme desensitisasi data dan penyimpanan data yang wajar, hal itu dapat menyebabkan kebocoran data dan menyebabkan kerugian bagi industri dan individu. Yang kedua adalah risiko keamanan model. Misalnya, plug-in dapat ditanamkan dengan konten berbahaya dan menjadi alat penipuan dan "peracunan" oleh penjahat, membahayakan keamanan sosial dan industri.
Saran terkait
**Menggunakan data pelatihan model besar sebagai titik awal, formulasi standar dan tata kelola data memiliki dua cabang. ** Mempromosikan pengembangan standar industri dengan merumuskan spesifikasi aplikasi model dan mempersatukan standar antarmuka. Mungkin dipertimbangkan untuk menghosting data sintetis model untuk memperkuat pengawasan dan memastikan kepatuhan konten data, hak dan kepentingan yang jelas, dan sirkulasi yang lancar. Pada saat yang sama, perbaiki undang-undang dan peraturan, optimalkan kebijakan dan sistem, bentuk kekuatan pengaturan bersama dalam berbagai cara dan metode, dan cegah dengan ketat perusakan model dan infiltrasi data berbahaya.
**Bangun pasar elemen data pelatihan model besar. ** Perjelas rantai industri antara pengumpulan dan pemrosesan data pelatihan, layanan data sintetik, interkoneksi antara model besar dan kecil, dan API aplikasi. Mempercepat pembangunan pasar elemen data, memberikan harga yang berorientasi pasar untuk data pelatihan, dan memfasilitasi distribusi dan insentif hak dan kepentingan.
** Bangun ekologi yang baik dari pengembangan simbiosis dan saling mempromosikan model besar dan kecil. **Secara umum, tidak ada perbedaan antargenerasi dalam tingkat algoritme model besar arus utama di dalam dan luar negeri, tetapi ada kesenjangan dalam daya komputasi dan data. Direkomendasikan untuk dengan penuh semangat mendukung perusahaan teknologi terkemuka dalam negeri untuk mengembangkan model skala besar domestik yang independen dan dapat dikontrol di bidang umum.Pada saat yang sama, dorong semua bidang vertikal untuk menggunakan alat sumber terbuka untuk membangun rantai alat independen yang terstandar dan dapat dikontrol berdasarkan model besar, untuk mengeksplorasi "besar dan kuat" Ini juga mengembangkan model industri vertikal "kecil dan indah", untuk membangun ekologi yang baik dari simbiosis interaktif dan evolusi berulang antara model besar dasar dan model kecil profesional.
(Penanggung jawab editor Zhang Lin)