"MIT Technology Review" pernah menerbitkan sebuah artikel di situs resminya yang mengatakan bahwa dengan popularitas model besar yang terus berlanjut seperti ChatGPT, permintaan akan data pelatihan meningkat. Model besar seperti "lubang hitam cyber" yang terus-menerus diserap, yang akhirnya menyebabkan tidak memiliki cukup data untuk pelatihan.
Epochai, sebuah lembaga penelitian AI terkenal, menerbitkan sebuah makalah langsung tentang masalah pelatihan data, dan menunjukkan bahwa pada tahun 2026, model besar akan mengkonsumsi data berkualitas tinggi, dan pada tahun 2030-2050, semua data berkualitas rendah akan dikonsumsi.
Pada 2030-2060, semua data pelatihan gambar akan habis. (Data di sini mengacu pada data asli yang belum diberi label atau tercemar dengan cara apa pun.)
Alamat:
Faktanya, masalah dengan data pelatihan sudah muncul. OpenAI mengatakan bahwa kurangnya data pelatihan berkualitas tinggi akan menjadi salah satu tantangan penting dalam mengembangkan GPT-5. Ini seperti pergi ke sekolah pada manusia, ketika tingkat pengetahuan Anda mencapai tingkat doktoral, maka menunjukkan kepada Anda pengetahuan sekolah menengah pertama tidak membantu untuk belajar.
Oleh karena itu, untuk meningkatkan pembelajaran, penalaran, dan kemampuan umum AGI GPT-5, OpenAI telah membentuk "aliansi data", berharap dapat mengumpulkan teks, video, audio, dan data pribadi ultra-panjang lainnya di area yang luas, sehingga model dapat mensimulasikan secara mendalam dan mempelajari pemikiran manusia dan metode kerja **.
Saat ini, Islandia, Free Law Project dan organisasi lain telah bergabung dengan aliansi untuk menyediakan OpenAI dengan berbagai data untuk membantu mempercepat pengembangan model.
Selain itu, ketika konten AI yang dihasilkan oleh ChatGPT, Midjourney, Gen-2, dan model lainnya memasuki jaringan publik, ini akan sangat mencemari kumpulan data publik yang dibangun oleh manusia, dan akan ada karakteristik seperti homogenitas dan logika tunggal, mempercepat proses konsumsi data berkualitas tinggi.
Data pelatihan berkualitas tinggi sangat penting untuk pengembangan model besar
Dari sudut pandang teknis, model bahasa besar dapat dianggap sebagai "mesin prediksi bahasa", yang belajar dari sejumlah besar data teks, membangun pola hubungan antara kata-kata, dan kemudian menggunakan pola-pola ini untuk memprediksi kata atau kalimat berikutnya dari teks.
Transformer adalah salah satu arsitektur yang paling terkenal dan banyak digunakan, dan ChatGPT dan yang lainnya telah meminjam dari teknologi ini.
Sederhananya, model bahasa besar adalah "labu dan sendok", dan manusia dapat mengatakan apa pun yang mereka inginkan. Jadi, ketika Anda menggunakan model seperti ChatGPT untuk menghasilkan teks, rasanya seperti di mana Anda melihat pola narasi dari konten teks ini.
Oleh karena itu, kualitas data pelatihan secara langsung menentukan apakah struktur pembelajaran model besar akurat. Jika data mengandung banyak kesalahan tata bahasa, frasa yang buruk, jeda kalimat yang tidak akurat, konten palsu, dll., Maka konten yang diprediksi oleh model secara alami akan mengandung masalah ini.
Misalnya, jika model terjemahan dilatih, tetapi data yang digunakan semuanya konten palsu dan inferior, konten yang diterjemahkan oleh AI secara alami akan sangat buruk.
Ini adalah salah satu alasan utama mengapa kita sering melihat banyak model dengan parameter kecil tetapi kinerja dan output lebih baik daripada parameter tinggi, dan salah satu alasan utamanya adalah penggunaan data pelatihan berkualitas tinggi.
Di era model besar, data adalah raja
Karena pentingnya data, data pelatihan berkualitas tinggi telah menjadi sumber daya berharga bagi OpenAI, Baidu, Anthropic, Cohere, dan vendor lainnya, dan telah menjadi "minyak" di era model besar.
Pada awal Maret tahun ini, ketika China masih panik melakukan penelitian alkimia pada model besar, Baidu telah memimpin dalam merilis produk AI generatif yang mengacu pada ChatGPT - Wenxin Yiyansheng.
Selain kemampuan R&D yang kuat, data korpus Cina Baidu yang besar yang terakumulasi melalui mesin pencari selama lebih dari 20 tahun telah banyak membantu, dan telah memainkan peran penting dalam beberapa iterasi Wenxin Yiyan, jauh di depan produsen dalam negeri lainnya.
Data berkualitas tinggi biasanya mencakup buku yang diterbitkan, karya sastra, makalah akademis, buku teks sekolah, laporan berita dari media otoritatif, Wikipedia, Baidu Encyclopedia, dll., Teks, video, audio, dan data lain yang telah diverifikasi oleh waktu dan manusia.
Tetapi lembaga penelitian telah menemukan bahwa pertumbuhan jenis data berkualitas tinggi ini sangat lambat. Misalnya, menerbitkan buku harus melalui proses rumit seperti riset pasar, penyusunan pertama, pengeditan, dan peninjauan ulang, dan butuh berbulan-bulan atau bahkan bertahun-tahun untuk menerbitkan buku, yang jauh di belakang pertumbuhan permintaan untuk data pelatihan model besar.
Dilihat dari tren perkembangan model bahasa besar dalam empat tahun terakhir, tingkat pertumbuhan volume data pelatihan tahunannya telah melebihi 50%. Dengan kata lain, setiap 1 tahun, jumlah data yang diperlukan untuk melatih model perlu digandakan untuk mencapai peningkatan kinerja dan fungsi**.
Di satu sisi, ini untuk melindungi privasi pengguna agar tidak dikumpulkan oleh organisasi pihak ketiga, dan ada pencurian dan penyalahgunaan;
Di sisi lain, untuk mencegah data penting dimonopoli dan ditimbun oleh sejumlah kecil institusi, tidak ada data yang tersedia selama penelitian dan pengembangan teknologi.
Pada tahun 2026, kami mungkin kehabisan data pelatihan berkualitas tinggi
Untuk menyelidiki masalah konsumsi data pelatihan, peneliti Epochai mensimulasikan produksi tahunan data bahasa dan gambar dari 2022 hingga 2100, dan kemudian menghitung jumlah total data ini.
Ini juga mensimulasikan tingkat konsumsi data model besar seperti ChatGPT. Akhirnya, tingkat pertumbuhan data dan tingkat konsumsi dibandingkan, dan kesimpulan penting berikut diambil:
Di bawah tren perkembangan pesat model besar saat ini, semua data berkualitas rendah akan habis pada tahun 2030-2050, dan data berkualitas tinggi kemungkinan besar akan dikonsumsi pada tahun 2026.
Pada tahun 2030-2060, semua data pelatihan gambar akan dikonsumsi, dan pada tahun 2040, iterasi fungsional model besar mungkin menunjukkan tanda-tanda melambat karena kurangnya data pelatihan.
Para peneliti menggunakan dua model untuk menghitung: yang pertama, menggunakan kumpulan data yang benar-benar digunakan di kedua domain bahasa besar dan model gambar, dan mengekstrapolasi mereka dari statistik historis untuk memprediksi kapan mereka akan mencapai puncak dan konsumsi rata-rata.
Model kedua memprediksi berapa banyak data baru yang akan dihasilkan secara global setiap tahun di masa depan. Model ini didasarkan pada tiga variabel, jumlah populasi global, penetrasi internet, dan data rata-rata yang dihasilkan per pengguna internet per tahun.
Pada saat yang sama, para peneliti menggunakan data PBB agar sesuai dengan kurva pertumbuhan populasi, fungsi berbentuk S agar sesuai dengan penggunaan Internet, dan membuat asumsi sederhana bahwa data keluaran tahunan per orang pada dasarnya sama, dan dikalikan dengan ketiganya untuk memperkirakan jumlah data baru di dunia setiap tahun.
Model ini telah secara akurat memprediksi output bulanan Reddit (forum terkenal), sehingga tingkat akurasinya tinggi **.
Akhirnya, para peneliti menggabungkan dua model untuk mencapai kesimpulan di atas.
Para peneliti mengatakan bahwa meskipun data ini disimulasikan dan diperkirakan, ada tingkat ketidakpastian tertentu. Namun, ini adalah peringatan bagi komunitas model besar, dan data pelatihan akan segera menjadi hambatan penting yang membatasi perluasan dan penerapan model AI.
Vendor AI perlu menyusun metode yang efektif untuk regenerasi dan sintesis data terlebih dahulu untuk menghindari kekurangan data seperti tebing dalam proses pengembangan model besar
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Model seperti ChatGPT: Pada tahun 2026, data pelatihan berkualitas tinggi akan habis
Sumber asli: AIGC Open Community
"MIT Technology Review" pernah menerbitkan sebuah artikel di situs resminya yang mengatakan bahwa dengan popularitas model besar yang terus berlanjut seperti ChatGPT, permintaan akan data pelatihan meningkat. Model besar seperti "lubang hitam cyber" yang terus-menerus diserap, yang akhirnya menyebabkan tidak memiliki cukup data untuk pelatihan.
Epochai, sebuah lembaga penelitian AI terkenal, menerbitkan sebuah makalah langsung tentang masalah pelatihan data, dan menunjukkan bahwa pada tahun 2026, model besar akan mengkonsumsi data berkualitas tinggi, dan pada tahun 2030-2050, semua data berkualitas rendah akan dikonsumsi.
Pada 2030-2060, semua data pelatihan gambar akan habis. (Data di sini mengacu pada data asli yang belum diberi label atau tercemar dengan cara apa pun.)
Alamat:
Oleh karena itu, untuk meningkatkan pembelajaran, penalaran, dan kemampuan umum AGI GPT-5, OpenAI telah membentuk "aliansi data", berharap dapat mengumpulkan teks, video, audio, dan data pribadi ultra-panjang lainnya di area yang luas, sehingga model dapat mensimulasikan secara mendalam dan mempelajari pemikiran manusia dan metode kerja **.
Saat ini, Islandia, Free Law Project dan organisasi lain telah bergabung dengan aliansi untuk menyediakan OpenAI dengan berbagai data untuk membantu mempercepat pengembangan model.
Selain itu, ketika konten AI yang dihasilkan oleh ChatGPT, Midjourney, Gen-2, dan model lainnya memasuki jaringan publik, ini akan sangat mencemari kumpulan data publik yang dibangun oleh manusia, dan akan ada karakteristik seperti homogenitas dan logika tunggal, mempercepat proses konsumsi data berkualitas tinggi.
Data pelatihan berkualitas tinggi sangat penting untuk pengembangan model besar
Dari sudut pandang teknis, model bahasa besar dapat dianggap sebagai "mesin prediksi bahasa", yang belajar dari sejumlah besar data teks, membangun pola hubungan antara kata-kata, dan kemudian menggunakan pola-pola ini untuk memprediksi kata atau kalimat berikutnya dari teks.
Transformer adalah salah satu arsitektur yang paling terkenal dan banyak digunakan, dan ChatGPT dan yang lainnya telah meminjam dari teknologi ini.
Sederhananya, model bahasa besar adalah "labu dan sendok", dan manusia dapat mengatakan apa pun yang mereka inginkan. Jadi, ketika Anda menggunakan model seperti ChatGPT untuk menghasilkan teks, rasanya seperti di mana Anda melihat pola narasi dari konten teks ini.
Misalnya, jika model terjemahan dilatih, tetapi data yang digunakan semuanya konten palsu dan inferior, konten yang diterjemahkan oleh AI secara alami akan sangat buruk.
Ini adalah salah satu alasan utama mengapa kita sering melihat banyak model dengan parameter kecil tetapi kinerja dan output lebih baik daripada parameter tinggi, dan salah satu alasan utamanya adalah penggunaan data pelatihan berkualitas tinggi.
Di era model besar, data adalah raja
Karena pentingnya data, data pelatihan berkualitas tinggi telah menjadi sumber daya berharga bagi OpenAI, Baidu, Anthropic, Cohere, dan vendor lainnya, dan telah menjadi "minyak" di era model besar.
Pada awal Maret tahun ini, ketika China masih panik melakukan penelitian alkimia pada model besar, Baidu telah memimpin dalam merilis produk AI generatif yang mengacu pada ChatGPT - Wenxin Yiyansheng.
Selain kemampuan R&D yang kuat, data korpus Cina Baidu yang besar yang terakumulasi melalui mesin pencari selama lebih dari 20 tahun telah banyak membantu, dan telah memainkan peran penting dalam beberapa iterasi Wenxin Yiyan, jauh di depan produsen dalam negeri lainnya.
Data berkualitas tinggi biasanya mencakup buku yang diterbitkan, karya sastra, makalah akademis, buku teks sekolah, laporan berita dari media otoritatif, Wikipedia, Baidu Encyclopedia, dll., Teks, video, audio, dan data lain yang telah diverifikasi oleh waktu dan manusia.
Tetapi lembaga penelitian telah menemukan bahwa pertumbuhan jenis data berkualitas tinggi ini sangat lambat. Misalnya, menerbitkan buku harus melalui proses rumit seperti riset pasar, penyusunan pertama, pengeditan, dan peninjauan ulang, dan butuh berbulan-bulan atau bahkan bertahun-tahun untuk menerbitkan buku, yang jauh di belakang pertumbuhan permintaan untuk data pelatihan model besar.
Dilihat dari tren perkembangan model bahasa besar dalam empat tahun terakhir, tingkat pertumbuhan volume data pelatihan tahunannya telah melebihi 50%. Dengan kata lain, setiap 1 tahun, jumlah data yang diperlukan untuk melatih model perlu digandakan untuk mencapai peningkatan kinerja dan fungsi**.
Di satu sisi, ini untuk melindungi privasi pengguna agar tidak dikumpulkan oleh organisasi pihak ketiga, dan ada pencurian dan penyalahgunaan;
Di sisi lain, untuk mencegah data penting dimonopoli dan ditimbun oleh sejumlah kecil institusi, tidak ada data yang tersedia selama penelitian dan pengembangan teknologi.
Pada tahun 2026, kami mungkin kehabisan data pelatihan berkualitas tinggi
Untuk menyelidiki masalah konsumsi data pelatihan, peneliti Epochai mensimulasikan produksi tahunan data bahasa dan gambar dari 2022 hingga 2100, dan kemudian menghitung jumlah total data ini.
Ini juga mensimulasikan tingkat konsumsi data model besar seperti ChatGPT. Akhirnya, tingkat pertumbuhan data dan tingkat konsumsi dibandingkan, dan kesimpulan penting berikut diambil:
Di bawah tren perkembangan pesat model besar saat ini, semua data berkualitas rendah akan habis pada tahun 2030-2050, dan data berkualitas tinggi kemungkinan besar akan dikonsumsi pada tahun 2026.
Model kedua memprediksi berapa banyak data baru yang akan dihasilkan secara global setiap tahun di masa depan. Model ini didasarkan pada tiga variabel, jumlah populasi global, penetrasi internet, dan data rata-rata yang dihasilkan per pengguna internet per tahun.
Pada saat yang sama, para peneliti menggunakan data PBB agar sesuai dengan kurva pertumbuhan populasi, fungsi berbentuk S agar sesuai dengan penggunaan Internet, dan membuat asumsi sederhana bahwa data keluaran tahunan per orang pada dasarnya sama, dan dikalikan dengan ketiganya untuk memperkirakan jumlah data baru di dunia setiap tahun.
Model ini telah secara akurat memprediksi output bulanan Reddit (forum terkenal), sehingga tingkat akurasinya tinggi **.
Akhirnya, para peneliti menggabungkan dua model untuk mencapai kesimpulan di atas.
Para peneliti mengatakan bahwa meskipun data ini disimulasikan dan diperkirakan, ada tingkat ketidakpastian tertentu. Namun, ini adalah peringatan bagi komunitas model besar, dan data pelatihan akan segera menjadi hambatan penting yang membatasi perluasan dan penerapan model AI.
Vendor AI perlu menyusun metode yang efektif untuk regenerasi dan sintesis data terlebih dahulu untuk menghindari kekurangan data seperti tebing dalam proses pengembangan model besar