Tian Yuandong menuangkan air dingin pada proyek Q* misterius OpenAI: data sintetis bukanlah penyelamat AGI, dan kemampuannya terbatas pada masalah matematika sederhana
Diskusi dugaan Q berlanjut, dan hari ini, guru AI Tian Yuandong secara terbuka menyatakan bahwa Q * hanya dapat memecahkan masalah matematika tingkat pemula, dan AGI juga kemungkinan besar tidak dapat dicapai melalui data sintetis.
Dugaan Q * terus menjadi populer di komunitas AI.
Semua orang berspekulasi apakah Q* adalah "Q-learning + A*".
Guru AI Fuchito Tian juga menganalisis secara rinci seberapa besar kemungkinan hipotesis "Q*=Q-learning+A*".
Pada saat yang sama, semakin banyak orang menilai bahwa data sintetis adalah masa depan LLM.
Namun, Tian Yuandong menuangkan air dingin pada pernyataan ini.
saya sebagian tidak setuju dengan pernyataan bahwa AGI dapat diselesaikan hanya dengan memperbesar data sintetis.
Search sangat kuat karena, jika lingkungan dirancang dengan benar, itu akan menciptakan jumlah pola baru yang tak terbatas untuk dipelajari dan diadaptasi oleh model.
Namun, pertanyaan apakah miliaran data diperlukan untuk mempelajari model baru semacam itu tetap menjadi pertanyaan terbuka, yang mungkin menunjukkan beberapa kelemahan mendasar dalam paradigma arsitektur / pembelajaran kita.
Sebaliknya, seringkali lebih mudah bagi manusia untuk menemukan paradigma baru melalui momen "aha".
Jim Fan, seorang ilmuwan senior di NVIDIA, setuju bahwa data sintetis akan memainkan peran penting, tetapi hanya dengan skala membabi buta itu tidak akan cukup untuk mencapai AGI.
Q*=Q-learning+A, seberapa besar kemungkinannya
Tian Yuandong mengatakan bahwa berdasarkan pengalaman masa lalunya dengan OpenGo (reproduksi AlphaZero), A * dapat dianggap sebagai versi MCTS deterministik dengan hanya nilai (yaitu, heuristik) fungsi Q.
A * sangat cocok untuk tugas-tugas di mana keadaan mudah dinilai setelah tindakan tertentu, tetapi tindakan tersebut sulit diprediksi setelah keadaan tertentu. Contoh utama dari ini adalah masalah matematika.
Go, sebaliknya, adalah cerita yang berbeda: kandidat berikutnya relatif mudah diprediksi (hanya dengan memeriksa bentuk lokal), tetapi jauh lebih sulit untuk menilai situasi di papan tulis.
Itu sebabnya kami juga memiliki bot Go yang cukup kuat, tetapi mereka hanya menggunakan jaringan strategi.
Untuk LLM, mungkin ada keuntungan tambahan untuk menggunakan Q (s, a), karena mengevaluasi Q (s, a) mungkin hanya memerlukan pra-populasi, sedangkan strategi prediktif a = pi (s) memerlukan pengambilan sampel autoregresif, yang jauh lebih lambat. Juga, dalam kasus hanya menggunakan decoder, cache KV s dapat dibagi di beberapa operasi.
Q * legendaris, yang telah membuat lompatan besar ke depan dalam memecahkan masalah matematika, seberapa besar kemungkinannya?
Tian Yuandong mengatakan bahwa tebakannya adalah bahwa fungsi nilai harus relatif mudah diatur karena masalah matematika tingkat pemula sedang dipecahkan (misalnya, dapat diprediksi dari spesifikasi target dalam bentuk bahasa alami).
Jika Anda ingin memecahkan masalah matematika yang sulit dan tidak tahu bagaimana melakukannya, pendekatan ini mungkin tidak cukup.
LeCun me-retweet diskusi Tian dan setuju dengan sudut pandangnya - "Dia menjelaskan perbedaan penerapan antara A * (mencari jalur terpendek dalam grafik) dan MCTS (mencari di pohon yang tumbuh secara eksponensial). 」
Mengenai retweet LeCun, Tian Yuandong mengatakan bahwa dia telah melakukan banyak hal berbeda, termasuk perencanaan, pemahaman Transformer / LLM dan teknik pengoptimalan yang efisien, berharap untuk menggabungkan teknologi ini.
Beberapa netizen menyatakan skeptisisme, dengan mengatakan, "Agar A * valid, fungsi heuristik yang dapat dibuktikan, dapat diterima, dan konsisten diperlukan. Tapi saya sangat ragu siapa pun dapat menemukan fungsi seperti itu, karena tidak mudah untuk menentukan nilai subsequence. 」
Bahkan jika Anda membuat soal matematika sekolah dasar, Q* diharapkan tinggi
Siapa pun yang tahu sedikit tentang model besar tahu bahwa kemampuan untuk memecahkan masalah matematika dasar berarti bahwa kemampuan model untuk melakukannya adalah lompatan besar ke depan.
Ini karena sulit bagi model besar untuk menggeneralisasi di luar data terlatih.
Charles Higgins, salah satu pendiri startup pelatihan AI Tromero, mengatakan bahwa masalah utama yang mengganggu model besar sekarang adalah bagaimana secara logis bernalar tentang konsep abstrak, dan jika langkah ini tercapai, tidak diragukan lagi akan menjadi lompatan besar.
Matematika adalah studi tentang penalaran simbolik, misalnya, jika X lebih besar dari Y dan Y lebih besar dari Z, maka X lebih besar dari Z.
Jika Q* memang Q-learning+A*, ini menunjukkan bahwa model baru OpenAI dapat menggabungkan teknologi deep learning yang diaktifkan ChatGPT dengan aturan pemrograman manusia. Dan metode ini dapat membantu memecahkan teka-teki halusinasi LLM.
Menurut co-creator Tromero Sophia Kalanovska, ini memiliki makna simbolis yang sangat penting, tetapi pada tingkat praktis, tidak mungkin mengakhiri dunia.
Jadi mengapa ada desas-desus bahwa "Q* telah muncul di prototipe AGI"?
Kalanovska berpendapat bahwa, menurut klaim saat ini, Q mampu menggabungkan dua sisi otak dan memahami hal-hal dari pengalaman sambil bernalar tentang fakta.
Jelas, ini selangkah lebih dekat dengan kecerdasan kami yang diakui, karena Q* kemungkinan akan memberikan ide-ide baru untuk model besar, yang tidak dapat dilakukan ChatGPT.
Keterbatasan terbesar dari model yang ada adalah bahwa mereka hanya dapat memuntahkan informasi dari data pelatihan, tetapi tidak dapat bernalar dan mengembangkan ide-ide baru.
Memecahkan masalah yang tak terlihat adalah langkah kunci dalam menciptakan AGI.
Andrew Rogoyski, direktur AI Institute di Surrey Centre for Humanity, mengatakan bahwa model besar yang ada saat ini dapat mengerjakan soal matematika tingkat sarjana, tetapi ketika menyangkut soal matematika yang lebih maju, semuanya gagal.
Tetapi jika LLM benar-benar mampu memecahkan masalah baru yang tidak terlihat, itu masalah besar, bahkan jika masalah matematika yang dibuat relatif sederhana.
Data sintetis adalah kunci masa depan LLM?
Jadi, apakah raja data sintetis?
Ledakan Q * telah menyebabkan banyak spekulasi di antara para petinggi, dan para petinggi berspekulasi bahwa "sumber daya komputasi besar yang dikabarkan yang memungkinkan model baru untuk memecahkan masalah matematika tertentu" mungkin RLAIF (pembelajaran penguatan dari umpan balik AI).
RLAIF adalah teknologi yang menggantikan preferensi penandaan manusia dari LLM siap pakai, membuat operasi penyelarasan terhadap LLM lebih terukur dengan mengotomatiskan umpan balik manusia.
RLHF (Reinforcement Learning Based on Human Feedback), yang sebelumnya bersinar dalam pelatihan LLM, dapat secara efektif menyelaraskan model bahasa besar dengan preferensi manusia, tetapi mengumpulkan label preferensi manusia berkualitas tinggi adalah hambatan utama.
Akibatnya, perusahaan seperti Anthropic dan Google telah mencoba beralih ke RLAIF, menggunakan AI untuk menggantikan manusia dalam proses pelatihan umpan balik.
Ini berarti bahwa data sintetis adalah raja, dan menggunakan struktur pohon memberikan lebih banyak pilihan untuk nanti, untuk sampai pada jawaban yang benar.
Belum lama ini, Jim Fan tweeted bahwa data sintetis akan memberikan triliun data pelatihan berkualitas tinggi berikutnya.
"Saya yakin kelompok LLM yang paling serius tahu itu. Pertanyaan kuncinya adalah bagaimana menjaga kualitas dan menghindari stagnasi dini. 」
Jim Fan juga mengutip artikel Richard S. Sutton "The Bitter Lesson" untuk menggambarkan bahwa hanya ada dua paradigma dalam pengembangan AI yang dapat diskalakan tanpa batas melalui komputasi: belajar dan mencari.
"Itu benar pada tahun 2019 pada saat menulis artikel ini, dan itu benar hari ini, saya bertaruh sampai hari kita menyelesaikan AGI. 」
Richard S. Sutton adalah anggota Royal Society of Canada dan Royal Society, dan dia dianggap sebagai salah satu pendiri pembelajaran penguatan komputasi modern, membuat beberapa kontribusi signifikan di lapangan, termasuk pembelajaran perbedaan waktu dan metode gradien strategis.
Dalam artikel ini, Sutton membuat poin-poin berikut:
Pendekatan generik yang memanfaatkan komputasi pada akhirnya adalah yang paling efisien dan efisien. Tetapi alasan untuk ini adalah Hukum Moore, atau lebih tepatnya karena penurunan eksponensial terus menerus dalam biaya per unit komputasi.
Awalnya, para peneliti bekerja untuk menghindari pencarian dengan mengeksploitasi pengetahuan manusia atau fitur khusus permainan, yang semuanya akan tampak tidak relevan setelah pencarian diterapkan secara efektif dalam skala besar.
Sekali lagi, metode statistik telah menang atas metode berbasis pengetahuan manusia, yang telah menyebabkan perubahan signifikan di seluruh bidang pemrosesan bahasa alami, di mana statistik dan perhitungan secara bertahap menjadi dominan selama beberapa dekade.
Peneliti AI sering mencoba membangun pengetahuan ke dalam sistem, yang dapat membantu dalam jangka pendek, tetapi dapat menghambat kemajuan lebih lanjut dalam jangka panjang.
Terobosan pada akhirnya akan dicapai melalui pendekatan berbasis pencarian dan pembelajaran.
Isi sebenarnya dari pikiran sangat kompleks, dan kita harus berhenti mencoba menemukan cara-cara sederhana untuk mewakili pikiran, dan sebaliknya kita hanya harus membangun meta-metode yang dapat menemukan dan menangkap kompleksitas sewenang-wenang ini.
Jadi, tampaknya Q * telah memahami inti masalahnya (cari dan pelajari), dan data sintetis selanjutnya akan memungkinkannya untuk menerobos keterbatasan masa lalu dan membuat lompatannya sendiri.
Mengenai data sintetis, Musk juga mengatakan bahwa manusia benar-benar tidak bisa mengalahkan mesin.
"Anda bisa meletakkan teks dari setiap buku yang ditulis manusia di hard drive (mendesah), dan data sintetis akan jauh lebih dari itu. 」
Dalam hal ini, Jim Fan berinteraksi dengan Musk dan berkata,
"Jika kita dapat mensimulasikan mereka dalam skala besar, banyak data sintetis akan berasal dari agen yang diwujudkan, seperti Tesla Optimus. 」
Jim Fan berpikir RLAIF, atau RLAIF dari umpan balik groundtruth, akan sangat membantu jika diskalakan dengan benar. Selain itu, data sintetis termasuk simulator, yang pada prinsipnya dapat membantu LLM mengembangkan model dunia.
"Idealnya, itu tidak terbatas. Tetapi kekhawatirannya adalah bahwa jika siklus perbaikan diri tidak cukup efektif, itu berisiko terhenti. 」
Mengenai nyanyian dan harmoni keduanya, LeCun mengatakan bahwa dia ingin mengatakan sesuatu:
LeCun percaya bahwa hewan dan manusia dengan cepat menjadi sangat pintar dengan data pelatihan yang sangat sedikit.
Jadi, menggunakan lebih banyak data (sintetis atau non-sintetis) adalah tindakan sementara sementara, hanya karena pendekatan kami saat ini memiliki keterbatasan.
Dalam hal ini, netizen yang mendukung "faksi data besar" menyatakan ketidakpuasan mereka:
"Bukankah jutaan tahun adaptasi evolusioner menyerupai pra-pelatihan, dan pengalaman seumur hidup kita menyerupai penyempurnaan terus menerus?"
LeCun kemudian mencontohkan untuk menjelaskan bahwa satu-satunya cara yang digunakan manusia untuk meneruskan hasil evolusi jutaan tahun adalah gen, dan jumlah data dalam genom manusia sangat kecil, hanya 800MB.
Bahkan LLM 7B kecil membutuhkan penyimpanan 14GB, yang sebenarnya tidak banyak data dalam genom manusia.
Juga, perbedaan antara genom simpanse dan manusia adalah sekitar 1% (8MB). Perbedaan kecil ini sama sekali tidak cukup untuk menjelaskan perbedaan kemampuan antara manusia dan simpanse.
Ketika datang ke jumlah data yang dipelajari, seorang anak berusia 2 tahun melihat jumlah data visual yang sangat kecil, dengan sekitar 32 juta detik (2x365x12x3600) dari semua waktu belajarnya.
Manusia memiliki 2 juta serabut saraf optik, dan setiap serabut saraf mentransmisikan sekitar 10 byte per detik. - Itu total 6E14 byte.
Sebaliknya, pelatihan LLM biasanya memiliki volume data token 1E13, yaitu sekitar 2E13 byte. Jadi seorang anak berusia 2 tahun hanya mendapat data 30 kali lebih banyak daripada LLM.
Terlepas dari argumen orang-orang besar, perusahaan teknologi besar seperti Google, Anthropic, Cohere, dll., Menggunakan pengawasan proses atau metode seperti RLAIF untuk membuat kumpulan data yang telah dilatih sebelumnya, yang menghabiskan sumber daya yang sangat besar.
Jadi jelas bagi semua orang bahwa data sintetis adalah jalan pintas untuk memperluas kumpulan data Anda. Dalam jangka pendek, kita jelas dapat menggunakannya untuk membuat beberapa data yang berguna.
Tapi apakah ini jalan menuju masa depan? Kita harus menunggu jawabannya.
Sumber daya:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Tian Yuandong menuangkan air dingin pada proyek Q* misterius OpenAI: data sintetis bukanlah penyelamat AGI, dan kemampuannya terbatas pada masalah matematika sederhana
Sumber: Zhiyuan Baru
Dugaan Q * terus menjadi populer di komunitas AI.
Semua orang berspekulasi apakah Q* adalah "Q-learning + A*".
Guru AI Fuchito Tian juga menganalisis secara rinci seberapa besar kemungkinan hipotesis "Q*=Q-learning+A*".
Pada saat yang sama, semakin banyak orang menilai bahwa data sintetis adalah masa depan LLM.
Namun, Tian Yuandong menuangkan air dingin pada pernyataan ini.
Q*=Q-learning+A, seberapa besar kemungkinannya
Tian Yuandong mengatakan bahwa berdasarkan pengalaman masa lalunya dengan OpenGo (reproduksi AlphaZero), A * dapat dianggap sebagai versi MCTS deterministik dengan hanya nilai (yaitu, heuristik) fungsi Q.
Go, sebaliknya, adalah cerita yang berbeda: kandidat berikutnya relatif mudah diprediksi (hanya dengan memeriksa bentuk lokal), tetapi jauh lebih sulit untuk menilai situasi di papan tulis.
Itu sebabnya kami juga memiliki bot Go yang cukup kuat, tetapi mereka hanya menggunakan jaringan strategi.
Q * legendaris, yang telah membuat lompatan besar ke depan dalam memecahkan masalah matematika, seberapa besar kemungkinannya?
Tian Yuandong mengatakan bahwa tebakannya adalah bahwa fungsi nilai harus relatif mudah diatur karena masalah matematika tingkat pemula sedang dipecahkan (misalnya, dapat diprediksi dari spesifikasi target dalam bentuk bahasa alami).
Jika Anda ingin memecahkan masalah matematika yang sulit dan tidak tahu bagaimana melakukannya, pendekatan ini mungkin tidak cukup.
Beberapa netizen menyatakan skeptisisme, dengan mengatakan, "Agar A * valid, fungsi heuristik yang dapat dibuktikan, dapat diterima, dan konsisten diperlukan. Tapi saya sangat ragu siapa pun dapat menemukan fungsi seperti itu, karena tidak mudah untuk menentukan nilai subsequence. 」
Bahkan jika Anda membuat soal matematika sekolah dasar, Q* diharapkan tinggi
Siapa pun yang tahu sedikit tentang model besar tahu bahwa kemampuan untuk memecahkan masalah matematika dasar berarti bahwa kemampuan model untuk melakukannya adalah lompatan besar ke depan.
Ini karena sulit bagi model besar untuk menggeneralisasi di luar data terlatih.
Charles Higgins, salah satu pendiri startup pelatihan AI Tromero, mengatakan bahwa masalah utama yang mengganggu model besar sekarang adalah bagaimana secara logis bernalar tentang konsep abstrak, dan jika langkah ini tercapai, tidak diragukan lagi akan menjadi lompatan besar.
Matematika adalah studi tentang penalaran simbolik, misalnya, jika X lebih besar dari Y dan Y lebih besar dari Z, maka X lebih besar dari Z.
Menurut co-creator Tromero Sophia Kalanovska, ini memiliki makna simbolis yang sangat penting, tetapi pada tingkat praktis, tidak mungkin mengakhiri dunia.
Jadi mengapa ada desas-desus bahwa "Q* telah muncul di prototipe AGI"?
Kalanovska berpendapat bahwa, menurut klaim saat ini, Q mampu menggabungkan dua sisi otak dan memahami hal-hal dari pengalaman sambil bernalar tentang fakta.
Keterbatasan terbesar dari model yang ada adalah bahwa mereka hanya dapat memuntahkan informasi dari data pelatihan, tetapi tidak dapat bernalar dan mengembangkan ide-ide baru.
Memecahkan masalah yang tak terlihat adalah langkah kunci dalam menciptakan AGI.
Tetapi jika LLM benar-benar mampu memecahkan masalah baru yang tidak terlihat, itu masalah besar, bahkan jika masalah matematika yang dibuat relatif sederhana.
Data sintetis adalah kunci masa depan LLM?
Jadi, apakah raja data sintetis?
Ledakan Q * telah menyebabkan banyak spekulasi di antara para petinggi, dan para petinggi berspekulasi bahwa "sumber daya komputasi besar yang dikabarkan yang memungkinkan model baru untuk memecahkan masalah matematika tertentu" mungkin RLAIF (pembelajaran penguatan dari umpan balik AI).
RLAIF adalah teknologi yang menggantikan preferensi penandaan manusia dari LLM siap pakai, membuat operasi penyelarasan terhadap LLM lebih terukur dengan mengotomatiskan umpan balik manusia.
Ini berarti bahwa data sintetis adalah raja, dan menggunakan struktur pohon memberikan lebih banyak pilihan untuk nanti, untuk sampai pada jawaban yang benar.
Belum lama ini, Jim Fan tweeted bahwa data sintetis akan memberikan triliun data pelatihan berkualitas tinggi berikutnya.
Jim Fan juga mengutip artikel Richard S. Sutton "The Bitter Lesson" untuk menggambarkan bahwa hanya ada dua paradigma dalam pengembangan AI yang dapat diskalakan tanpa batas melalui komputasi: belajar dan mencari.
"Itu benar pada tahun 2019 pada saat menulis artikel ini, dan itu benar hari ini, saya bertaruh sampai hari kita menyelesaikan AGI. 」
Richard S. Sutton adalah anggota Royal Society of Canada dan Royal Society, dan dia dianggap sebagai salah satu pendiri pembelajaran penguatan komputasi modern, membuat beberapa kontribusi signifikan di lapangan, termasuk pembelajaran perbedaan waktu dan metode gradien strategis.
Pendekatan generik yang memanfaatkan komputasi pada akhirnya adalah yang paling efisien dan efisien. Tetapi alasan untuk ini adalah Hukum Moore, atau lebih tepatnya karena penurunan eksponensial terus menerus dalam biaya per unit komputasi.
Awalnya, para peneliti bekerja untuk menghindari pencarian dengan mengeksploitasi pengetahuan manusia atau fitur khusus permainan, yang semuanya akan tampak tidak relevan setelah pencarian diterapkan secara efektif dalam skala besar.
Sekali lagi, metode statistik telah menang atas metode berbasis pengetahuan manusia, yang telah menyebabkan perubahan signifikan di seluruh bidang pemrosesan bahasa alami, di mana statistik dan perhitungan secara bertahap menjadi dominan selama beberapa dekade.
Peneliti AI sering mencoba membangun pengetahuan ke dalam sistem, yang dapat membantu dalam jangka pendek, tetapi dapat menghambat kemajuan lebih lanjut dalam jangka panjang.
Terobosan pada akhirnya akan dicapai melalui pendekatan berbasis pencarian dan pembelajaran.
Isi sebenarnya dari pikiran sangat kompleks, dan kita harus berhenti mencoba menemukan cara-cara sederhana untuk mewakili pikiran, dan sebaliknya kita hanya harus membangun meta-metode yang dapat menemukan dan menangkap kompleksitas sewenang-wenang ini.
Mengenai data sintetis, Musk juga mengatakan bahwa manusia benar-benar tidak bisa mengalahkan mesin.
Dalam hal ini, Jim Fan berinteraksi dengan Musk dan berkata,
Jim Fan berpikir RLAIF, atau RLAIF dari umpan balik groundtruth, akan sangat membantu jika diskalakan dengan benar. Selain itu, data sintetis termasuk simulator, yang pada prinsipnya dapat membantu LLM mengembangkan model dunia.
Mengenai nyanyian dan harmoni keduanya, LeCun mengatakan bahwa dia ingin mengatakan sesuatu:
Jadi, menggunakan lebih banyak data (sintetis atau non-sintetis) adalah tindakan sementara sementara, hanya karena pendekatan kami saat ini memiliki keterbatasan.
Dalam hal ini, netizen yang mendukung "faksi data besar" menyatakan ketidakpuasan mereka:
LeCun kemudian mencontohkan untuk menjelaskan bahwa satu-satunya cara yang digunakan manusia untuk meneruskan hasil evolusi jutaan tahun adalah gen, dan jumlah data dalam genom manusia sangat kecil, hanya 800MB.
Juga, perbedaan antara genom simpanse dan manusia adalah sekitar 1% (8MB). Perbedaan kecil ini sama sekali tidak cukup untuk menjelaskan perbedaan kemampuan antara manusia dan simpanse.
Ketika datang ke jumlah data yang dipelajari, seorang anak berusia 2 tahun melihat jumlah data visual yang sangat kecil, dengan sekitar 32 juta detik (2x365x12x3600) dari semua waktu belajarnya.
Manusia memiliki 2 juta serabut saraf optik, dan setiap serabut saraf mentransmisikan sekitar 10 byte per detik. - Itu total 6E14 byte.
Sebaliknya, pelatihan LLM biasanya memiliki volume data token 1E13, yaitu sekitar 2E13 byte. Jadi seorang anak berusia 2 tahun hanya mendapat data 30 kali lebih banyak daripada LLM.
Terlepas dari argumen orang-orang besar, perusahaan teknologi besar seperti Google, Anthropic, Cohere, dll., Menggunakan pengawasan proses atau metode seperti RLAIF untuk membuat kumpulan data yang telah dilatih sebelumnya, yang menghabiskan sumber daya yang sangat besar.
Jadi jelas bagi semua orang bahwa data sintetis adalah jalan pintas untuk memperluas kumpulan data Anda. Dalam jangka pendek, kita jelas dapat menggunakannya untuk membuat beberapa data yang berguna.
Tapi apakah ini jalan menuju masa depan? Kita harus menunggu jawabannya.
Sumber daya: