Peluncuran ChatGPT pada November 2022 telah membuka mata berbagai pemain industri terhadap model bahasa besar AI. Dinamika frenetik ini merembes ke ruang Kripto, dan artikel ini bertujuan untuk memperkenalkan perkembangan AI, statusnya saat ini, dan industri yang muncul dari kombinasi AI+Kripto.
Machine learning (ML) adalah teknologi dengan kemampuan pembelajaran empiris, yang belajar untuk membedakan hewan, terjemahan bahasa, dan tugas-tugas khusus lainnya dengan belajar dari kumpulan data besar. Machine learning termasuk dalam cara paling praktis untuk mewujudkan kecerdasan buatan saat ini, tergantung pada apakah data yang dipelajari berlabel dan fitur-fiturnya, dapat dibagi menjadi pembelajaran terawasi dan pembelajaran tanpa pengawasan.
Ada banyak jenis model yang dapat menyelesaikan pembelajaran terawasi, termasuk model berbasis pohon, model grafik, dan jaringan saraf yang baru muncul. Dengan perkembangan cepat daya komputasi dan data, pembelajaran mendalam telah lebih dikembangkan berdasarkan arsitektur jaringan saraf. Arsitektur pembelajaran mendalam saat ini umumnya mencakup, tetapi tidak terbatas pada, CNN, RNN, dan mekanisme perhatian.
Klasifikasi pembelajaran mesin, sumber: Kapital HashKey
Berbagai jaringan pembelajaran mendalam memiliki arsitektur dasar dari lapisan input, lapisan tersembunyi, dan lapisan output, lapisan input biasanya merupakan teks, video, audio, dan data lain setelah diproses "tokenize/embedding". Lapisan tersembunyi memiliki desain yang berbeda (bentuk model) tergantung pada kumpulan data dan tujuan tugas, seperti yang ditunjukkan dalam tabel.
Jenis-jenis Jaringan Saraf, Sumber: Diatur oleh HashKey Capital
30 tahun pengembangan jaringan syaraf, sumber: diselenggarakan oleh HashKey Capital
Pelatihan jaringan saraf pertama kali bermula pada pertengahan tahun 1980-an ketika Jordan melatih sebuah jaringan saraf untuk belajar pola-pola sekuensial di makalahnya tahun 1986.Urutan Seri: Pendekatan Pemrosesan Terdistribusi ParalelJaringan kecil hanya memiliki beberapa neuron.
Pada tahun 1990-an, Jeffrey Ehrman memperluas jaringan saraf menjadi jaringan 50 neuron dengan penemuan bahwa jaringan secara spasial mengelompokkan kata-kata berdasarkan maknanya. Misalnya, itu memisahkan kata benda benda mati dan hidup, dan dalam dua kategori ini, objek hidup dibagi menjadi kategori manusia dan non-manusia, dan benda mati dikategorikan sebagai dapat rusak dan dapat dimakan. Hal ini menunjukkan bahwa jaringan memiliki kemampuan untuk belajar penjelasan hierarkis.
Dia juga mengamati bahwa kata-kata dapat diwakili sebagai titik-titik dalam ruang berdimensi tinggi, dan kemudian urutan kata-kata atau kalimat dapat dilihat sebagai sebuah jalur. Terobosan besar ini memungkinkan dataset teks untuk dijadikan digital, divectorkan, dan diproses oleh komputer.
Sumber: http://3b1b.co/neural-networks
Pada tahun 2011, para peneliti Confluence melatih jaringan yang lebih besar melibatkan ribuan neuron dan jutaan koneksi, dan ditemukan bottleneck dalam studi kemampuan jaringan untuk mempertahankan konteks yang koheren selama urutan panjang.
Pada tahun 2017, OpenAI melanjutkan karya Kathy dengan pelatihan pada 82 juta ulasan Amazon di mana neuron emosional ditemukan. Neuron seperti itu secara sempurna mengkategorikan emosi teks.
Sumber: Belajar Menghasilkan Ulasan dan Menemukan Sentimen
Mengenai batasan ukuran konteks, makalah 2017 Attention Is All You Need menyajikan solusi. Makalah tersebut menciptakan jaringan lapisan dinamis yang menyesuaikan bobot koneksi berdasarkan konteks jaringan. Ini bekerja dengan memungkinkan kata-kata dalam masukan untuk melihat, membandingkan kata-kata lain, dan menemukan yang paling relevan. Semakin dekat kata-kata ini dalam konsep, semakin dekat mereka dalam ruang dan dapat memiliki bobot koneksi yang lebih tinggi. Namun, makalah hanya berfokus pada masalah terjemahan.
Oleh karena itu, para peneliti OpenAI mencoba arsitektur transformer yang lebih kuat dan meluncurkan GPT-3 pada tahun 2020, yang menarik perhatian luas dari industri di seluruh dunia, kali ini dengan jaringan mencapai 175 miliar parameter, 96 lapisan, dan jendela konteks 1.000 kata.
Ambil gambar digital berukuran 28x28 piksel berikut sebagai contoh, neuron sesuai dengan setiap piksel dari gambar masukan 28x28, total 784 neuron, angka di dalam neuron adalah nilai aktivasi, yang berkisar dari 0-1.
Gambar digital berukuran 28x28 piksel, Sumber: http://3b1b.co/neural-networks
784 neuron ini membentuk lapisan input dari jaringan. Lapisan terakhir adalah lapisan output, yang berisi sepuluh neuron yang mewakili angka 0–9, lagi dengan nilai aktivasi berkisar dari 0–1. Lapisan tengah adalah lapisan tersembunyi, di mana nilai aktivasi dari lapisan sebelumnya menentukan nilai aktivasi dari lapisan berikutnya saat jaringan syaraf beroperasi.
Kedalaman pembelajaran mendalam terletak pada kenyataan bahwa model mempelajari banyak “lapisan” transformasi, masing-masing dengan representasi yang berbeda. Seperti yang ditunjukkan pada gambar di bawah, misalnya, pada 9, lapisan-lapisan yang berbeda dapat mengenali fitur-fitur yang berbeda. Semakin dekat lapisan input dengan tingkat rincian data yang lebih rendah, semakin dekat lapisan output dengan konsep-konsep yang lebih spesifik yang dapat digunakan untuk membedakan.
Sumber: http://3b1b.co/jaringan-syaraf
Saat model menjadi lebih besar, lapisan tersembunyi di tengah melibatkan ratusan miliar bobot per lapisan, dan itulah bobot dan bias yang benar-benar menentukan apa yang dilakukan jaringan. Proses pembelajaran mesin adalah proses menemukan parameter yang tepat, yang merupakan bobot dan bias.
Arsitektur transformer yang digunakan dalam GPT, sebuah model bahasa besar, memiliki lapisan tersembunyi intermediate yang terdiri dari 96 lapisan modul decoder, di mana GPT1, GPT2, dan GPT3 masing-masing memiliki 12, 48, dan 96 lapisan. Decoder tersebut pada gilirannya berisi komponen jaringan saraf perhatian dan umpan balik maju.
Proses komputasi atau pembelajaran melibatkan menentukan fungsi biaya (atau fungsi kerugian) yang menjumlahkan kuadrat perbedaan antara prediksi output yang dihitung jaringan dan nilai sebenarnya, dan ketika jumlahnya kecil, model berperforma dalam batas yang dapat diterima.
Pelatihan dimulai dengan merandom parameter jaringan dan menyelesaikan parameter model jaringan dengan menemukan parameter yang meminimalkan fungsi biaya. Cara untuk mengkonvergensi fungsi biaya adalah dengan gradien turun, di mana derajat dampak setiap perubahan parameter pada biaya/kerugian diperiksa, dan kemudian parameter disesuaikan sesuai dengan derajat dampak tersebut.
Proses perhitungan gradien parameter memperkenalkan propagasi mundur atau backpropagation, yang menjelajahi jaringan dari lapisan output ke lapisan input secara terbalik sesuai dengan aturan rantai. Algoritma juga memerlukan penyimpanan variabel-variabel perantara (turunan parsial) yang diperlukan untuk menghitung gradien.
Ada tiga faktor utama yang memengaruhi kinerja model bahasa besar AI selama pelatihannya, yaitu jumlah parameter model, ukuran dataset, dan jumlah komputasi.
Sumber: Laporan OpenAI, Hukum Skala untuk Model Bahasa Neural
Hal ini konsisten dengan perkembangan dataset dan komputer (daya komputasi) secara nyata, namun juga terlihat dalam tabel di bawah ini bahwa daya komputasi tumbuh lebih cepat daripada data yang tersedia, sementara memori adalah yang paling lambat untuk berkembang.
Pengembangan dataset, memori, dan daya komputasi, Sumber: https://github.com/d2l-ai
Dihadapkan dengan model besar, overfitting cenderung terjadi ketika data pelatihan terlalu kecil, dan secara umum, akurasi model yang lebih kompleks meningkat seiring dengan peningkatan jumlah data. Mengenai kebutuhan data yang diperlukan untuk model besar, dapat diputuskan berdasarkan aturan 10, yang menyarankan bahwa jumlah data harus 10 kali lipat dari parameter, tetapi beberapa algoritma deep learning menerapkan 1:1.
Pembelajaran yang terawasi memerlukan penggunaan dataset yang berlabel + fitur untuk mendapatkan hasil yang valid.
Sumber: Kumpulan Data Kategorisasi Pakaian Fashion-MNIST
Meskipun terjadi peningkatan data yang cepat selama satu atau dua dekade terakhir dan ketersediaan set data open-source saat ini termasuk Kaggle, Azure, AWS, Google database, dll., jumlah data yang terbatas, langka, dan mahal secara bertahap menjadi hambatan untuk pengembangan AI akibat masalah privasi, peningkatan parameter model, dan reproduktibilitas data. Berbagai solusi data yang berbeda diusulkan bertujuan untuk mengurangi masalah ini.
Teknik Augmentasi Data mungkin menjadi solusi yang efektif dengan memberikan data yang tidak mencukupi ke model tanpa perlu mendapatkan sampel baru, seperti penskalaan, rotasi, refleksi, pemangkasan, translasi, penambahan noise Gaussian, mixup, dll.
Data sintetis adalah pilihan lain. Data sintetis adalah data yang dapat dihasilkan secara artifisial oleh simulasi komputer atau algoritma dengan atau tanpa kumpulan data referensi sebelumnya. Mengenai pengembangan alat untuk menghasilkan data sintetis, Ian J. Goodfellow menciptakan Jaringan Adversarial Generatif (GAN), yang merupakan arsitektur pembelajaran mendalam.
Ini melatih dua jaringan saraf untuk bersaing satu sama lain yang dapat menghasilkan data baru, lebih realistis dari dataset pelatihan yang diberikan. Arsitektur ini mendukung penghasilan gambar, mengisi informasi yang hilang, menghasilkan data pelatihan untuk model lain, menghasilkan model 3D berdasarkan data 2D, dan lainnya.
Masih terlalu awal dalam pengembangan bidang ini, dengan sebagian besar perusahaan yang ada yang melakukan data sintetis didirikan pada tahun 2021 atau 2022, dan beberapa pada tahun 2023.
Keadaan pendanaan untuk perusahaan data sintetis. Sumber: https://frontline.vc/blog/data-sintetis/
Proses pelatihan AI melibatkan sejumlah besar operasi matriks, mulai dari embedding kata, matriks transformer QKV, hingga operasi softmax, dan sebagainya melalui operasi matriks, seluruh parameter model juga dijalankan dalam matriks.
contoh database vektor, Sumber : https://x.com/ProfTomYeh/status/1795076707386360227
Model-model besar membawa permintaan perangkat keras komputer yang besar, yang secara utama dikategorikan menjadi pelatihan dan inferensi.
Pelatihan pra dan penyetelan halus dapat lebih dibagi di bawah pelatihan. Seperti yang disebutkan sebelumnya, membangun model jaringan pertama kali memerlukan inisialisasi acak parameter, kemudian melatih jaringan dan terus-menerus mengatur parameter hingga kerugian jaringan mencapai rentang yang dapat diterima. Perbedaan antara pre-training dan fine-tuning adalah bahwa
pelatihan awal dimulai dengan setiap lapisan parameter dari inisialisasi acak, sementara beberapa lapisan penyesuaian halus dapat langsung menggunakan parameter model yang sebelumnya dilatih sebagai parameter inisialisasi untuk tugas ini (membekukan parameter lapisan sebelumnya) dan beraksi pada kumpulan data tertentu.
Sumber:https://d2l.ai/chapter_computer-vision/fine-tuning.html
Pre-training dan fine-tuning keduanya melibatkan perubahan parameter model, yang pada akhirnya menghasilkan optimisasi model atau parameter, sementara inferensi adalah perhitungan inferensi dengan memuat model setelah masukan pengguna dan pada akhirnya mendapatkan umpan balik dan hasil keluaran.
Pelatihan pra, penyesuaian halus, dan inferensi diurutkan dari yang terbesar hingga yang terkecil dalam hal kebutuhan komputer mereka. Tabel berikut membandingkan kebutuhan perangkat keras komputer untuk pelatihan dan inferensi. Kebutuhan perangkat keras komputer keduanya secara signifikan berbeda dalam hal daya komputasi, memori, dan komunikasi / bandwidth karena perbedaan dalam proses komputasi dan persyaratan akurasi, dan pada saat yang sama ada Trilema Mustahil dalam daya komputasi, memori, dan komunikasi/bandwidth.
Pengukuran statistik dalam tabel ini didasarkan pada pemrosesan model tunggal satu token, satu parameter.FLOPs: operasi titik mengambang per detik, jumlah perhitungan matriks. \
*DP, TP, PP: data parallel, tensor parallel, pipeline parallel.
Perbandingan perangkat keras komputer antara pelatihan dan inferensi, Sumber: Diatur oleh HashKey Capital
Proses pelatihan jaringan saraf memerlukan pergantian antara propagasi maju dan mundur, menggunakan gradien yang diberikan oleh propagasi mundur untuk memperbarui parameter model. Inferensi, di sisi lain, hanya memerlukan propagasi maju. Perbedaan ini menjadi faktor pengaruh yang secara utama membedakan persyaratan sumber daya perangkat keras komputer untuk pelatihan dan inferensi.
Dalam hal daya komputasi, seperti yang ditunjukkan dalam tabel, terdapat hubungan perkalian sederhana antara jumlah parameter model dan konsumsi daya komputasi, dengan pelatihan membutuhkan 6-8 operasi floating-point dan inferensi membutuhkan 2. Hal ini disebabkan oleh backpropagation yang terlibat dalam pelatihan, yang memerlukan dua kali lipat daya komputasi dari propagasi maju, dan oleh karena itu konsumsi daya komputasi pelatihan jauh lebih tinggi daripada inferensi.
Dalam hal memori, backpropagation yang digunakan untuk pelatihan menggunakan kembali nilai-nilai intermediet yang disimpan dalam propagasi maju untuk menghindari perhitungan ulang. Oleh karena itu, proses pelatihan perlu menjaga nilai-nilai intermediet hingga backpropagation selesai. Konsumsi memori yang dihasilkan selama pelatihan terutama berisi parameter model, nilai aktivasi intermediet yang dihasilkan selama komputasi maju, gradien yang dihasilkan oleh komputasi propagasi mundur, dan keadaan optimizer. Tahap inferensi tidak memerlukan backpropagasi, dan tidak memerlukan keadaan optimizer dan gradien, dll., dan penggunaan konsumsi memori-nya jauh lebih kecil daripada pelatihan.
Dalam hal komunikasi/lebar pita, untuk meningkatkan kinerja pelatihan AI, pelatihan model mainstream biasanya menggunakan tiga strategi paralel: paralel data, paralel tensor, dan paralel pipeline.
Sumber: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/
Untuk ketiga strategi ini, proyeksi menunjukkan bahwa frekuensi komunikasi TP adalah yang terbesar, volume komunikasi tertinggi, dan terkait dengan jumlah token, lebar model, dan jumlah lapisan. Volume dan frekuensi komunikasi PP lebih kecil daripada TP, dan terkait dengan jumlah token, dan lebar model. Volume dan frekuensi komunikasi DP adalah yang terkecil dan independen dari token input.
Engsel sumber daya perangkat keras komputer dalam model besar terutama terbatas oleh daya komputasi, bandwidth/komunikasi, dan memori, dan ada pemeriksaan dan keseimbangan di antara ketiganya, mengakibatkan masalah Trilema Mustahil. Sebagai contoh, karena bottleneck komunikasi, kinerja kluster tidak dapat ditingkatkan dengan hanya mengoptimalkan daya komputer tunggal.
Oleh karena itu, meskipun arsitektur paralel digunakan untuk mempercepat kinerja cluster, sebagian besar arsitektur paralel sebenarnya mengorbankan komunikasi atau penyimpanan demi daya komputasi.
Mengorbankan komunikasi dan penyimpanan untuk daya komputasi:
Di PP, jika satu GPU ditugaskan ke setiap lapisan transformer, meskipun peningkatan daya komputasi dalam satuan waktu, kebutuhan komunikasi antara lapisan juga meningkat, menyebabkan peningkatan volume data dan latensi. Selain itu, kebutuhan penyimpanan state intermediate untuk propagasi maju meningkat dengan sangat cepat.
Mengorbankan komunikasi untuk daya komputasi:
Dalam TP, setiap transformer dibongkar untuk komputasi paralel. Karena transformer terdiri dari dua komponen (Attention head dan jaringan feed-forward), tugas dapat dibagi dalam lapisan untuk kedua Attention head atau jaringan saraf feed-forward. Pendekatan TP ini dapat mengurangi masalah hierarki PP yang terlalu banyak karena GPU tidak mampu menyesuaikan model. Namun, pendekatan ini masih memiliki overhead komunikasi yang serius.
Dalam makalah ini, kami percaya bahwa saat ini ada beberapa kategori utama AI dalam bidang kripto berikut:
Sumber: Diatur oleh HashKey Capital
Seperti yang disebutkan sebelumnya, tiga komponen paling kritis dalam AI adalah data, model, dan kekuatan komputasi, yang berfungsi sebagai infrastruktur untuk memberdayakan Kripto AI.
Kombinasi mereka sebenarnya terbentuk menjadi jaringan komputasi, dengan sejumlah besar perangkat lunak tengah muncul dalam proses komputasi agar efisien serta lebih sesuai dengan semangat kripto. Di hulu adalah Agen berdasarkan hasil yang dapat diverifikasi ini, yang lebih lanjut dapat melayani peran yang berbeda untuk berbagai audiens pengguna.
Diagram alur lain dapat digunakan untuk mengekspresikan ekologi dasar Kripto AI sebagai berikut:
Diagram aliran ekologi, sumber: disusun oleh HashKey Capital
Tentu saja, mekanisme tokenomik diperlukan di ruang kripto untuk mendorong koordinasi partisipasi berbagai pemain.
Untuk set data, seseorang dapat memilih antara sumber data publik atau sumber data pribadi khusus mereka sendiri.
Sumber Data:
Platform Data Sintetis:
Lainnya:
Platform layanan penandaan data, dengan menugaskan tugas pesanan penandaan kepada pekerja yang berbeda, para pekerja ini dapat mendapatkan insentif token yang sesuai setelah menyelesaikan tugas seperti Kripto, Public AI, dan sebagainya. Namun, permasalahan saat ini adalah bahwa ada lebih banyak orang yang melakukan penandaan data daripada data, sementara perusahaan AI memiliki pemasok penandaan data yang stabil untuk kebutuhan data yang telah ditandai mereka, karena keberadaan lengket yang membuat keinginan mereka untuk beralih ke platform terdesentralisasi menjadi lemah. Platform-platform ini mungkin hanya dapat memperoleh alokasi bagian yang tersisa dari pesanan dari pemasok penandaan data.
Jaringan komputasi umum, yang mengacu pada jaringan yang menggabungkan sumber daya seperti GPU dan CPU untuk dapat menyediakan layanan komputasi umum yang berarti tidak ada perbedaan antara pelatihan dan inferensi.
Di ruang Kripto, Gensyn, yang diinvestasikan oleh a16z, mengusulkan jaringan komputasi pelatihan terdesentralisasi.
Prosesnya adalah setelah pengguna mengirimkan tugas kebutuhan pelatihan, platform menganalisanya, mengevaluasi kekuatan komputasi yang diperlukan serta membaginya menjadi sejumlah minimum pekerjaan ML, pada titik ini validator secara berkala mengambil tugas yang dianalisis untuk menghasilkan ambang batas untuk perbandingan bukti pembelajaran downstream.
Setelah tugas memasuki fase pelatihan, itu dieksekusi oleh Solver, yang secara berkala menyimpan bobot model dan indeks respons dari dataset pelatihan serta menghasilkan bukti pembelajaran, dan verifikator juga melakukan pekerjaan komputasi dengan menjalankan ulang beberapa bukti untuk melakukan perhitungan jarak untuk memverifikasi bahwa mereka cocok dengan bukti. Whistleblower melakukan arbitrase berdasarkan program tantangan titik pinpoint berbasis Grafik untuk memeriksa apakah pekerjaan validasi dilakukan dengan benar.
Penyetelan halus lebih mudah dan lebih murah untuk diimplementasikan daripada langsung pra-pelatihan model besar, hanya dengan menyetel ulang model yang telah dilatih sebelumnya dengan kumpulan data tertentu, dan menyesuaikan model untuk tugas tertentu sambil mempertahankan model asli.
Hugging Face dapat diakses sebagai penyedia sumber daya model bahasa pra-terlatih ke platform terdistribusi, pengguna memilih model yang akan disesuaikan sesuai dengan kebutuhan tugas dan kemudian menggunakan GPU dan sumber daya lain yang disediakan oleh jaringan komputasi untuk penyesuaian tugas, yang perlu didasarkan pada kompleksitas tugas untuk menentukan ukuran dataset, kompleksitas model, dan untuk lebih lanjut menentukan kebutuhan akan tingkat sumber daya yang lebih tinggi seperti A100.
Selain Gensyn, platform yang dapat mendukung pra-pelatihan, sebagian besar platform komputasi juga dapat mendukung penyempurnaan.
Dibandingkan dengan pelatihan (pra-pelatihan dan penyetelan halus), yang memerlukan penyetelan parameter model, proses komputasi inferensi melibatkan hanya propagasi maju dan memerlukan daya komputasi yang lebih sedikit. Sebagian besar jaringan komputasi terdesentralisasi saat ini fokus pada layanan inferensi.
Ketika inferensi dilakukan tahap ini sudah merupakan tahap penggunaan model, maka middleware dapat diperkenalkan pada waktu yang tepat:
Kontrak pintar on-chain untuk mendapatkan hasil komputasi AI off-chain:
Lapisan privasi lain dapat ditambahkan ke jaringan komputasi, yang terutama mencakup privasi data dan privasi model, di mana privasi data jauh lebih penting daripada privasi model.
Sebagian besar jaringan komputasi membangun sistem validasi yang berbeda untuk memastikan bahwa sistem berjalan dengan tepat, sementara link adalah bagian yang belum diperkenalkan dalam bidang kecerdasan buatan tradisional.
Peran utama dari bukti ZK adalah 2 poin berikut:
Modulus Labs telah menunjukkan bahwa memungkinkan untuk membuat bukti untuk model 18 juta parameter dalam 60-70 detik menggunakan sistem bukti Plonky dari Polygon. Untuk model-model kecil, memungkinkan menggunakan ZKML pada tahap ini, tetapi biayanya masih signifikan:
Sumber: @ModulusLabs/bab-5-biaya-kecerdasan-da26dbf93307"">https://medium.com/@ModulusLabs/bab-5-biaya-kecerdasan-da26dbf93307
Dengan keterbatasan ZKML yang dijelaskan di atas, OPML adalah alternatifnya. Meskipun lebih lemah daripada ZKML dalam hal keamanan, konsumsi memori dan waktu komputasi buktinya jauh lebih baik daripada ZKML. menurut laporan ORA, terlihat bahwa untuk model 7B-LLaMA yang sama (dengan ukuran model sekitar 26GB) opML dapat diproses dalam 32GB memori, sementara konsumsi memori sirkuit dalam zkML dapat berada pada urutan terabyte atau bahkan petabyte.
Lingkungan Pelaksanaan Terpercaya menyediakan keamanan tingkat perangkat keras dan dapat menjadi alternatif untuk ZKML dan OPML. TEE-proof dihasilkan sebagai hasil dari komputasi internal dalam TEE dan biayanya jauh lebih rendah daripada zk-proof. Selain itu, ukuran bukti TEE biasanya konstan tetap (panjang tanda tangan) dan dengan demikian memiliki keunggulan jejak yang lebih kecil dan biaya validasi on-chain yang lebih rendah.
Selain verifikasi, TEE memiliki keunggulan menjaga data sensitif terisolasi, memastikan bahwa proses atau komputasi eksternal tidak dapat mengakses atau mengubah data di dalamnya.
Proyek yang menggunakan TEE termasuk:
Sumber: https://arxiv.org/pdf/2401.17555,Protokol Marlin
Selain itu, protokol ORA telah mengembangkan opp/ai (Optimistic Privacy-Preserving AI on Blockchain) selain validasi ZKML dan OPML miliknya, dan tidak termasuk dalam tabel perbandingan di atas.
Agen memiliki kemampuan untuk menganalisis informasi yang masuk, mengevaluasi kondisi lingkungan saat ini, dan membuat keputusan. Komposisi agen ditunjukkan dalam gambar berikut, di mana LLM adalah komponen inti, selain itu, diperlukan untuk memberi makanan tepat kepada LLM, dan melalui Memori untuk menyimpan data jangka pendek dan data historis jangka panjang (data eksternal).
Karena tugas-tugas kompleks tidak dapat diselesaikan sekaligus, mereka perlu dibagi menjadi tugas-tugas yang lebih kecil oleh Plan, selain itu Agent juga dapat memanggil API eksternal untuk mendapatkan informasi tambahan, termasuk informasi saat ini, kemampuan eksekusi kode, akses ke sumber informasi properti, dan sebagainya.
Sumber: Survei tentang Agen Otonom Berbasis Model Bahasa Besar
Kemampuan pengambilan keputusan dari Agen tidak mengalami terobosan tertentu sampai munculnya Model Bahasa Besar LLM dalam beberapa tahun terakhir. Sebuah laporan telah mengumpulkan jumlah makalah yang diterbitkan tentang Agen dari tahun 2021 hingga 2023, seperti yang ditunjukkan dalam gambar di bawah ini, pada kenyataannya hanya ada sekitar satu lusin makalah penelitian pada tahun 2021, tetapi ada ratusan makalah yang diterbitkan tentang mereka pada tahun 2023. Makalah tersebut mengkategorikan Agen ke dalam 7 kategori.
Sumber: Survei tentang Agen Otonom Berbasis Model Bahasa Besar
Dalam web3, skenario di mana Agen ada masih terbatas dibandingkan dengan dunia web2, dan saat ini mencakup kliring otomatis, membangun komponen kode (menulis kontrak pintar, menulis sirkuit zk), kontrol risiko real-time, dan menjalankan strategi seperti arbitrase dan pertanian hasil.
Berdasarkan Agen yang berbeda dapat digabungkan/diabstraksikan/diciptakan aplikasi khusus, pada saat yang sama, ada beberapa platform koordinasi yang tersedia bagi pengguna untuk memilih jenis Agen yang digunakan untuk membangun jenis aplikasi tertentu. Namun sebagian besar dari mereka terbatas pada pengembangan Agen.
Beberapa pengembang akan menggunakan beberapa Kripto untuk membantu platform mereka menjadi lebih cerdas, misalnya, dalam proyek keamanan, pembelajaran mesin digunakan untuk membedakan kerentanan serangan; protokol DeFi menggunakan Kripto untuk membangun alat pemantauan real-time; dan platform analitik data juga menggunakan Kripto untuk membantu membersihkan dan menganalisis data.
Dalam artikel ini, kami ingin menyoroti 3 poin berikut:
Dalam kripto, sejumlah jaringan komputasi muncul secara tak terhindarkan membuat pengguna merasa bahwa GPU adalah AI, tetapi seperti yang dianalisis dalam bagian sebelumnya, ada trilema yang mustahil dari jaringan komputasi, yaitu daya komputasi, bandwidth/komunikasi, dan memori, serta tiga jenis strategi paralel yang digunakan dalam pelatihan model, seperti paralel data, paralel tensor, dan paralel pipeline, semuanya menunjukkan kontrol dan keseimbangan yang diberlakukan pada pengaturan kerangka jaringan komputasi.
Alasan di balik fakta bahwa model dan data yang sama tidak selalu menghasilkan hasil yang sama adalah penggunaan komputasi floating point. Perbedaan dalam komputasi juga berdampak pada konstruksi jaringan komputasi.
AI Agents baru saja mulai menunjukkan lebih banyak kegunaan dalam beberapa tahun terakhir, dan kami berharap lebih banyak Agen muncul di pasar. Namun, bagaimana Agen bekerja di dunia kripto atau cara menemukan insentif token yang tepat tetap menjadi tantangan.
Artikel ini diambil dari[medium],原文标题"AI into Crypto",著作权归属原作者[HashKey Capital ],如对转载有异议,请联系Tim Gate LearnTim akan menangani sesuai dengan prosedur terkait secepat mungkin.
免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。
Versi bahasa lain dari artikel diterjemahkan oleh tim Gate Learn, jika tidak disebutkanGate.ioDalam hal ini, tidak diperbolehkan untuk menyalin, menyebarkan, atau menjiplak artikel yang telah diterjemahkan.
Peluncuran ChatGPT pada November 2022 telah membuka mata berbagai pemain industri terhadap model bahasa besar AI. Dinamika frenetik ini merembes ke ruang Kripto, dan artikel ini bertujuan untuk memperkenalkan perkembangan AI, statusnya saat ini, dan industri yang muncul dari kombinasi AI+Kripto.
Machine learning (ML) adalah teknologi dengan kemampuan pembelajaran empiris, yang belajar untuk membedakan hewan, terjemahan bahasa, dan tugas-tugas khusus lainnya dengan belajar dari kumpulan data besar. Machine learning termasuk dalam cara paling praktis untuk mewujudkan kecerdasan buatan saat ini, tergantung pada apakah data yang dipelajari berlabel dan fitur-fiturnya, dapat dibagi menjadi pembelajaran terawasi dan pembelajaran tanpa pengawasan.
Ada banyak jenis model yang dapat menyelesaikan pembelajaran terawasi, termasuk model berbasis pohon, model grafik, dan jaringan saraf yang baru muncul. Dengan perkembangan cepat daya komputasi dan data, pembelajaran mendalam telah lebih dikembangkan berdasarkan arsitektur jaringan saraf. Arsitektur pembelajaran mendalam saat ini umumnya mencakup, tetapi tidak terbatas pada, CNN, RNN, dan mekanisme perhatian.
Klasifikasi pembelajaran mesin, sumber: Kapital HashKey
Berbagai jaringan pembelajaran mendalam memiliki arsitektur dasar dari lapisan input, lapisan tersembunyi, dan lapisan output, lapisan input biasanya merupakan teks, video, audio, dan data lain setelah diproses "tokenize/embedding". Lapisan tersembunyi memiliki desain yang berbeda (bentuk model) tergantung pada kumpulan data dan tujuan tugas, seperti yang ditunjukkan dalam tabel.
Jenis-jenis Jaringan Saraf, Sumber: Diatur oleh HashKey Capital
30 tahun pengembangan jaringan syaraf, sumber: diselenggarakan oleh HashKey Capital
Pelatihan jaringan saraf pertama kali bermula pada pertengahan tahun 1980-an ketika Jordan melatih sebuah jaringan saraf untuk belajar pola-pola sekuensial di makalahnya tahun 1986.Urutan Seri: Pendekatan Pemrosesan Terdistribusi ParalelJaringan kecil hanya memiliki beberapa neuron.
Pada tahun 1990-an, Jeffrey Ehrman memperluas jaringan saraf menjadi jaringan 50 neuron dengan penemuan bahwa jaringan secara spasial mengelompokkan kata-kata berdasarkan maknanya. Misalnya, itu memisahkan kata benda benda mati dan hidup, dan dalam dua kategori ini, objek hidup dibagi menjadi kategori manusia dan non-manusia, dan benda mati dikategorikan sebagai dapat rusak dan dapat dimakan. Hal ini menunjukkan bahwa jaringan memiliki kemampuan untuk belajar penjelasan hierarkis.
Dia juga mengamati bahwa kata-kata dapat diwakili sebagai titik-titik dalam ruang berdimensi tinggi, dan kemudian urutan kata-kata atau kalimat dapat dilihat sebagai sebuah jalur. Terobosan besar ini memungkinkan dataset teks untuk dijadikan digital, divectorkan, dan diproses oleh komputer.
Sumber: http://3b1b.co/neural-networks
Pada tahun 2011, para peneliti Confluence melatih jaringan yang lebih besar melibatkan ribuan neuron dan jutaan koneksi, dan ditemukan bottleneck dalam studi kemampuan jaringan untuk mempertahankan konteks yang koheren selama urutan panjang.
Pada tahun 2017, OpenAI melanjutkan karya Kathy dengan pelatihan pada 82 juta ulasan Amazon di mana neuron emosional ditemukan. Neuron seperti itu secara sempurna mengkategorikan emosi teks.
Sumber: Belajar Menghasilkan Ulasan dan Menemukan Sentimen
Mengenai batasan ukuran konteks, makalah 2017 Attention Is All You Need menyajikan solusi. Makalah tersebut menciptakan jaringan lapisan dinamis yang menyesuaikan bobot koneksi berdasarkan konteks jaringan. Ini bekerja dengan memungkinkan kata-kata dalam masukan untuk melihat, membandingkan kata-kata lain, dan menemukan yang paling relevan. Semakin dekat kata-kata ini dalam konsep, semakin dekat mereka dalam ruang dan dapat memiliki bobot koneksi yang lebih tinggi. Namun, makalah hanya berfokus pada masalah terjemahan.
Oleh karena itu, para peneliti OpenAI mencoba arsitektur transformer yang lebih kuat dan meluncurkan GPT-3 pada tahun 2020, yang menarik perhatian luas dari industri di seluruh dunia, kali ini dengan jaringan mencapai 175 miliar parameter, 96 lapisan, dan jendela konteks 1.000 kata.
Ambil gambar digital berukuran 28x28 piksel berikut sebagai contoh, neuron sesuai dengan setiap piksel dari gambar masukan 28x28, total 784 neuron, angka di dalam neuron adalah nilai aktivasi, yang berkisar dari 0-1.
Gambar digital berukuran 28x28 piksel, Sumber: http://3b1b.co/neural-networks
784 neuron ini membentuk lapisan input dari jaringan. Lapisan terakhir adalah lapisan output, yang berisi sepuluh neuron yang mewakili angka 0–9, lagi dengan nilai aktivasi berkisar dari 0–1. Lapisan tengah adalah lapisan tersembunyi, di mana nilai aktivasi dari lapisan sebelumnya menentukan nilai aktivasi dari lapisan berikutnya saat jaringan syaraf beroperasi.
Kedalaman pembelajaran mendalam terletak pada kenyataan bahwa model mempelajari banyak “lapisan” transformasi, masing-masing dengan representasi yang berbeda. Seperti yang ditunjukkan pada gambar di bawah, misalnya, pada 9, lapisan-lapisan yang berbeda dapat mengenali fitur-fitur yang berbeda. Semakin dekat lapisan input dengan tingkat rincian data yang lebih rendah, semakin dekat lapisan output dengan konsep-konsep yang lebih spesifik yang dapat digunakan untuk membedakan.
Sumber: http://3b1b.co/jaringan-syaraf
Saat model menjadi lebih besar, lapisan tersembunyi di tengah melibatkan ratusan miliar bobot per lapisan, dan itulah bobot dan bias yang benar-benar menentukan apa yang dilakukan jaringan. Proses pembelajaran mesin adalah proses menemukan parameter yang tepat, yang merupakan bobot dan bias.
Arsitektur transformer yang digunakan dalam GPT, sebuah model bahasa besar, memiliki lapisan tersembunyi intermediate yang terdiri dari 96 lapisan modul decoder, di mana GPT1, GPT2, dan GPT3 masing-masing memiliki 12, 48, dan 96 lapisan. Decoder tersebut pada gilirannya berisi komponen jaringan saraf perhatian dan umpan balik maju.
Proses komputasi atau pembelajaran melibatkan menentukan fungsi biaya (atau fungsi kerugian) yang menjumlahkan kuadrat perbedaan antara prediksi output yang dihitung jaringan dan nilai sebenarnya, dan ketika jumlahnya kecil, model berperforma dalam batas yang dapat diterima.
Pelatihan dimulai dengan merandom parameter jaringan dan menyelesaikan parameter model jaringan dengan menemukan parameter yang meminimalkan fungsi biaya. Cara untuk mengkonvergensi fungsi biaya adalah dengan gradien turun, di mana derajat dampak setiap perubahan parameter pada biaya/kerugian diperiksa, dan kemudian parameter disesuaikan sesuai dengan derajat dampak tersebut.
Proses perhitungan gradien parameter memperkenalkan propagasi mundur atau backpropagation, yang menjelajahi jaringan dari lapisan output ke lapisan input secara terbalik sesuai dengan aturan rantai. Algoritma juga memerlukan penyimpanan variabel-variabel perantara (turunan parsial) yang diperlukan untuk menghitung gradien.
Ada tiga faktor utama yang memengaruhi kinerja model bahasa besar AI selama pelatihannya, yaitu jumlah parameter model, ukuran dataset, dan jumlah komputasi.
Sumber: Laporan OpenAI, Hukum Skala untuk Model Bahasa Neural
Hal ini konsisten dengan perkembangan dataset dan komputer (daya komputasi) secara nyata, namun juga terlihat dalam tabel di bawah ini bahwa daya komputasi tumbuh lebih cepat daripada data yang tersedia, sementara memori adalah yang paling lambat untuk berkembang.
Pengembangan dataset, memori, dan daya komputasi, Sumber: https://github.com/d2l-ai
Dihadapkan dengan model besar, overfitting cenderung terjadi ketika data pelatihan terlalu kecil, dan secara umum, akurasi model yang lebih kompleks meningkat seiring dengan peningkatan jumlah data. Mengenai kebutuhan data yang diperlukan untuk model besar, dapat diputuskan berdasarkan aturan 10, yang menyarankan bahwa jumlah data harus 10 kali lipat dari parameter, tetapi beberapa algoritma deep learning menerapkan 1:1.
Pembelajaran yang terawasi memerlukan penggunaan dataset yang berlabel + fitur untuk mendapatkan hasil yang valid.
Sumber: Kumpulan Data Kategorisasi Pakaian Fashion-MNIST
Meskipun terjadi peningkatan data yang cepat selama satu atau dua dekade terakhir dan ketersediaan set data open-source saat ini termasuk Kaggle, Azure, AWS, Google database, dll., jumlah data yang terbatas, langka, dan mahal secara bertahap menjadi hambatan untuk pengembangan AI akibat masalah privasi, peningkatan parameter model, dan reproduktibilitas data. Berbagai solusi data yang berbeda diusulkan bertujuan untuk mengurangi masalah ini.
Teknik Augmentasi Data mungkin menjadi solusi yang efektif dengan memberikan data yang tidak mencukupi ke model tanpa perlu mendapatkan sampel baru, seperti penskalaan, rotasi, refleksi, pemangkasan, translasi, penambahan noise Gaussian, mixup, dll.
Data sintetis adalah pilihan lain. Data sintetis adalah data yang dapat dihasilkan secara artifisial oleh simulasi komputer atau algoritma dengan atau tanpa kumpulan data referensi sebelumnya. Mengenai pengembangan alat untuk menghasilkan data sintetis, Ian J. Goodfellow menciptakan Jaringan Adversarial Generatif (GAN), yang merupakan arsitektur pembelajaran mendalam.
Ini melatih dua jaringan saraf untuk bersaing satu sama lain yang dapat menghasilkan data baru, lebih realistis dari dataset pelatihan yang diberikan. Arsitektur ini mendukung penghasilan gambar, mengisi informasi yang hilang, menghasilkan data pelatihan untuk model lain, menghasilkan model 3D berdasarkan data 2D, dan lainnya.
Masih terlalu awal dalam pengembangan bidang ini, dengan sebagian besar perusahaan yang ada yang melakukan data sintetis didirikan pada tahun 2021 atau 2022, dan beberapa pada tahun 2023.
Keadaan pendanaan untuk perusahaan data sintetis. Sumber: https://frontline.vc/blog/data-sintetis/
Proses pelatihan AI melibatkan sejumlah besar operasi matriks, mulai dari embedding kata, matriks transformer QKV, hingga operasi softmax, dan sebagainya melalui operasi matriks, seluruh parameter model juga dijalankan dalam matriks.
contoh database vektor, Sumber : https://x.com/ProfTomYeh/status/1795076707386360227
Model-model besar membawa permintaan perangkat keras komputer yang besar, yang secara utama dikategorikan menjadi pelatihan dan inferensi.
Pelatihan pra dan penyetelan halus dapat lebih dibagi di bawah pelatihan. Seperti yang disebutkan sebelumnya, membangun model jaringan pertama kali memerlukan inisialisasi acak parameter, kemudian melatih jaringan dan terus-menerus mengatur parameter hingga kerugian jaringan mencapai rentang yang dapat diterima. Perbedaan antara pre-training dan fine-tuning adalah bahwa
pelatihan awal dimulai dengan setiap lapisan parameter dari inisialisasi acak, sementara beberapa lapisan penyesuaian halus dapat langsung menggunakan parameter model yang sebelumnya dilatih sebagai parameter inisialisasi untuk tugas ini (membekukan parameter lapisan sebelumnya) dan beraksi pada kumpulan data tertentu.
Sumber:https://d2l.ai/chapter_computer-vision/fine-tuning.html
Pre-training dan fine-tuning keduanya melibatkan perubahan parameter model, yang pada akhirnya menghasilkan optimisasi model atau parameter, sementara inferensi adalah perhitungan inferensi dengan memuat model setelah masukan pengguna dan pada akhirnya mendapatkan umpan balik dan hasil keluaran.
Pelatihan pra, penyesuaian halus, dan inferensi diurutkan dari yang terbesar hingga yang terkecil dalam hal kebutuhan komputer mereka. Tabel berikut membandingkan kebutuhan perangkat keras komputer untuk pelatihan dan inferensi. Kebutuhan perangkat keras komputer keduanya secara signifikan berbeda dalam hal daya komputasi, memori, dan komunikasi / bandwidth karena perbedaan dalam proses komputasi dan persyaratan akurasi, dan pada saat yang sama ada Trilema Mustahil dalam daya komputasi, memori, dan komunikasi/bandwidth.
Pengukuran statistik dalam tabel ini didasarkan pada pemrosesan model tunggal satu token, satu parameter.FLOPs: operasi titik mengambang per detik, jumlah perhitungan matriks. \
*DP, TP, PP: data parallel, tensor parallel, pipeline parallel.
Perbandingan perangkat keras komputer antara pelatihan dan inferensi, Sumber: Diatur oleh HashKey Capital
Proses pelatihan jaringan saraf memerlukan pergantian antara propagasi maju dan mundur, menggunakan gradien yang diberikan oleh propagasi mundur untuk memperbarui parameter model. Inferensi, di sisi lain, hanya memerlukan propagasi maju. Perbedaan ini menjadi faktor pengaruh yang secara utama membedakan persyaratan sumber daya perangkat keras komputer untuk pelatihan dan inferensi.
Dalam hal daya komputasi, seperti yang ditunjukkan dalam tabel, terdapat hubungan perkalian sederhana antara jumlah parameter model dan konsumsi daya komputasi, dengan pelatihan membutuhkan 6-8 operasi floating-point dan inferensi membutuhkan 2. Hal ini disebabkan oleh backpropagation yang terlibat dalam pelatihan, yang memerlukan dua kali lipat daya komputasi dari propagasi maju, dan oleh karena itu konsumsi daya komputasi pelatihan jauh lebih tinggi daripada inferensi.
Dalam hal memori, backpropagation yang digunakan untuk pelatihan menggunakan kembali nilai-nilai intermediet yang disimpan dalam propagasi maju untuk menghindari perhitungan ulang. Oleh karena itu, proses pelatihan perlu menjaga nilai-nilai intermediet hingga backpropagation selesai. Konsumsi memori yang dihasilkan selama pelatihan terutama berisi parameter model, nilai aktivasi intermediet yang dihasilkan selama komputasi maju, gradien yang dihasilkan oleh komputasi propagasi mundur, dan keadaan optimizer. Tahap inferensi tidak memerlukan backpropagasi, dan tidak memerlukan keadaan optimizer dan gradien, dll., dan penggunaan konsumsi memori-nya jauh lebih kecil daripada pelatihan.
Dalam hal komunikasi/lebar pita, untuk meningkatkan kinerja pelatihan AI, pelatihan model mainstream biasanya menggunakan tiga strategi paralel: paralel data, paralel tensor, dan paralel pipeline.
Sumber: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/
Untuk ketiga strategi ini, proyeksi menunjukkan bahwa frekuensi komunikasi TP adalah yang terbesar, volume komunikasi tertinggi, dan terkait dengan jumlah token, lebar model, dan jumlah lapisan. Volume dan frekuensi komunikasi PP lebih kecil daripada TP, dan terkait dengan jumlah token, dan lebar model. Volume dan frekuensi komunikasi DP adalah yang terkecil dan independen dari token input.
Engsel sumber daya perangkat keras komputer dalam model besar terutama terbatas oleh daya komputasi, bandwidth/komunikasi, dan memori, dan ada pemeriksaan dan keseimbangan di antara ketiganya, mengakibatkan masalah Trilema Mustahil. Sebagai contoh, karena bottleneck komunikasi, kinerja kluster tidak dapat ditingkatkan dengan hanya mengoptimalkan daya komputer tunggal.
Oleh karena itu, meskipun arsitektur paralel digunakan untuk mempercepat kinerja cluster, sebagian besar arsitektur paralel sebenarnya mengorbankan komunikasi atau penyimpanan demi daya komputasi.
Mengorbankan komunikasi dan penyimpanan untuk daya komputasi:
Di PP, jika satu GPU ditugaskan ke setiap lapisan transformer, meskipun peningkatan daya komputasi dalam satuan waktu, kebutuhan komunikasi antara lapisan juga meningkat, menyebabkan peningkatan volume data dan latensi. Selain itu, kebutuhan penyimpanan state intermediate untuk propagasi maju meningkat dengan sangat cepat.
Mengorbankan komunikasi untuk daya komputasi:
Dalam TP, setiap transformer dibongkar untuk komputasi paralel. Karena transformer terdiri dari dua komponen (Attention head dan jaringan feed-forward), tugas dapat dibagi dalam lapisan untuk kedua Attention head atau jaringan saraf feed-forward. Pendekatan TP ini dapat mengurangi masalah hierarki PP yang terlalu banyak karena GPU tidak mampu menyesuaikan model. Namun, pendekatan ini masih memiliki overhead komunikasi yang serius.
Dalam makalah ini, kami percaya bahwa saat ini ada beberapa kategori utama AI dalam bidang kripto berikut:
Sumber: Diatur oleh HashKey Capital
Seperti yang disebutkan sebelumnya, tiga komponen paling kritis dalam AI adalah data, model, dan kekuatan komputasi, yang berfungsi sebagai infrastruktur untuk memberdayakan Kripto AI.
Kombinasi mereka sebenarnya terbentuk menjadi jaringan komputasi, dengan sejumlah besar perangkat lunak tengah muncul dalam proses komputasi agar efisien serta lebih sesuai dengan semangat kripto. Di hulu adalah Agen berdasarkan hasil yang dapat diverifikasi ini, yang lebih lanjut dapat melayani peran yang berbeda untuk berbagai audiens pengguna.
Diagram alur lain dapat digunakan untuk mengekspresikan ekologi dasar Kripto AI sebagai berikut:
Diagram aliran ekologi, sumber: disusun oleh HashKey Capital
Tentu saja, mekanisme tokenomik diperlukan di ruang kripto untuk mendorong koordinasi partisipasi berbagai pemain.
Untuk set data, seseorang dapat memilih antara sumber data publik atau sumber data pribadi khusus mereka sendiri.
Sumber Data:
Platform Data Sintetis:
Lainnya:
Platform layanan penandaan data, dengan menugaskan tugas pesanan penandaan kepada pekerja yang berbeda, para pekerja ini dapat mendapatkan insentif token yang sesuai setelah menyelesaikan tugas seperti Kripto, Public AI, dan sebagainya. Namun, permasalahan saat ini adalah bahwa ada lebih banyak orang yang melakukan penandaan data daripada data, sementara perusahaan AI memiliki pemasok penandaan data yang stabil untuk kebutuhan data yang telah ditandai mereka, karena keberadaan lengket yang membuat keinginan mereka untuk beralih ke platform terdesentralisasi menjadi lemah. Platform-platform ini mungkin hanya dapat memperoleh alokasi bagian yang tersisa dari pesanan dari pemasok penandaan data.
Jaringan komputasi umum, yang mengacu pada jaringan yang menggabungkan sumber daya seperti GPU dan CPU untuk dapat menyediakan layanan komputasi umum yang berarti tidak ada perbedaan antara pelatihan dan inferensi.
Di ruang Kripto, Gensyn, yang diinvestasikan oleh a16z, mengusulkan jaringan komputasi pelatihan terdesentralisasi.
Prosesnya adalah setelah pengguna mengirimkan tugas kebutuhan pelatihan, platform menganalisanya, mengevaluasi kekuatan komputasi yang diperlukan serta membaginya menjadi sejumlah minimum pekerjaan ML, pada titik ini validator secara berkala mengambil tugas yang dianalisis untuk menghasilkan ambang batas untuk perbandingan bukti pembelajaran downstream.
Setelah tugas memasuki fase pelatihan, itu dieksekusi oleh Solver, yang secara berkala menyimpan bobot model dan indeks respons dari dataset pelatihan serta menghasilkan bukti pembelajaran, dan verifikator juga melakukan pekerjaan komputasi dengan menjalankan ulang beberapa bukti untuk melakukan perhitungan jarak untuk memverifikasi bahwa mereka cocok dengan bukti. Whistleblower melakukan arbitrase berdasarkan program tantangan titik pinpoint berbasis Grafik untuk memeriksa apakah pekerjaan validasi dilakukan dengan benar.
Penyetelan halus lebih mudah dan lebih murah untuk diimplementasikan daripada langsung pra-pelatihan model besar, hanya dengan menyetel ulang model yang telah dilatih sebelumnya dengan kumpulan data tertentu, dan menyesuaikan model untuk tugas tertentu sambil mempertahankan model asli.
Hugging Face dapat diakses sebagai penyedia sumber daya model bahasa pra-terlatih ke platform terdistribusi, pengguna memilih model yang akan disesuaikan sesuai dengan kebutuhan tugas dan kemudian menggunakan GPU dan sumber daya lain yang disediakan oleh jaringan komputasi untuk penyesuaian tugas, yang perlu didasarkan pada kompleksitas tugas untuk menentukan ukuran dataset, kompleksitas model, dan untuk lebih lanjut menentukan kebutuhan akan tingkat sumber daya yang lebih tinggi seperti A100.
Selain Gensyn, platform yang dapat mendukung pra-pelatihan, sebagian besar platform komputasi juga dapat mendukung penyempurnaan.
Dibandingkan dengan pelatihan (pra-pelatihan dan penyetelan halus), yang memerlukan penyetelan parameter model, proses komputasi inferensi melibatkan hanya propagasi maju dan memerlukan daya komputasi yang lebih sedikit. Sebagian besar jaringan komputasi terdesentralisasi saat ini fokus pada layanan inferensi.
Ketika inferensi dilakukan tahap ini sudah merupakan tahap penggunaan model, maka middleware dapat diperkenalkan pada waktu yang tepat:
Kontrak pintar on-chain untuk mendapatkan hasil komputasi AI off-chain:
Lapisan privasi lain dapat ditambahkan ke jaringan komputasi, yang terutama mencakup privasi data dan privasi model, di mana privasi data jauh lebih penting daripada privasi model.
Sebagian besar jaringan komputasi membangun sistem validasi yang berbeda untuk memastikan bahwa sistem berjalan dengan tepat, sementara link adalah bagian yang belum diperkenalkan dalam bidang kecerdasan buatan tradisional.
Peran utama dari bukti ZK adalah 2 poin berikut:
Modulus Labs telah menunjukkan bahwa memungkinkan untuk membuat bukti untuk model 18 juta parameter dalam 60-70 detik menggunakan sistem bukti Plonky dari Polygon. Untuk model-model kecil, memungkinkan menggunakan ZKML pada tahap ini, tetapi biayanya masih signifikan:
Sumber: @ModulusLabs/bab-5-biaya-kecerdasan-da26dbf93307"">https://medium.com/@ModulusLabs/bab-5-biaya-kecerdasan-da26dbf93307
Dengan keterbatasan ZKML yang dijelaskan di atas, OPML adalah alternatifnya. Meskipun lebih lemah daripada ZKML dalam hal keamanan, konsumsi memori dan waktu komputasi buktinya jauh lebih baik daripada ZKML. menurut laporan ORA, terlihat bahwa untuk model 7B-LLaMA yang sama (dengan ukuran model sekitar 26GB) opML dapat diproses dalam 32GB memori, sementara konsumsi memori sirkuit dalam zkML dapat berada pada urutan terabyte atau bahkan petabyte.
Lingkungan Pelaksanaan Terpercaya menyediakan keamanan tingkat perangkat keras dan dapat menjadi alternatif untuk ZKML dan OPML. TEE-proof dihasilkan sebagai hasil dari komputasi internal dalam TEE dan biayanya jauh lebih rendah daripada zk-proof. Selain itu, ukuran bukti TEE biasanya konstan tetap (panjang tanda tangan) dan dengan demikian memiliki keunggulan jejak yang lebih kecil dan biaya validasi on-chain yang lebih rendah.
Selain verifikasi, TEE memiliki keunggulan menjaga data sensitif terisolasi, memastikan bahwa proses atau komputasi eksternal tidak dapat mengakses atau mengubah data di dalamnya.
Proyek yang menggunakan TEE termasuk:
Sumber: https://arxiv.org/pdf/2401.17555,Protokol Marlin
Selain itu, protokol ORA telah mengembangkan opp/ai (Optimistic Privacy-Preserving AI on Blockchain) selain validasi ZKML dan OPML miliknya, dan tidak termasuk dalam tabel perbandingan di atas.
Agen memiliki kemampuan untuk menganalisis informasi yang masuk, mengevaluasi kondisi lingkungan saat ini, dan membuat keputusan. Komposisi agen ditunjukkan dalam gambar berikut, di mana LLM adalah komponen inti, selain itu, diperlukan untuk memberi makanan tepat kepada LLM, dan melalui Memori untuk menyimpan data jangka pendek dan data historis jangka panjang (data eksternal).
Karena tugas-tugas kompleks tidak dapat diselesaikan sekaligus, mereka perlu dibagi menjadi tugas-tugas yang lebih kecil oleh Plan, selain itu Agent juga dapat memanggil API eksternal untuk mendapatkan informasi tambahan, termasuk informasi saat ini, kemampuan eksekusi kode, akses ke sumber informasi properti, dan sebagainya.
Sumber: Survei tentang Agen Otonom Berbasis Model Bahasa Besar
Kemampuan pengambilan keputusan dari Agen tidak mengalami terobosan tertentu sampai munculnya Model Bahasa Besar LLM dalam beberapa tahun terakhir. Sebuah laporan telah mengumpulkan jumlah makalah yang diterbitkan tentang Agen dari tahun 2021 hingga 2023, seperti yang ditunjukkan dalam gambar di bawah ini, pada kenyataannya hanya ada sekitar satu lusin makalah penelitian pada tahun 2021, tetapi ada ratusan makalah yang diterbitkan tentang mereka pada tahun 2023. Makalah tersebut mengkategorikan Agen ke dalam 7 kategori.
Sumber: Survei tentang Agen Otonom Berbasis Model Bahasa Besar
Dalam web3, skenario di mana Agen ada masih terbatas dibandingkan dengan dunia web2, dan saat ini mencakup kliring otomatis, membangun komponen kode (menulis kontrak pintar, menulis sirkuit zk), kontrol risiko real-time, dan menjalankan strategi seperti arbitrase dan pertanian hasil.
Berdasarkan Agen yang berbeda dapat digabungkan/diabstraksikan/diciptakan aplikasi khusus, pada saat yang sama, ada beberapa platform koordinasi yang tersedia bagi pengguna untuk memilih jenis Agen yang digunakan untuk membangun jenis aplikasi tertentu. Namun sebagian besar dari mereka terbatas pada pengembangan Agen.
Beberapa pengembang akan menggunakan beberapa Kripto untuk membantu platform mereka menjadi lebih cerdas, misalnya, dalam proyek keamanan, pembelajaran mesin digunakan untuk membedakan kerentanan serangan; protokol DeFi menggunakan Kripto untuk membangun alat pemantauan real-time; dan platform analitik data juga menggunakan Kripto untuk membantu membersihkan dan menganalisis data.
Dalam artikel ini, kami ingin menyoroti 3 poin berikut:
Dalam kripto, sejumlah jaringan komputasi muncul secara tak terhindarkan membuat pengguna merasa bahwa GPU adalah AI, tetapi seperti yang dianalisis dalam bagian sebelumnya, ada trilema yang mustahil dari jaringan komputasi, yaitu daya komputasi, bandwidth/komunikasi, dan memori, serta tiga jenis strategi paralel yang digunakan dalam pelatihan model, seperti paralel data, paralel tensor, dan paralel pipeline, semuanya menunjukkan kontrol dan keseimbangan yang diberlakukan pada pengaturan kerangka jaringan komputasi.
Alasan di balik fakta bahwa model dan data yang sama tidak selalu menghasilkan hasil yang sama adalah penggunaan komputasi floating point. Perbedaan dalam komputasi juga berdampak pada konstruksi jaringan komputasi.
AI Agents baru saja mulai menunjukkan lebih banyak kegunaan dalam beberapa tahun terakhir, dan kami berharap lebih banyak Agen muncul di pasar. Namun, bagaimana Agen bekerja di dunia kripto atau cara menemukan insentif token yang tepat tetap menjadi tantangan.
Artikel ini diambil dari[medium],原文标题"AI into Crypto",著作权归属原作者[HashKey Capital ],如对转载有异议,请联系Tim Gate LearnTim akan menangani sesuai dengan prosedur terkait secepat mungkin.
免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。
Versi bahasa lain dari artikel diterjemahkan oleh tim Gate Learn, jika tidak disebutkanGate.ioDalam hal ini, tidak diperbolehkan untuk menyalin, menyebarkan, atau menjiplak artikel yang telah diterjemahkan.