Model alas generasi ketiga yang dikembangkan sendiri ChatGLM3 diluncurkan hari ini!
Ini adalah optimalisasi lain dari model dasar ChatGLM oleh tim AI Zhipu sejak peluncuran model generasi kedua pada bulan Juni.
Selain itu, pada China Computer Conference (CNCC) 2023 pada 27 Oktober, Zhipu AI juga membuka sumber ChatGLM3-6B (32k), CogVLM-17B multimodal, dan agen AgentLM.
Setelah merilis seri model ChatGLM3, Zhipu menjadi satu-satunya perusahaan di China yang telah membandingkan lini produk model lengkap OpenAI.
Asisten AI generatif Zhipu Qingyan juga telah menjadi produk model skala besar pertama dengan kemampuan interaksi kode di China.
Model ini sepenuhnya dikembangkan sendiri, beradaptasi dengan chip domestik, dengan kinerja yang lebih kuat dan ekosistem sumber yang lebih terbuka.
Sebagai perusahaan pertama yang memasuki penelitian model skala besar, Zhipu AI adalah yang pertama mengirimkan makalah!
Selain itu, Zhipu AI telah menyelesaikan total lebih dari 2,5 miliar yuan dalam pembiayaan tahun ini, Meituan, Ant, Alibaba, Tencent ... Daftar investor mewah semuanya menunjukkan kepercayaan kuat industri pada Zhipu AI.
Bertujuan untuk peningkatan teknis GPT-4V
Saat ini, model visi multimodal GPT-4V telah menunjukkan kemampuan pengenalan gambar yang kuat.
Pada saat yang sama, bertujuan untuk GPT-4V, Zhipu AI juga secara iteratif meningkatkan kemampuan ChatGLM3 lainnya kali ini. Diantaranya, model pemahaman multimodal CogVLM dapat mencoba memahami dan menyegarkan 10+ dataset evaluasi grafik dan teks standar internasional SOTA. Saat ini, CogVLM-17B adalah open source.
Code Interpreter dapat menghasilkan dan mengeksekusi kode sesuai dengan kebutuhan pengguna, secara otomatis menyelesaikan tugas-tugas kompleks seperti analisis data dan pemrosesan file.
Pencarian web meningkatkan WebGLM, yang secara otomatis dapat menemukan informasi yang relevan di Internet sesuai dengan pertanyaan, dan menyediakan tautan ke literatur atau artikel terkait referensi saat menjawab.
Selain itu, kemampuan semantik dan logis ChatGLM3 juga telah sangat ditingkatkan.
Versi 6B Sumber Terbuka Langsung
Perlu disebutkan bahwa setelah ChatGLM3 dirilis, Zhipu AI langsung membuka sumber model parameter 6B ke komunitas.
Hasil evaluasi menunjukkan bahwa dibandingkan dengan ChatGLM 2 dan dibandingkan dengan model domestik dengan ukuran yang sama, ChatGLM3-6B menempati peringkat pertama dalam 9 dari 44 tes dataset publik Cina dan Inggris.
MMLU meningkat sebesar 36%, C sebesar 33%, GSM8K sebesar 179%, dan BBH sebesar 126%.
Versi 32k open-source-nya, ChatGLM3-6B-32K, berkinerja terbaik di LongBench.
Selain itu, ini adalah "teknologi inferensi dinamis + pengoptimalan memori video yang efisien" terbaru yang membuat kerangka inferensi saat ini lebih efisien di bawah kondisi perangkat keras dan model yang sama.
Dibandingkan dengan implementasi open source terbaik saat ini, dibandingkan dengan vLLM yang diluncurkan oleh University of Berkeley dan versi terbaru dari Hugging Face TGI, kecepatan inferensi meningkat 2-3 kali lipat, dan biaya inferensi berkurang 1 kali, dengan hanya 0,5 poin per seribu token, yang merupakan biaya terendah.
AgentTuning yang dikembangkan sendiri, aktivasi kemampuan agen
Yang lebih mengejutkan lagi adalah ChatGLM3 juga membawa kemampuan agen baru.
Zhipu AI berharap model besar dapat berkomunikasi lebih baik dengan alat eksternal melalui API, dan bahkan mewujudkan interaksi model besar melalui agen.
Dengan mengintegrasikan teknologi AgentTuning yang dikembangkan sendiri, kemampuan agen cerdas dari model dapat diaktifkan, terutama dalam hal perencanaan dan pelaksanaan cerdas, yang 1000% lebih tinggi daripada ChatGLM 2.
Pada AgentBench terbaru, ChatGLM3-turbo mendekati GPT-3.5.
Pada saat yang sama, AgentLM juga terbuka untuk komunitas open source. Apa yang diharapkan tim AI Zhipu adalah membuat model sumber terbuka mencapai atau bahkan melampaui kemampuan agen dari model sumber tertutup.
Ini berarti bahwa agen akan memungkinkan dukungan asli model besar domestik untuk skenario kompleks seperti "pemanggilan alat, eksekusi kode, permainan, operasi basis data, pencarian grafik pengetahuan dan inferensi, dan sistem operasi".
1.5B/3B dirilis pada saat yang sama, ponsel dapat berjalan
Ingin menjalankan ChatGLM di ponsel Anda? OKE!
Kali ini, ChatGLM3 juga meluncurkan model uji terminal yang dapat digunakan pada ponsel, dengan dua parameter: 1.5B dan 3B.
Ini dapat mendukung berbagai ponsel termasuk Vivo, Xiaomi, Samsung, dan platform dalam kendaraan, dan bahkan mendukung inferensi chip CPU pada platform seluler, dengan kecepatan hingga 20 token / s.
Dalam hal akurasi, kinerja model 1.5B dan 3B mendekati model ChatGLM2-6B dalam evaluasi benchmark publik, jadi lanjutkan dan cobalah!
Generasi baru "Zhipu Qingyan" diluncurkan sepenuhnya
Sama seperti ChatGPT yang memiliki model GPT-4 yang kuat di belakangnya, asisten AI generatif "Zhipu Qingyan" dari tim AI Zhipu juga diberkati oleh ChatGLM3.
Setelah demonstrasi siaran langsung tim ini, fungsinya langsung diluncurkan, dan yang utama adalah ketulusan!
Alamat tes:
Penerjemah Kode
Sebagai salah satu plugin paling populer untuk ChatGPT, Advanced Data Analysis (sebelumnya Code Interpreter) dapat menganalisis masalah dengan pemikiran yang lebih matematis berdasarkan input bahasa alami, dan menghasilkan kode yang sesuai pada saat yang bersamaan.
Sekarang, dengan dukungan ChatGLM3 yang baru ditingkatkan, "Zhipu Qingyan" telah menjadi produk model skala besar pertama dengan kemampuan Analisis Data Tingkat Lanjut di China, yang dapat mendukung pemrosesan gambar, komputasi matematika, analisis data, dan skenario penggunaan lainnya.
Romansa pria sains dan teknik mungkin hanya dipahami oleh "Zhipu Qingyan".
Meskipun CEO Zhang Peng melakukan pertunjukan langsung untuk menarik "hati merah" terbalik, tetapi coba lagi, dan hasilnya keluar dalam hitungan detik.
Demikian pula, ChatGLM3 yang ditingkatkan juga sangat bagus dalam analisis data.
Setelah beberapa analisis, histogram distribusi panjang dapat ditarik berdasarkan panjang bidang.
### Peningkatan Pencarian
Dengan penambahan kemampuan model besar WebGLM, "Zhipu Qingyan" sekarang juga memiliki kemampuan untuk mencari yang ditingkatkan - dapat meringkas jawaban atas pertanyaan berdasarkan informasi terbaru di Internet, dan melampirkan tautan referensi.
Misalnya, iPhone 15 baru-baru ini mengantarkan gelombang pemotongan harga, seberapa besar fluktuasi spesifiknya?
Jawaban yang diberikan oleh "Zhipu Qingyan" tidak buruk!
### Pemahaman Grafis
Model CogVLM meningkatkan kemampuan pemahaman gambar dan teks Cina Zhipu Qingyan, dan memperoleh kemampuan pemahaman gambar yang mendekati GPT-4V.
Itu dapat menjawab berbagai jenis pertanyaan visual, dan dapat menyelesaikan deteksi objek yang kompleks, pelabelan, dan menyelesaikan anotasi data otomatis.
Sebagai contoh, biarkan CogVLM mengidentifikasi berapa banyak orang dalam gambar.
Tambahkan sedikit kesulitan, lalu berikan gambar tiga jeruk bersama-sama, dan Anda juga dapat mengidentifikasi jumlahnya secara akurat.
Neymar, Messi, Ronaldo, CogVLM juga tidak ambigu.
Untuk masalah matematika visual di mana 2 apel dan 1 apel ditambahkan, CogVLM juga dapat melakukannya dengan benar.
**GLM vs GPT: Benchmarking lini lengkap produk OpenAI! **
Dari ChatGPT, aplikasi obrolan dan percakapan, Code Interpreter, plugin pembuatan kode, hingga DALL· E 3, dan kemudian ke model multimodal visual GPT-4V, OpenAI saat ini memiliki satu set lengkap arsitektur produk.
Melihat kembali ke China, satu-satunya perusahaan yang dapat mencapai cakupan produk paling komprehensif adalah Zhipu AI.
### Percakapan: ChatGPT vs. ChatGLM
Tidak perlu mengatakan lebih banyak tentang pengenalan ayam goreng populer ChatGPT.
Pada awal tahun ini, tim AI Zhipu juga merilis ChatGLM, model dialog tingkat 100 miliar.
Menggambar pada ide-ide desain ChatGPT, para pengembang menyuntikkan kode pra-pelatihan ke dalam model dasar 100 miliar GLM-130B.
Bahkan, pada awal tahun 2022, Zhipu AI membuka GLM-130B untuk komunitas riset dan industri, dan penelitian ini juga diterima oleh ACL 2022 dan ICLR 2023.
Baik model ChatGLM-6B dan ChatGLM-130B dilatih pada korporat Cina dan Inggris yang berisi token 1T, menggunakan supervised fine-tuning (SFT), feedback bootstrap, dan human feedback reinforcement learning (RLHF).
Model ChatGLM mampu menghasilkan jawaban yang sesuai dengan preferensi manusia. Dikombinasikan dengan teknologi kuantisasi, pengguna dapat menggunakan secara lokal pada kartu grafis kelas konsumen (hanya 6GB memori video yang diperlukan pada tingkat kuantisasi INT4), dan menjalankan ChatGLM mereka sendiri pada laptop berdasarkan model GLM.
Pada tanggal 14 Maret, Zhipu AI membuka sumber ChatGLM-6B ke komunitas, dan memenangkan tempat pertama dalam evaluasi pihak ketiga bahasa alami Cina, dialog Cina, Tanya Jawab bahasa Cina dan tugas penalaran.
Pada saat yang sama, ratusan proyek atau aplikasi berbasis ChatGLM-6B lahir.
Untuk lebih mempromosikan pengembangan komunitas open source model besar, Zhipu AI merilis ChatGLM2 pada bulan Juni, dan model dialog dasar 100 miliar telah ditingkatkan dan open-source, termasuk 6B, 12B, 32B, 66B, dan 130B ukuran yang berbeda, meningkatkan kemampuan dan memperkaya skenario.
ChatGLM 2 menempati urutan pertama dalam daftar Cina, pada 25 Juni 2023, ChatGLM2 menempati peringkat C- list Peringkat 0, dan ChatGLM2-6B peringkat di Peringkat 6. Dibandingkan dengan model generasi pertama, ChatGLM 2 telah mencapai peningkatan 16%, 36%, dan 280% masing-masing dalam MMLU, C-, dan GSM8K.
Perlu disebutkan bahwa hanya dalam beberapa bulan, ChatGLM-6B dan ChatGLM2-6B telah banyak digunakan.
Saat ini, total 50.000+ bintang telah dikumpulkan di GitHub. Selain itu, ada 10.000.000+ unduhan di Hugging Face, peringkat pertama dalam tren empat minggu.
ChatGLM-6B:
ChatGLM2-6B:
Peningkatan Pencarian: WebGPT vs. WebGLM
Untuk mengatasi masalah "ilusi" model besar, solusi umumnya adalah menggabungkan pengetahuan di mesin pencari dan membiarkan model besar melakukan "peningkatan pengambilan".
Pada awal 2021, OpenAI menyempurnakan model yang dapat menggabungkan hasil pencarian berdasarkan GPT-3 - WebGPT.
WebGPT memodelkan perilaku pencarian manusia, pencarian di halaman web untuk menemukan jawaban yang relevan, dan memberikan sumber kutipan, sehingga hasil keluaran dapat dilacak.
Yang terpenting, ini telah mencapai hasil yang sangat baik dalam Tanya Jawab panjang domain terbuka.
Di bawah bimbingan ide ini, WebGLM, model "versi jaringan" ChatGLM, lahir, yang merupakan model berdasarkan penyempurnaan parameter 10 miliar ChatGLM, dan fokus utamanya adalah pencarian jaringan.
Alamat:
Misalnya, ketika Anda ingin tahu mengapa langit berwarna biru. WebGLM segera memberikan jawaban secara online dan menyertakan tautan untuk meningkatkan kredibilitas respons model.
Secara arsitektur, sistem peningkatan pencarian WebGLM melibatkan tiga komponen penting: retriever, generator, dan pencetak gol.
Retriever berbasis LLM dibagi menjadi dua tahap, satu adalah pengambilan jaringan berbutir kasar (pencarian, akuisisi, ekstraksi), dan yang lainnya adalah pengambilan distilasi berbutir halus.
Dalam seluruh proses retriever, waktu terutama dikonsumsi dalam proses pengambilan halaman web, sehingga WebGLM menggunakan teknologi asinkron paralel untuk meningkatkan efisiensi.
Generator bootstrap adalah inti dan bertanggung jawab untuk menghasilkan jawaban berkualitas tinggi atas pertanyaan dari halaman referensi yang diperoleh dari retriever.
Ini menggunakan kemampuan inferensi kontekstual dari model besar untuk menghasilkan himpunan data QA berkualitas tinggi, dan merancang strategi koreksi dan seleksi untuk menyaring subset berkualitas tinggi untuk pelatihan.
Penilai akhir digunakan untuk menilai jawaban yang dihasilkan WebGLM melalui RLHF agar selaras dengan preferensi manusia.
Hasil eksperimen menunjukkan bahwa WebGLM dapat memberikan hasil yang lebih akurat dan menyelesaikan tugas Tanya Jawab secara efisien. Bahkan, bisa mendekati WebGPT dengan 175 miliar parameter dengan kinerja 10 miliar parameter.
Saat ini, penelitian ini telah diterima oleh KDD 2023, dan tim AI Zhipu juga telah membuka sumber kemampuan dan dataset.
Alamat Proyek:
Pemahaman gambar dan teks: GPT-4V vs. CogVLM
Pada bulan September tahun ini, OpenAI secara resmi mencabut larangan kemampuan multimodal GPT-4 yang luar biasa.
GPT-4V, yang didukung oleh ini, memiliki kemampuan yang kuat untuk memahami gambar dan mampu memproses input multimodal campuran secara sewenang-wenang.
Misalnya, tidak dapat mengatakan bahwa hidangan dalam gambar adalah tahu mapo, dan bahkan dapat memberikan bahan untuk membuatnya.
Pada bulan Oktober, Zhipu membuka sumber model dasar bahasa visual baru, CogVLM, yang dapat mewujudkan integrasi mendalam fitur bahasa visual tanpa mengorbankan kinerja tugas NLP apa pun.
Berbeda dari metode fusi dangkal umum, CogVLM menggabungkan modul ahli visi yang dapat dilatih ke dalam mekanisme perhatian dan lapisan jaringan saraf feedforward.
Desain ini mencapai keselarasan yang mendalam antara fitur gambar dan teks, yang secara efektif mengkompensasi perbedaan antara model bahasa yang telah dilatih sebelumnya dan encoder gambar.
Saat ini, CogVLM-17B adalah model dengan skor komprehensif pertama pada daftar akademik otoritatif multimodal, dan telah mencapai SOTA atau hasil tempat kedua pada 14 dataset.
Ini mencapai kinerja terbaik (SOTA) di 10 tolok ukur lintas modal otoritatif, termasuk NoCaps, teks Flicker30k, RefCOCO, RefCOCO +, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz-VQA, dan TDIUC.
Ide inti CogVLM adalah "visual first".
Model multimodal sebelumnya biasanya menyelaraskan fitur gambar secara langsung ke ruang input fitur teks, dan encoder fitur gambar biasanya kecil, dalam hal ini, gambar dapat dianggap sebagai "pengikut" teks, dan efeknya secara alami terbatas.
CogVLM, di sisi lain, memprioritaskan pemahaman visual dalam model multimodal, menggunakan encoder visi parameter 5B dan modul ahli visi parameter 6B untuk memodelkan fitur gambar dengan total parameter 11B, yang bahkan lebih dari jumlah parameter teks 7B.
Dalam beberapa tes, CogVLM bahkan mengungguli GPT-4V.
Ada 4 rumah dalam gambar, 3 terlihat sepenuhnya, dan 1 hanya dapat dilihat jika Anda memperbesar.
CogVLM dapat secara akurat mengidentifikasi 4 rumah ini, sedangkan GPT-4V hanya dapat mengidentifikasi 3.
Dalam pertanyaan ini, gambar dengan teks diuji.
CogVLM dengan setia menggambarkan adegan dan teks yang sesuai.
### Diagram Wensheng: DALL· E vs. CogView
Model grafik Wensheng OpenAI yang paling kuat adalah DALL· E 3 juga.
Sebaliknya, tim AI Zhipu telah meluncurkan CogView, model pra-terlatih universal teks-ke-gambar berbasis Transformer.
Alamat:
Ide keseluruhan CogView adalah melakukan pelatihan autoregresif dengan menyambung fitur teks dan fitur token gambar. Akhirnya, hanya fitur token teks yang dimasukkan, dan model dapat terus menghasilkan token gambar.
Secara khusus, teks "Avatar anak kucing lucu" pertama kali diubah menjadi token, dan model SentencePiece digunakan di sini.
Kemudian gambar kucing dimasukkan, dan bagian gambar diubah menjadi token melalui decoder otomatis diskrit.
Kemudian, fitur token teks dan gambar dijahit bersama, dan kemudian dimasukkan ke dalam model GPT dari arsitektur Transformer untuk belajar menghasilkan gambar.
Akhirnya, setelah pelatihan selesai, model akan mengurutkan hasil yang dihasilkan dengan menghitung Skor Teks untuk memilih hasil yang paling cocok selama tugas pembuatan teks ke gambar.
Perbandingan DALL· E dan skema GAN umum, hasil CogView telah sangat ditingkatkan.
Pada tahun 2022, para peneliti meningkatkan model grafik Wensheng CogView2 lagi, dan efeknya langsung dibandingkan dengan DALL· E2。
Alamat:
Dibandingkan dengan CogView, arsitektur CogView2 mengadopsi transfomer hierarkis dan mode autoregresif paralel untuk menghasilkan gambar.
Dalam makalah tersebut, para peneliti melatih model Transformer 6 miliar parameter, Cross-Modal General Language Model (CogLM), dan menyempurnakannya untuk mencapai resolusi super cepat.
HASIL EKSPERIMEN MENUNJUKKAN BAHWA HUBUNGAN DENGAN DALL· E2 juga memiliki keuntungan menghasilkan hasil dengan CogView2 dan juga dapat mendukung pengeditan gambar yang dipandu teks interaktif.
Pada bulan November tahun yang sama, tim membangun model generasi teks-ke-video, CogVideo, berdasarkan model CogView2.
Arsitektur model dibagi menjadi dua modul: bagian pertama didasarkan pada CogView2 dan menghasilkan beberapa bingkai gambar dari teks. Bagian kedua adalah interpolasi gambar berdasarkan model perhatian dua arah untuk menghasilkan video lengkap dengan frame rate yang lebih tinggi.
Saat ini, semua model di atas adalah open source. Apakah tim dari Tsinghua begitu langsung dan tulus?
Kode: Codex vs. CodeGeeX
Di bidang pembuatan kode, OpenAI merilis Codex baru dan yang ditingkatkan pada awal Agustus 2021, dan mahir dalam lebih dari 10 bahasa pemrograman termasuk Python, Java, Go, Perl, PHP, Ruby, Swift, Type, dan bahkan Shell.
Alamat:
Pengguna cukup memberikan prompt sederhana dan meminta Codex menulis kode secara otomatis dalam bahasa alami.
Codex dilatih pada GPT-3, dan data berisi miliaran baris kode sumber. Selain itu, Codex dapat mendukung informasi kontekstual yang lebih dari 3 kali lebih lama dari GPT-3.
Sebagai pelopor di Tiongkok, Zhipu membuka sumber CodeGeeX, model pra-terlatih untuk pembuatan kode, terjemahan, dan interpretasi bahasa multi-pemrograman dengan 13 miliar parameter, pada September 2022, dan kemudian diterima oleh KDD 2023 (Long Beach).
Alamat:
Pada Juli 2023, Zhipu merilis CodeGeeX2-6B yang lebih kuat, lebih cepat, dan lebih ringan, yang dapat mendukung lebih dari 100 bahasa, dan bobotnya sepenuhnya terbuka untuk penelitian akademis.
Alamat Proyek:
CodeGeeX2 didasarkan pada arsitektur ChatGLM2 baru dan dioptimalkan untuk berbagai tugas terkait pemrograman, seperti pelengkapan otomatis kode, pembuatan kode, terjemahan kode, penyelesaian kode lintas file, dan banyak lagi.
Berkat peningkatan ChatGLM2, CodeGeeX2 tidak hanya dapat mendukung input Cina dan Inggris dengan lebih baik, serta panjang urutan maksimum 8192, tetapi juga sangat meningkatkan berbagai indikator kinerja - Python + 57%, C ++ + 71%, Java + 54%, Java + 83%, Go + 56%, Rust + 321%.
Dalam tinjauan Manusia, CodeGeeX2 secara komprehensif melampaui model StarCoder 15 miliar parameter, serta model Code-Cushman-001 OpenAI (model yang digunakan oleh GitHub Copilot).
Selain itu, kecepatan inferensi CodeGeeX2 juga lebih cepat daripada CodeGeeX-13B generasi pertama, yang hanya membutuhkan memori video 6GB untuk dijalankan setelah kuantisasi, dan mendukung penyebaran lokal yang ringan.
Saat ini, plug-in CodeGeeX dapat diunduh dan dialami di IDE mainstream seperti VS Code, IntelliJ IDEA, PyCharm, GoLand, WebStorm, dan Android Studio.
Model besar domestik sepenuhnya dikembangkan sendiri
Pada konferensi tersebut, Zhang Peng, CEO Zhipu AI, membuang pendapatnya sendiri di awal - tahun pertama model besar bukan pada tahun ketika ChatGPT memicu ledakan LLM, tetapi pada tahun 2020, ketika GPT-3 lahir.
Saat itu, Zhipu AI yang baru berdiri selama satu tahun mulai menggunakan kekuatan seluruh perusahaan untuk SEMUA model besar.
Sebagai salah satu perusahaan pertama yang memasuki penelitian model skala besar, Zhipu AI telah mengumpulkan kemampuan layanan perusahaan yang memadai; Sebagai salah satu "perusahaan pertama yang makan kepiting" di open source, ChatGLM-6B menduduki puncak daftar tren wajah Hugging dalam waktu empat minggu setelah diluncurkan, dan memenangkan bintang 5w + di GitHub.
Rilis ChatGLM3 membuat lini produk model lengkap yang telah dibangun Zhipu AI lebih kuat.
Pada tahun 2023, ketika perang berkecamuk di industri model besar, Zhipu AI sekali lagi menjadi sorotan dan menempati keunggulan penggerak pertama dengan ChatGLM3 yang baru ditingkatkan.
Sumber daya:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Demonstrasi wajah langsung Tsinghua Department ChatGLM3! Multimodalitas dekat dengan GPT-4V, dan Penerjemah Kode domestik akan datang
Sumber asli: Zhiyuan Baru
Model alas generasi ketiga yang dikembangkan sendiri ChatGLM3 diluncurkan hari ini!
Ini adalah optimalisasi lain dari model dasar ChatGLM oleh tim AI Zhipu sejak peluncuran model generasi kedua pada bulan Juni.
Selain itu, pada China Computer Conference (CNCC) 2023 pada 27 Oktober, Zhipu AI juga membuka sumber ChatGLM3-6B (32k), CogVLM-17B multimodal, dan agen AgentLM.
Setelah merilis seri model ChatGLM3, Zhipu menjadi satu-satunya perusahaan di China yang telah membandingkan lini produk model lengkap OpenAI.
Model ini sepenuhnya dikembangkan sendiri, beradaptasi dengan chip domestik, dengan kinerja yang lebih kuat dan ekosistem sumber yang lebih terbuka.
Sebagai perusahaan pertama yang memasuki penelitian model skala besar, Zhipu AI adalah yang pertama mengirimkan makalah!
Selain itu, Zhipu AI telah menyelesaikan total lebih dari 2,5 miliar yuan dalam pembiayaan tahun ini, Meituan, Ant, Alibaba, Tencent ... Daftar investor mewah semuanya menunjukkan kepercayaan kuat industri pada Zhipu AI.
Bertujuan untuk peningkatan teknis GPT-4V
Saat ini, model visi multimodal GPT-4V telah menunjukkan kemampuan pengenalan gambar yang kuat.
Pada saat yang sama, bertujuan untuk GPT-4V, Zhipu AI juga secara iteratif meningkatkan kemampuan ChatGLM3 lainnya kali ini. Diantaranya, model pemahaman multimodal CogVLM dapat mencoba memahami dan menyegarkan 10+ dataset evaluasi grafik dan teks standar internasional SOTA. Saat ini, CogVLM-17B adalah open source.
Code Interpreter dapat menghasilkan dan mengeksekusi kode sesuai dengan kebutuhan pengguna, secara otomatis menyelesaikan tugas-tugas kompleks seperti analisis data dan pemrosesan file.
Pencarian web meningkatkan WebGLM, yang secara otomatis dapat menemukan informasi yang relevan di Internet sesuai dengan pertanyaan, dan menyediakan tautan ke literatur atau artikel terkait referensi saat menjawab.
Selain itu, kemampuan semantik dan logis ChatGLM3 juga telah sangat ditingkatkan.
Versi 6B Sumber Terbuka Langsung
Perlu disebutkan bahwa setelah ChatGLM3 dirilis, Zhipu AI langsung membuka sumber model parameter 6B ke komunitas.
Hasil evaluasi menunjukkan bahwa dibandingkan dengan ChatGLM 2 dan dibandingkan dengan model domestik dengan ukuran yang sama, ChatGLM3-6B menempati peringkat pertama dalam 9 dari 44 tes dataset publik Cina dan Inggris.
MMLU meningkat sebesar 36%, C sebesar 33%, GSM8K sebesar 179%, dan BBH sebesar 126%.
Versi 32k open-source-nya, ChatGLM3-6B-32K, berkinerja terbaik di LongBench.
Selain itu, ini adalah "teknologi inferensi dinamis + pengoptimalan memori video yang efisien" terbaru yang membuat kerangka inferensi saat ini lebih efisien di bawah kondisi perangkat keras dan model yang sama.
Dibandingkan dengan implementasi open source terbaik saat ini, dibandingkan dengan vLLM yang diluncurkan oleh University of Berkeley dan versi terbaru dari Hugging Face TGI, kecepatan inferensi meningkat 2-3 kali lipat, dan biaya inferensi berkurang 1 kali, dengan hanya 0,5 poin per seribu token, yang merupakan biaya terendah.
AgentTuning yang dikembangkan sendiri, aktivasi kemampuan agen
Yang lebih mengejutkan lagi adalah ChatGLM3 juga membawa kemampuan agen baru.
Zhipu AI berharap model besar dapat berkomunikasi lebih baik dengan alat eksternal melalui API, dan bahkan mewujudkan interaksi model besar melalui agen.
Dengan mengintegrasikan teknologi AgentTuning yang dikembangkan sendiri, kemampuan agen cerdas dari model dapat diaktifkan, terutama dalam hal perencanaan dan pelaksanaan cerdas, yang 1000% lebih tinggi daripada ChatGLM 2.
Pada AgentBench terbaru, ChatGLM3-turbo mendekati GPT-3.5.
Pada saat yang sama, AgentLM juga terbuka untuk komunitas open source. Apa yang diharapkan tim AI Zhipu adalah membuat model sumber terbuka mencapai atau bahkan melampaui kemampuan agen dari model sumber tertutup.
Ini berarti bahwa agen akan memungkinkan dukungan asli model besar domestik untuk skenario kompleks seperti "pemanggilan alat, eksekusi kode, permainan, operasi basis data, pencarian grafik pengetahuan dan inferensi, dan sistem operasi".
1.5B/3B dirilis pada saat yang sama, ponsel dapat berjalan
Ingin menjalankan ChatGLM di ponsel Anda? OKE!
Kali ini, ChatGLM3 juga meluncurkan model uji terminal yang dapat digunakan pada ponsel, dengan dua parameter: 1.5B dan 3B.
Ini dapat mendukung berbagai ponsel termasuk Vivo, Xiaomi, Samsung, dan platform dalam kendaraan, dan bahkan mendukung inferensi chip CPU pada platform seluler, dengan kecepatan hingga 20 token / s.
Dalam hal akurasi, kinerja model 1.5B dan 3B mendekati model ChatGLM2-6B dalam evaluasi benchmark publik, jadi lanjutkan dan cobalah!
Generasi baru "Zhipu Qingyan" diluncurkan sepenuhnya
Sama seperti ChatGPT yang memiliki model GPT-4 yang kuat di belakangnya, asisten AI generatif "Zhipu Qingyan" dari tim AI Zhipu juga diberkati oleh ChatGLM3.
Setelah demonstrasi siaran langsung tim ini, fungsinya langsung diluncurkan, dan yang utama adalah ketulusan!
Alamat tes:
Penerjemah Kode
Sebagai salah satu plugin paling populer untuk ChatGPT, Advanced Data Analysis (sebelumnya Code Interpreter) dapat menganalisis masalah dengan pemikiran yang lebih matematis berdasarkan input bahasa alami, dan menghasilkan kode yang sesuai pada saat yang bersamaan.
Sekarang, dengan dukungan ChatGLM3 yang baru ditingkatkan, "Zhipu Qingyan" telah menjadi produk model skala besar pertama dengan kemampuan Analisis Data Tingkat Lanjut di China, yang dapat mendukung pemrosesan gambar, komputasi matematika, analisis data, dan skenario penggunaan lainnya.
Romansa pria sains dan teknik mungkin hanya dipahami oleh "Zhipu Qingyan".
Meskipun CEO Zhang Peng melakukan pertunjukan langsung untuk menarik "hati merah" terbalik, tetapi coba lagi, dan hasilnya keluar dalam hitungan detik.
Dengan penambahan kemampuan model besar WebGLM, "Zhipu Qingyan" sekarang juga memiliki kemampuan untuk mencari yang ditingkatkan - dapat meringkas jawaban atas pertanyaan berdasarkan informasi terbaru di Internet, dan melampirkan tautan referensi.
Misalnya, iPhone 15 baru-baru ini mengantarkan gelombang pemotongan harga, seberapa besar fluktuasi spesifiknya?
Jawaban yang diberikan oleh "Zhipu Qingyan" tidak buruk!
Model CogVLM meningkatkan kemampuan pemahaman gambar dan teks Cina Zhipu Qingyan, dan memperoleh kemampuan pemahaman gambar yang mendekati GPT-4V.
Itu dapat menjawab berbagai jenis pertanyaan visual, dan dapat menyelesaikan deteksi objek yang kompleks, pelabelan, dan menyelesaikan anotasi data otomatis.
Sebagai contoh, biarkan CogVLM mengidentifikasi berapa banyak orang dalam gambar.
**GLM vs GPT: Benchmarking lini lengkap produk OpenAI! **
Dari ChatGPT, aplikasi obrolan dan percakapan, Code Interpreter, plugin pembuatan kode, hingga DALL· E 3, dan kemudian ke model multimodal visual GPT-4V, OpenAI saat ini memiliki satu set lengkap arsitektur produk.
Melihat kembali ke China, satu-satunya perusahaan yang dapat mencapai cakupan produk paling komprehensif adalah Zhipu AI.
Tidak perlu mengatakan lebih banyak tentang pengenalan ayam goreng populer ChatGPT.
Pada awal tahun ini, tim AI Zhipu juga merilis ChatGLM, model dialog tingkat 100 miliar.
Menggambar pada ide-ide desain ChatGPT, para pengembang menyuntikkan kode pra-pelatihan ke dalam model dasar 100 miliar GLM-130B.
Bahkan, pada awal tahun 2022, Zhipu AI membuka GLM-130B untuk komunitas riset dan industri, dan penelitian ini juga diterima oleh ACL 2022 dan ICLR 2023.
Baik model ChatGLM-6B dan ChatGLM-130B dilatih pada korporat Cina dan Inggris yang berisi token 1T, menggunakan supervised fine-tuning (SFT), feedback bootstrap, dan human feedback reinforcement learning (RLHF).
Pada tanggal 14 Maret, Zhipu AI membuka sumber ChatGLM-6B ke komunitas, dan memenangkan tempat pertama dalam evaluasi pihak ketiga bahasa alami Cina, dialog Cina, Tanya Jawab bahasa Cina dan tugas penalaran.
Pada saat yang sama, ratusan proyek atau aplikasi berbasis ChatGLM-6B lahir.
Untuk lebih mempromosikan pengembangan komunitas open source model besar, Zhipu AI merilis ChatGLM2 pada bulan Juni, dan model dialog dasar 100 miliar telah ditingkatkan dan open-source, termasuk 6B, 12B, 32B, 66B, dan 130B ukuran yang berbeda, meningkatkan kemampuan dan memperkaya skenario.
Perlu disebutkan bahwa hanya dalam beberapa bulan, ChatGLM-6B dan ChatGLM2-6B telah banyak digunakan.
Saat ini, total 50.000+ bintang telah dikumpulkan di GitHub. Selain itu, ada 10.000.000+ unduhan di Hugging Face, peringkat pertama dalam tren empat minggu.
Peningkatan Pencarian: WebGPT vs. WebGLM
Untuk mengatasi masalah "ilusi" model besar, solusi umumnya adalah menggabungkan pengetahuan di mesin pencari dan membiarkan model besar melakukan "peningkatan pengambilan".
Pada awal 2021, OpenAI menyempurnakan model yang dapat menggabungkan hasil pencarian berdasarkan GPT-3 - WebGPT.
WebGPT memodelkan perilaku pencarian manusia, pencarian di halaman web untuk menemukan jawaban yang relevan, dan memberikan sumber kutipan, sehingga hasil keluaran dapat dilacak.
Yang terpenting, ini telah mencapai hasil yang sangat baik dalam Tanya Jawab panjang domain terbuka.
Di bawah bimbingan ide ini, WebGLM, model "versi jaringan" ChatGLM, lahir, yang merupakan model berdasarkan penyempurnaan parameter 10 miliar ChatGLM, dan fokus utamanya adalah pencarian jaringan.
Misalnya, ketika Anda ingin tahu mengapa langit berwarna biru. WebGLM segera memberikan jawaban secara online dan menyertakan tautan untuk meningkatkan kredibilitas respons model.
Retriever berbasis LLM dibagi menjadi dua tahap, satu adalah pengambilan jaringan berbutir kasar (pencarian, akuisisi, ekstraksi), dan yang lainnya adalah pengambilan distilasi berbutir halus.
Dalam seluruh proses retriever, waktu terutama dikonsumsi dalam proses pengambilan halaman web, sehingga WebGLM menggunakan teknologi asinkron paralel untuk meningkatkan efisiensi.
Generator bootstrap adalah inti dan bertanggung jawab untuk menghasilkan jawaban berkualitas tinggi atas pertanyaan dari halaman referensi yang diperoleh dari retriever.
Ini menggunakan kemampuan inferensi kontekstual dari model besar untuk menghasilkan himpunan data QA berkualitas tinggi, dan merancang strategi koreksi dan seleksi untuk menyaring subset berkualitas tinggi untuk pelatihan.
Hasil eksperimen menunjukkan bahwa WebGLM dapat memberikan hasil yang lebih akurat dan menyelesaikan tugas Tanya Jawab secara efisien. Bahkan, bisa mendekati WebGPT dengan 175 miliar parameter dengan kinerja 10 miliar parameter.
Pemahaman gambar dan teks: GPT-4V vs. CogVLM
Pada bulan September tahun ini, OpenAI secara resmi mencabut larangan kemampuan multimodal GPT-4 yang luar biasa.
GPT-4V, yang didukung oleh ini, memiliki kemampuan yang kuat untuk memahami gambar dan mampu memproses input multimodal campuran secara sewenang-wenang.
Misalnya, tidak dapat mengatakan bahwa hidangan dalam gambar adalah tahu mapo, dan bahkan dapat memberikan bahan untuk membuatnya.
Berbeda dari metode fusi dangkal umum, CogVLM menggabungkan modul ahli visi yang dapat dilatih ke dalam mekanisme perhatian dan lapisan jaringan saraf feedforward.
Desain ini mencapai keselarasan yang mendalam antara fitur gambar dan teks, yang secara efektif mengkompensasi perbedaan antara model bahasa yang telah dilatih sebelumnya dan encoder gambar.
Saat ini, CogVLM-17B adalah model dengan skor komprehensif pertama pada daftar akademik otoritatif multimodal, dan telah mencapai SOTA atau hasil tempat kedua pada 14 dataset.
Ini mencapai kinerja terbaik (SOTA) di 10 tolok ukur lintas modal otoritatif, termasuk NoCaps, teks Flicker30k, RefCOCO, RefCOCO +, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz-VQA, dan TDIUC.
Model multimodal sebelumnya biasanya menyelaraskan fitur gambar secara langsung ke ruang input fitur teks, dan encoder fitur gambar biasanya kecil, dalam hal ini, gambar dapat dianggap sebagai "pengikut" teks, dan efeknya secara alami terbatas.
CogVLM, di sisi lain, memprioritaskan pemahaman visual dalam model multimodal, menggunakan encoder visi parameter 5B dan modul ahli visi parameter 6B untuk memodelkan fitur gambar dengan total parameter 11B, yang bahkan lebih dari jumlah parameter teks 7B.
Dalam beberapa tes, CogVLM bahkan mengungguli GPT-4V.
CogVLM dapat secara akurat mengidentifikasi 4 rumah ini, sedangkan GPT-4V hanya dapat mengidentifikasi 3.
Dalam pertanyaan ini, gambar dengan teks diuji.
Model grafik Wensheng OpenAI yang paling kuat adalah DALL· E 3 juga.
Ide keseluruhan CogView adalah melakukan pelatihan autoregresif dengan menyambung fitur teks dan fitur token gambar. Akhirnya, hanya fitur token teks yang dimasukkan, dan model dapat terus menghasilkan token gambar.
Secara khusus, teks "Avatar anak kucing lucu" pertama kali diubah menjadi token, dan model SentencePiece digunakan di sini.
Kemudian gambar kucing dimasukkan, dan bagian gambar diubah menjadi token melalui decoder otomatis diskrit.
Kemudian, fitur token teks dan gambar dijahit bersama, dan kemudian dimasukkan ke dalam model GPT dari arsitektur Transformer untuk belajar menghasilkan gambar.
Perbandingan DALL· E dan skema GAN umum, hasil CogView telah sangat ditingkatkan.
Pada tahun 2022, para peneliti meningkatkan model grafik Wensheng CogView2 lagi, dan efeknya langsung dibandingkan dengan DALL· E2。
Dibandingkan dengan CogView, arsitektur CogView2 mengadopsi transfomer hierarkis dan mode autoregresif paralel untuk menghasilkan gambar.
Dalam makalah tersebut, para peneliti melatih model Transformer 6 miliar parameter, Cross-Modal General Language Model (CogLM), dan menyempurnakannya untuk mencapai resolusi super cepat.
Pada bulan November tahun yang sama, tim membangun model generasi teks-ke-video, CogVideo, berdasarkan model CogView2.
Arsitektur model dibagi menjadi dua modul: bagian pertama didasarkan pada CogView2 dan menghasilkan beberapa bingkai gambar dari teks. Bagian kedua adalah interpolasi gambar berdasarkan model perhatian dua arah untuk menghasilkan video lengkap dengan frame rate yang lebih tinggi.
Kode: Codex vs. CodeGeeX
Di bidang pembuatan kode, OpenAI merilis Codex baru dan yang ditingkatkan pada awal Agustus 2021, dan mahir dalam lebih dari 10 bahasa pemrograman termasuk Python, Java, Go, Perl, PHP, Ruby, Swift, Type, dan bahkan Shell.
Pengguna cukup memberikan prompt sederhana dan meminta Codex menulis kode secara otomatis dalam bahasa alami.
Codex dilatih pada GPT-3, dan data berisi miliaran baris kode sumber. Selain itu, Codex dapat mendukung informasi kontekstual yang lebih dari 3 kali lebih lama dari GPT-3.
Pada Juli 2023, Zhipu merilis CodeGeeX2-6B yang lebih kuat, lebih cepat, dan lebih ringan, yang dapat mendukung lebih dari 100 bahasa, dan bobotnya sepenuhnya terbuka untuk penelitian akademis.
CodeGeeX2 didasarkan pada arsitektur ChatGLM2 baru dan dioptimalkan untuk berbagai tugas terkait pemrograman, seperti pelengkapan otomatis kode, pembuatan kode, terjemahan kode, penyelesaian kode lintas file, dan banyak lagi.
Berkat peningkatan ChatGLM2, CodeGeeX2 tidak hanya dapat mendukung input Cina dan Inggris dengan lebih baik, serta panjang urutan maksimum 8192, tetapi juga sangat meningkatkan berbagai indikator kinerja - Python + 57%, C ++ + 71%, Java + 54%, Java + 83%, Go + 56%, Rust + 321%.
Dalam tinjauan Manusia, CodeGeeX2 secara komprehensif melampaui model StarCoder 15 miliar parameter, serta model Code-Cushman-001 OpenAI (model yang digunakan oleh GitHub Copilot).
Selain itu, kecepatan inferensi CodeGeeX2 juga lebih cepat daripada CodeGeeX-13B generasi pertama, yang hanya membutuhkan memori video 6GB untuk dijalankan setelah kuantisasi, dan mendukung penyebaran lokal yang ringan.
Saat ini, plug-in CodeGeeX dapat diunduh dan dialami di IDE mainstream seperti VS Code, IntelliJ IDEA, PyCharm, GoLand, WebStorm, dan Android Studio.
Model besar domestik sepenuhnya dikembangkan sendiri
Pada konferensi tersebut, Zhang Peng, CEO Zhipu AI, membuang pendapatnya sendiri di awal - tahun pertama model besar bukan pada tahun ketika ChatGPT memicu ledakan LLM, tetapi pada tahun 2020, ketika GPT-3 lahir.
Saat itu, Zhipu AI yang baru berdiri selama satu tahun mulai menggunakan kekuatan seluruh perusahaan untuk SEMUA model besar.
Sebagai salah satu perusahaan pertama yang memasuki penelitian model skala besar, Zhipu AI telah mengumpulkan kemampuan layanan perusahaan yang memadai; Sebagai salah satu "perusahaan pertama yang makan kepiting" di open source, ChatGLM-6B menduduki puncak daftar tren wajah Hugging dalam waktu empat minggu setelah diluncurkan, dan memenangkan bintang 5w + di GitHub.
Pada tahun 2023, ketika perang berkecamuk di industri model besar, Zhipu AI sekali lagi menjadi sorotan dan menempati keunggulan penggerak pertama dengan ChatGLM3 yang baru ditingkatkan.
Sumber daya: