Apakah tren AI "Perang Seratus Model" berubah? 360, Meitu berturut-turut meluncurkan gerakan, dan model visual skala besar menggelar "pertarungan peri"

Sumber asli: China Times

Sumber gambar: Dihasilkan oleh AI‌ Tak Terbatas

Saat peningkatan dalam pengembangan dan penerapan model besar AI terus meningkat, reporter memperhatikan bahwa pemain di trek mulai mengalihkan fokus mereka dari model bahasa besar ke model visual besar. Baru-baru ini, Adobe, Meta, 360, Meitu, dan banyak perusahaan Internet top lainnya di dalam dan luar negeri telah menerbitkan hasil model skala besar, menambah api ke pasar AI yang sudah sangat panas.

"Penerapan kecerdasan buatan di bidang video semakin mendapat perhatian." Wu Gaobin, wakil ketua Komite Integrasi Industrialisasi dan Industrialisasi Asosiasi Industri Komunikasi China, mengatakan kepada reporter "China Times" bahwa rilis besar ini -Model AI skala besar telah membawa persaingan baru ke motivasi perusahaan. Persaingan antar perusahaan akan mendorong inovasi dan kemajuan teknologi, dan juga akan menghasilkan produk dan layanan yang lebih baik. Persaingan juga akan mendorong kerja sama dan pembagian sumber daya di antara perusahaan, sehingga dapat memenuhi permintaan pasar dengan lebih baik.

Model skala besar visual di dalam dan luar negeri "Fairy Fighting"

Setelah baris demi baris model bahasa skala besar dan model skala besar multi-modal telah muncul, "model skala besar visual" telah menjadi medan pertempuran lain bagi ahli strategi militer. Beberapa hari yang lalu, Meitu merilis MiracleVision, model visi AI berskala besar, bersama dengan tujuh produk termasuk alat pembuat visi AI WHEE, alat kreasi manusia digital AI DreamAvatar, dan asisten AI Meitu RoboNeo.

Menurut laporan, MiracleVision memiliki ekspresi visual dan kreativitas yang kuat, dan dapat membalikkan evolusi teknologi dari adegan kreasi visual seperti lukisan, desain, film dan televisi, fotografi, game, 3D, dan animasi. Berbeda dari model besar lainnya di pasaran, ini sangat bagus dalam menghasilkan arahan seperti fotografi potret Asia, gaya dan mode nasional, dan desain komersial.

Wu Xinhong, pendiri, ketua dan CEO Meitu, mengatakan dalam sebuah wawancara dengan seorang reporter dari China Times: "Keunggulan inti dari model besar Meitu adalah untuk memahami estetika. Basis pengguna C-end cukup besar. Biaya untuk akuisisi pelanggan rendah. Meitu saat ini memiliki 243 juta pengguna aktif bulanan dan 7,19 juta anggota VIP global, yang dapat memverifikasi keberhasilan produk dalam waktu singkat. Tidak seperti pabrikan lain, model besar Meitu berfokus pada estetika (gambar layar Desain kualitas, dll. .), di masa depan, jika kami harus bersaing, kami akan "menggelindingkan" estetika."

Secara kebetulan, 360 juga resmi merilis "360 Smart Brain-Vision Large Model" beberapa hari lalu. Zhou Hongyi, pendiri 360, mengatakan bahwa model bahasa besar adalah dasar untuk membangun model visual besar, dan inti dari peningkatan kemampuan multimodal adalah kemampuan kognisi, penalaran, dan pengambilan keputusan dari model bahasa besar. Pada saat yang sama, model visual yang besar juga merupakan komponen kemampuan penting dari "360 Smart Brain", yang dapat memahami gambar, video, dan suara di masa mendatang.

Perusahaan luar negeri juga mulai membuat model visual. Beberapa hari yang lalu, raksasa media sosial Meta mengumumkan akan membuka bagi para peneliti beberapa komponen model kecerdasan buatan "humanoid" yang disebut I-JEPA, yang dapat menganalisis dan melengkapi gambar yang belum selesai lebih akurat daripada model yang ada, sementara Alih-alih hanya membuat kesimpulan berdasarkan piksel terdekat seperti model AI generatif lainnya.

Yang Likun, kepala ilmuwan kecerdasan buatan Meta, pernah secara terbuka menunjukkan bahwa model autoregresif GPT saat ini tidak memiliki kemampuan perencanaan dan penalaran, dan sistem GPT di masa depan dapat ditinggalkan, dan memberikan apa yang menurutnya merupakan jawaban yang benar - dunia model. I-JEPA dikatakan sebagai model AI pertama berdasarkan komponen kunci dari visinya untuk menganalisis dan melengkapi gambar yang belum selesai dengan lebih akurat daripada model yang ada.

Selain itu, Meta juga telah merilis model AI pembuatan ucapan "Voicebox", yang mendukung pembuatan ucapan dari teks, dapat mencocokkan gaya audio berdasarkan sampel yang hanya berdurasi dua detik, dan mengonversi sampel teks ke bahasa lain. sampel suara, dan kemampuan untuk membaca konten teks terjemahan dalam suara asli pembicara, saat ini didukung enam bahasa: Inggris, Prancis, Jerman, Spanyol, Polandia, dan Portugis.

Pada awal April tahun ini, Adobe mengintegrasikan fungsi Adobe Firefly (produk mirip ChatGPT) ke dalam matriks produk audio dan video seperti Premiere Pro, After Effects, Audition, Remix, dll., menyediakan pengguna dengan pembuatan konten satu klik , pengeditan, pencocokan warna, Ubah musik dan fungsi lainnya.

Dari "Model Bahasa" menjadi "Model Visi"

"Laporan Penelitian Peta Model Skala Besar Kecerdasan Buatan China" menunjukkan bahwa dalam hal jumlah dan distribusi model skala besar yang dirilis secara global, China dan Amerika Serikat memimpin dengan margin yang besar, terhitung lebih dari 80% pasar global. total. Pada saat yang sama, semakin banyak tim R&D di Eropa, Rusia, Israel, dll. Juga berinvestasi dalam pengembangan model besar. Namun perlu dicatat bahwa masih sedikit model besar di bidang computer vision dan bidang lainnya di negara saya.

Menyelidiki alasannya, Yan Shuicheng, kepala ilmuwan tamu dari Institut Penelitian Zhiyuan Beijing, mengatakan kepada reporter "China Times": "Alasan utama mengapa pengembangan model visual sedikit tertinggal adalah model visual yang besar menghabiskan lebih banyak daya komputasi daripada teks, jadi kami Saya juga menantikan pengembangan chip yang lebih cepat, dan bahkan dimungkinkan untuk mengintegrasikan chip non-GPU lainnya secara bersamaan. Model yang Anda lihat sekarang umumnya pada level kilokal, tetapi beberapa orang mungkin menggunakan level 10.000 kartu untuk membuatnya tahun depan."

Menurut Huang Tiejun, presiden Institut Penelitian Kecerdasan Buatan Zhiyuan Beijing, bidang visual adalah fokus gelombang berikutnya di bidang model besar. Dia menunjukkan bahwa metode berpikir dan rute dasar di balik model visual besar dan model bahasa besar adalah sama, tetapi data masukan telah menjadi gambar dan video, dan model yang dilatih memiliki kemampuan bahasa visual umum tertentu. AIGC (Artificial Intelligence Automatically Generated Content) dapat menghasilkan gambar dan karya seni."Ada juga kemampuan yang lebih mendasar, yaitu setelah melihat dunia, Anda harus terlebih dahulu dapat membedakan dunia (segalanya)."

Untuk pengembangan model visual skala besar, banyak organisasi juga menyatakan sikap optimis. Menurut laporan penelitian yang dirilis oleh CICC Research, visi komputer diharapkan mencapai tingkat otomatisasi yang lebih tinggi, presisi tinggi, dan konsumsi daya yang rendah di masa mendatang, yang semakin memperkaya ekologi konten Metaverse dan menurunkan hambatan untuk masuk. Kemajuan visi komputer telah menyebabkan kematangan yang cepat dari rekonstruksi 3D dan teknologi penangkapan gerak, dan secara bertahap mengumpulkan kemajuan teknologi di bidangnya masing-masing. Di masa mendatang, visi komputer diharapkan dapat mengantarkan tingkat otomatisasi yang lebih tinggi, presisi yang lebih tinggi, dan konsumsi daya yang lebih rendah. Ini secara bertahap akan mencapai efek visual yang lebih baik pada terminal seluler, diterapkan di sejumlah besar industri hilir, dan secara bertahap bergerak menuju menghubungkan dunia fisik dan dunia digital Visi jangka panjang dunia.

Riset Sekuritas CITIC juga menyatakan bahwa di bidang desain, model besar mengarahkan desain digital ke desain cerdas, dan perangkat lunak desain industri terkait yang digabungkan dengan GPT dan teknologi lainnya dapat diterapkan pada skenario seperti perencanaan desain, pengoptimalan tata letak, asisten plug-in, dan membuat sketsa. Di bawah tren umum peningkatan AI, babak baru revolusi produktivitas dimulai.

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate.io
Komunitas
Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)