Gambar AI Ali diuji secara internal, yang mengejutkan beberapa pabrik besar

2023-07-09 01:51:30

Pengarang: Du Wei, Zenan

**Untuk menanyakan WAIC World Artificial Intelligence Conference tahun ini, siapa protagonisnya? Megamodel AI layak mendapatkannya. **

Konferensi berlangsung selama tiga hari, dan berbagai perusahaan dan institusi secara berturut-turut meluncurkan lebih dari 30 model besar.

Model bahasa sangat diperlukan dalam pesta model besar ini, tentunya ada juga model lukisan berskala besar yang kerap membuat orang kaget secara visual. Tidak, di bidang menggambar AI, pemain domestik lain telah memasuki lapangan.

Tiga bulan setelah rilis model bahasa besar Tongyi Qianwen, model besar kreasi lukisan AI Ali juga datang, dan itu didasarkan pada Komposer model generatif gabungan yang dikembangkan sendiri.

Pada konferensi WAIC pada 7 Juli, keluarga model skala besar Alibaba Cloud Tongyi meluncurkan anggota terbarunya "Tongyi Wanxiang".

WAIC *Dalam forum tema "MaaS: A New Paradigm for Model-Centric AI Development" Alibaba Cloud, Tongyi Wanxiang muncul. *

Efek gambar pembuatan teksnya seperti ini, dan kecepatan pembuatannya sangat cepat.

Tongyi Wanxiang juga dapat membuat gambar baru dengan gaya lain yang ditentukan untuk gambar asli.

Ada juga permainan boneka bersarang, yang menghasilkan beberapa gambar serupa untuk gambar aslinya.

Ali mengatakan bahwa Tongyi Wanxiang memiliki kemampuan untuk menghasilkan grafik dan grafik, yang dapat membantu manusia dalam pembuatan gambar dan sangat mengurangi ambang batas desain gambar. Kedepannya juga dapat diterapkan pada skenario aplikasi seperti art design, games dan kreasi budaya.

Saat ini, model tersebut telah membuka pengujian undangan terarah.

Sebelum ChatGPT menjadi populer, topik paling populer di bidang AI adalah gambar AI. Model difusi telah mengambil langkah maju yang besar bagi AI generatif.Untuk beberapa waktu, ada sejumlah besar model AI yang memasukkan teks dan menghasilkan gambar dengan berbagai gaya. Setelah itu, lebih banyak cara untuk menghasilkan gambar dari gambar dan mengonversi gambar ke gaya tertentu muncul, yang membuat orang terpesona dan kagum pada keajaiban AI generatif.

Di panggung besar WAIC, Ali meluncurkan artefak AI ini yang dapat menghasilkan grafik dan juga grafik, terlihat sangat percaya diri dengan efek generasinya.

Setelah mendapatkan kualifikasi pengalaman, jantung mesin tentunya harus dicoba terlebih dahulu.

Pengukuran Aktual Tongyi Wanxiang: Gameplay yang beragam, satu bidikan adalah mahakarya

Apakah model baru keluarga Tongyi ini membawa perubahan pada bidang gambar AI? Kami berbicara dengan hasil.

Saat ini, Tongyi Wanxiang telah meluncurkan tiga fungsi pembuatan gambar teks, pembuatan gambar serupa, dan transfer gaya gambar.

Mari kita mulai dengan pembuatan teks-ke-gambar standar. Di Wenshengtu, Anda dapat memilih dari berbagai gaya seperti cat air, lukisan cat minyak, lukisan Cina, ilustrasi datar, dua dimensi, sketsa, kartun 3D, dll. Setelah memasukkan deskripsi teks dan memilih gaya, AI dapat menghasilkan gambar kreatif secara otomatis. Pada saat yang sama, untuk kenyamanan penggunaan, rasio gambar keluaran memiliki tiga pilihan: 1:1, 16:9 dan 9:16.

Mari kita mulai dengan sesuatu yang tidak terlalu rumit. Kami memilih serangkaian kata dari "Tianjingsha · Pikiran Musim Gugur" Ma Zhiyuan, salah satu dari empat master Yuanqu, untuk menggambarkan "jembatan kecil, air mengalir, dan rumah", dan memilih "lukisan Cina" untuk gaya.

Alhasil, Tongyi Wanxiang benar-benar menunjukkan kepada kami lukisan-lukisan yang penuh pesona kuno, kaya akan detail, dan menambahkan beberapa elemen yang tidak ada dalam deskripsi, seperti pegunungan yang jauh dan bebek yang berenang di air.

Sebaiknya kita ubah dua gaya lagi, kali ini pilih "sketsa" dan "lukisan cat minyak". Tongyi Wanxiang dapat beralih dengan bebas dalam berbagai gaya, dan sketsa serta lukisan minyak yang dihasilkan sama-sama menakjubkan. Tidak berlebihan untuk mengatakan bahwa gambar-gambar ini adalah level yang dapat digunakan secara langsung.

Biarkan kumpulan teks lain mendeskripsikan "kucing dalam pakaian antariksa, ruang angkasa, perjalanan, langit berbintang", kali ini pilih "dua dimensi" dan "kartun 3D" untuk gayanya. Sekilas efeknya jelas, terutama grup gaya kartun 3D, kucing-kucingnya sangat imut.

Atas: 2D; Bawah: Kartun 3D

Di sini saya tiba-tiba ingin membandingkan Tongyi Wanxiang dengan Difusi Stabil yang terkenal. Deskripsi teks yang sama diterjemahkan ke dalam bahasa Inggris "kucing dalam pakaian luar angkasa, luar angkasa, perjalanan, langit berbintang", dan kemudian ditambahkan "gaya karton 3D", gambar yang dihasilkan adalah sebagai berikut.

Tanpa diduga, Tongyi Wanxiang memenangkan gelombang ini.Kucing yang dihasilkan oleh Difusi Stabil terlalu abstrak atau terlalu realistis, dan tidak menunjukkan gaya kartun 3D.

Karena deskripsi teks sederhana tidak sulit untuk Tongyi Wanxiang, mari kita persulit.

Kali ini ada bagian yang lebih panjang dari "seorang gadis Jepang dengan rambut coklat lurus, kulit putih, mengenakan gaun, renda dan pita, membawa tas kecil, tersenyum", dan gayanya adalah "dua dimensi". Saya ingin bertanya kepada teman-teman yang menyukai dimensi kedua, apakah gambar yang dihasilkan ini cocok dengan gadis Jepang di benak Anda?

Kumpulan deskripsi lain dalam gaya magis adalah "surrealisme, tekstur luar biasa, resolusi 4k, cyberpunk, kapal perang, megah, asap, raksasa logam, senjata laser, perender oktan", dan gayanya adalah "lukisan cat minyak". Melihat gambar-gambar di bawah ini, ada rasa ketegangan dalam pertempuran hari kiamat.

Kami menempatkan deskripsi yang sama lagi ke dalam Difusi Stabil. Dalam hal kekayaan detail, Difusi Stabil lebih baik, tetapi gaya gambarnya terlihat abu-abu dan tidak memberikan dampak warna yang kuat kepada orang-orang. Dan gayanya lebih realistis, yang sedikit berbeda dengan surealisme.

Tampaknya setidaknya di jalur Wen Shengtu, Tongyi Wanxiang tampaknya benar-benar dipahami. Orang tidak bisa tidak menghela nafas, kemampuan AI generatif di bidang menggambar telah berkembang.

Selanjutnya, kita akan berbicara tentang fungsi pembuatan gambar kesamaan Tongyi Wanxiang Pengguna hanya perlu memberikan gambar referensi untuk mendapatkan lukisan AI dengan konten dan gaya yang serupa. Perlu dicatat di sini bahwa ukuran gambar yang diunggah harus kurang dari 10M, dan formatnya mendukung JPG, JPEG, PNG, BMP, dll.

Pertama-tama mari kita masukkan sepotong Musk, yang sering berkunjung ke dunia menggambar AI, untuk melihat seperti apa "Fenke" Musk di mata Tongyi Wanxiang. Dibandingkan dengan tubuh asli Musk, gambar yang dihasilkan lebih tua, tetapi senyumannya sama-sama ceria.

Gambar pemandangan lainnya, efek yang dihasilkan sangat bagus. Alirannya menggelegak, dan airnya juga dihiasi lebih banyak daun yang berguguran, yang tidak kalah dengan gambar aslinya.

Dalam pengalaman, jantung mesin juga menemukan bahwa gambar yang dihasilkan oleh teks Wanxiang arti umum dapat langsung menghasilkan gambar serupa. Di sini kami memilih salah satu gambar kartun 3D gaya "kucing dalam pakaian antariksa" di atas sebagai gambar aslinya.Begitu hasilnya keluar, kucing yang dihasilkan lebih lucu dan elemen latar belakang lebih banyak.

Terakhir lihat fungsi migrasi gaya. Anda hanya perlu mengunggah gambar asli yang ingin diubah gayanya dan diagram skematik gaya target, dan Anda dapat dengan cepat mengolah gambar asli menjadi gambar kreatif gaya target. Sama seperti pembuatan gambar serupa, ukuran gambar asli dan gambar gaya tidak boleh melebihi 10M, dan formatnya sama.

Kami pertama-tama memilih gambar asli yang realistis dan gambar gaya impresionis. Akibatnya, gambar asli yang realistis telah sepenuhnya mengubah gayanya dan menjadi lukisan impresionis.

Kemudian coba gambar asli kartun 3D dan gambar gaya sketsa. Dapat dilihat dari hasil bahwa peralihan antara kedua gaya itu mudah.

Terakhir, pilih gambar asli dengan gaya lukisan Cina dan gambar dengan gaya cat air. Hasil yang dihasilkan juga sama bagusnya.

Setelah beberapa pengalaman, apakah itu diagram Wensheng atau diagram Tusheng, Tongyi Wanxiang memberi kami banyak kejutan dalam hal korelasi semantik, integritas gambar, dan kekayaan detail. Terutama fungsi migrasi gaya, peralihan antara gaya yang berbeda sangat mulus, gambar yang dihasilkan hampir tidak memiliki rasa splicing dan smearing, seolah-olah termasuk dalam gaya target.

Sebagai anggota baru keluarga model skala besar Tongyi Alibaba Cloud, Ali mengatakan bahwa kemampuan Tongyi Wanxiang yang ada saat ini hanyalah sebuah ujian kecil, dan kemampuannya masih terus berkembang. Di masa mendatang, kapabilitas yang relevan akan dibuka secara bertahap untuk pelanggan industri.

Model Komposer yang dikembangkan sendiri: 5 miliar parameter, akan mencapai puncak

Sebelumnya, model besar dari banyak perusahaan menyiapkan orang "multi-modal", dengan kemampuan menggambar AI. Sebaliknya, berapa banyak konten teknis yang dimiliki oleh makna universal Ali? Tampaknya itu bukan tiruan yang sederhana, tetapi memiliki kemampuan uniknya sendiri.

Dapat dipahami bahwa Tongyi Wanxiang didasarkan pada Komposer, model generatif gabungan yang dikembangkan sendiri yang dikembangkan oleh Ali, yang memiliki 5 miliar parameter dan dilatih pada miliaran pasangan teks dan gambar. Pada titik di mana industri sedang mempertimbangkan bagaimana meningkatkan kemampuan kontrol model lukisan AI, Composer telah memberikan ide-ide inovatifnya.

Melalui kerangka kerja "generasi gabungan" berdasarkan model difusi, Komposer dapat membongkar dan menggabungkan elemen desain gambar seperti pencocokan warna, tata letak, dan gaya, menghasilkan efek pembuatan gambar yang sangat terkendali dan sangat bebas.

Hasilnya, seperti yang Anda dan saya lihat, hanya satu model yang dapat mendukung tugas pembuatan gambar multi-kelas. Zhou Jingren, Chief Technology Officer Alibaba Cloud, berpartisipasi dalam penelitian Composer, dan hasil yang relevan telah disertakan dalam ICML 2023, konferensi AI internasional teratas.

* Alamat kertas:

Alamat GitHub:

Yang disebut kombinasi pembongkaran, pertama-tama menguraikan gambar menjadi elemen desain yang berbeda, seperti pencocokan warna, sketsa, tata letak, gaya, semantik, bahan, dll. Elemen desain ini kemudian digabungkan kembali menjadi gambar baru menggunakan model AI. Di sini, proses pembongkaran dan perakitan memungkinkan modifikasi dan pengeditan bebas dari elemen yang digunakan, sehingga kemampuan kontrolnya sangat ditingkatkan.

*Teardown - Gabungan proses pembuatan gambar. *

Tak hanya itu, Composer juga bisa meraih ruang kreatif yang lebih luas dengan “memeras” potensi bongkar-pasang. Dengan asumsi ada 100 gambar, yang masing-masing dibagi menjadi 8 elemen, ada 100 pangkat 8 dari kombinasi semua elemen. Peningkatan jumlah yang eksponensial ini dikenal sebagai fenomena ledakan kombinatorial, dan tidak diragukan lagi menciptakan ruang generasi yang sangat besar untuk model AI. Pada saat yang sama, desainer manusia juga diberi kebebasan besar dan kemampuan penyesuaian saat menghasilkan gambar yang disesuaikan.

* Proses rekombinasi gambar. *

Ini didasarkan pada kerangka Komposer yang memungkinkan Tongyi Wanxiang untuk mengalami dua fungsi pembuatan grafik kesamaan dan transfer gaya. Saat menggunakan model pemahaman gambar untuk membongkar gambar menjadi elemen yang berbeda, saat menggunakan model difusi untuk menggabungkan kembali elemen-elemen ini menjadi gambar baru, pendekatan dua cabang, pembuatan gambar adalah hal yang biasa.

Diantaranya, untuk pembuatan gambar yang mirip, menjaga konten semantik gambar tidak berubah, hanya mengubah detail lokal pada gambar yang dapat menghasilkan gambar serupa. Dalam prosesnya, konsistensi bagian utama dari gambar asli dapat dipertahankan dengan lebih baik, dan keragaman serta kualitas gambar yang dihasilkan juga dapat ditingkatkan.

Untuk transfer gaya, di satu sisi, bentuk dasar dan struktur gambar asli dipertahankan, dan di sisi lain, gaya, warna, sapuan kuas, dan informasi pribadi lainnya dari gambar gaya target ditransfer untuk akhirnya mewujudkan gaya. transfer.

Menggunakan model besar sebagai inti untuk membuat basis terpadu untuk AI generatif

Tampaknya efek tak terduga Tongyi Wanxiang berasal dari teknologi inti Ali sendiri.

Faktanya, di China, Ali adalah salah satu perusahaan besar yang mulai mengeksplorasi AI generatif lebih awal, dan memulai penelitian dan pengembangan teknologi model skala besar pada tahun 2018. Pada tahun 2019, model pelatihan bahasa besar StructBERT yang diusulkan oleh Dharma Institute melampaui penelitian Google, Microsoft, dan Facebook, dan mencapai puncak daftar tolok ukur resmi NLP GLUE pada saat itu.

Pada tahun 2021, Ali akan merilis model skala besar multi-modal pertama M6 dengan puluhan miliar parameter di China dan PLUG model bahasa berskala besar yang disebut "GPT-3 versi China". Diantaranya, setelah beberapa iterasi, M6 telah mencapai skala parameter sepuluh triliun level, dan M6 digabungkan dengan kebutuhan bisnis Alipay dan Taobao.

Pada WAIC tahun lalu, Ali merilis seri model skala besar Tongyi, yang membangun "model dasar" untuk industri untuk pertama kalinya, mencapai representasi modal terpadu, representasi tugas, dan struktur model. Selain itu, model inti yang relevan bersifat open source untuk pengembang di seluruh dunia.

Mengenai penerapan AI generatif, kami telah menghadapi beberapa tantangan: biaya daya komputasi yang tinggi, proses konstruksi yang rumit, dan keserbagunaan yang terbatas. Tongyi telah menciptakan basis terpadu AI pertama di industri, dan membangun sistem kecerdasan buatan hierarkis dengan model besar dan kecil terkoordinasi. Tujuannya adalah untuk menghadapi tantangan dan membiarkan AI berpindah dari persepsi ke kognisi.

Dapat dikatakan bahwa Ali telah membuat beberapa kontribusi terdepan dan terkemuka untuk pengembangan model skala besar Tiongkok dalam hal model super besar, kemampuan bahasa dan multimodal, pelatihan rendah karbon, layanan platform, dan aplikasi pendaratan .

Sebelum Tongyi Wanxiang, Ali berturut-turut merilis "Tongyi Thousand Questions" untuk pemrosesan bahasa alami dan "Tongyi Listening" yang berspesialisasi dalam produktivitas audio dan video. Sejauh ini, tiga arah utama AI semuanya telah dibuka. Menghadapi potensi permintaan yang sangat besar untuk model besar dan AI generatif, Alibaba Cloud memiliki keunggulan unik.

Selain akumulasi teknologi model berskala besar, kemampuan infrastruktur cloud yang kuat sangatlah penting. Dalam hal daya komputasi, Alibaba Cloud adalah penyedia layanan komputasi awan nomor satu di Asia dan ketiga di dunia, dan modelnya yang besar memiliki dukungan sistem daya komputasi yang solid. Misalnya, Alibaba Cloud memiliki cadangan daya komputasi cerdas terkuat di China, dan klaster komputasi cerdas Alibaba Cloud dapat mendukung skala GPU maksimum 100.000 kartu.

Selain itu, Ali pertama kali mengusulkan konsep "Model sebagai Layanan" di China, dan memimpin dalam membangun komunitas layanan model AI terbesar di China, "Magic Build", menekankan pada open source dan keterbukaan, serta mempromosikan inklusivitas AI. Pada forum bertema "MaaS: A New Paradigm for Model-Centric AI Development" dari Alibaba Cloud, Zhou Jingren membagikan visinya untuk MaaS dan cara lebih jauh memberdayakan produk dan mitra.

*Jingren Zhou, CTO Alibaba Cloud. *

Dalam kompetisi AI 2.0, kompetisi memasuki babak baru, setelah kompetisi 100 model pasti akan ada gelombang besar, dan Alibaba Cloud sudah siap.

Lihat Asli

Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.

1 Suka

Hadiah
1
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
#PI#
293k postingan
#BTC#
262k postingan
#ETH#
172k postingan
4#GateioInto11#
83k postingan
5#ContentStar#
69k postingan
6#GT#
68k postingan
7#DOGE#
63k postingan
8#BOME#
62k postingan
9#MAGA#
53k postingan
10#SLERF#
51k postingan

Sematkan

peta situs