Pada 7 Juli, CEO Midjourney David Holz berbicara di Konferensi Kecerdasan Buatan Dunia 2023, dengan alasan bahwa AI akan menjadi pembawa dan mesin baru kreativitas dan imajinasi. Melalui AI, kami memiliki potensi untuk memperkuat imajinasi mentah seluruh umat manusia. Mengenai nama perusahaan Midjouney, Holz menyatakan bahwa itu berasal dari konsep jalan tengah dalam buku Tao "Zhuang Zhou" Dia percaya bahwa sastra klasik Tiongkok telah membawa banyak pemikiran terindah dan terdalam.
Saat ini, Midjouney sedang mengembangkan versi 5.3, dan akan memberikan serangkaian kemampuan zooming dan panning untuk secara otomatis menghasilkan gambar baru yang terkait dengan sudut yang berbeda di versi 6, dan dapat mengontrol keacakan gambar yang dihasilkan, memungkinkan pembuatnya menjadi aneh. keseimbangan antara keindahan dan gambar yang membingungkan. Di masa depan, Midjourney bertujuan untuk mengembangkan gambar yang dihasilkan secara tiga dimensi, real-time, dan dapat disesuaikan secara dinamis.
Mengenai masa depan teknologi, dia tidak yakin kemana perginya. Tetapi model fusi (model gambar/teks untuk fusi) mungkin merupakan arah pengembangan yang lebih mungkin. Dia percaya bahwa potensi kemajuan teknologi AI belum sepenuhnya terwujud, dan sepuluh kali lebih kuat dari sekarang, dan kemajuan seratus kali lipat tidak bisa dihindari.
Dia percaya bahwa sebagian besar kemajuan teknologi sejauh ini berasal dari upaya membuat orang lebih baik, mencoba memperkuat kemampuan manusia. Oleh karena itu, AGI mungkin tidak diperlukan, sebagai perpanjangan dari manusia kita, AI adalah pilihan yang lebih baik untuk memberdayakan manusia.
Berikut transkrip pidatonya:
Halo semuanya, saya David Holz, CEO dan pendiri Midjourney. Saya merasa terhormat diundang oleh Pemerintah Kota Shanghai untuk berpartisipasi dalam Konferensi Dunia tentang Kecerdasan Buatan dan berharap dapat bergabung dalam acara hari ini.
Salah satu teknologi terpenting di dunia adalah mesin. Mesin adalah mesin yang digunakan untuk menghasilkan, mentransfer atau memperkuat. Kami menggunakan mesin untuk membuat semua jenis kendaraan seperti mobil, pesawat, dan kapal di berbagai pabrik. Dan sekarang, saatnya menganggap AI sebagai jenis mesin baru.
Di MidJourney, kami mencoba menggunakan mesin ini untuk membuat kendaraan jenis baru, yang bukan merupakan kendaraan, melainkan kendaraan yang membawa pemikiran dan imajinasi kami.
Seperti Anda bisa mengubah dunia dengan bola sepak, tapi masih butuh kaki untuk menendangnya. Kami berharap dapat menciptakan jenis kendaraan baru yang dapat Anda gunakan untuk berimajinasi, bukan hanya menghasilkan gerakan. Sebelum kita dapat mencipta, pertama-tama kita harus membayangkan apa yang kita bisa, ke mana kita bisa pergi, apa yang mungkin. Saya pikir alat yang kami buat, lebih dari apa pun, difokuskan untuk memperkuat kekuatan imajinasi primordial. Kami memiliki kesempatan untuk memperkuat bukan sembarang individu, tetapi imajinasi seluruh umat manusia. Saya telah mengunjungi China berkali-kali dengan Leap Motion (perangkat pengenal gerakan), dan kantor pertama Leap Motion ada di Shanghai. Shanghai memiliki nuansa khusus yang sangat saya sukai, tampaknya merupakan kombinasi dari San Francisco, Los Angeles, New York, dan beberapa kota Eropa kuno. Ia memiliki kekuatan sejarah dan budaya kuno, tetapi juga memiliki rasa masa depan yang belum dimurnikan. Ini sangat keren, dan itu adalah dua hal favorit saya.
Faktanya, pada dasarnya saya adalah pembaca fiksi ilmiah yang rajin, dan latar paling gila yang pernah saya lihat berasal dari kisah klasik Tiongkok. Saya pikir sastra Tiongkok kuno memiliki pemikiran yang paling indah dan mendalam dalam sejarah manusia. Nama MidJourney sebenarnya berasal dari terjemahan salah satu teks Tao kuno favorit saya, dari Zhuang Zhou. Misalnya, "Impian Kupu-Kupu Zhuang Zhou", "Zi Fei Yu", "Paod Ding Jie Niu", "Kayu dari Kayu Tidak Layak", "Perahu Kosong", saya suka ini. Yang saya sukai dari nama MidJourney adalah menurut saya orang-orang cenderung melupakan masa lalu dan bisa merasa tersesat dan tidak pasti tentang masa depan. Tapi saya lebih merasa bahwa kita sebenarnya sedang dalam perjalanan setengah jalan, kita berasal dari masa lalu yang kaya dan indah, dan kita memiliki masa depan yang liar dan luar biasa.
Kami baru-baru ini merilis versi 5.2 dari Mid Journey dan saat ini sedang mengerjakan versi 5.3. Setelah itu saya berharap untuk merilis pembaruan besar, yang saya harap akan disebut versi 6. Fitur terbaru yang kami perkenalkan adalah tentang penskalaan gambar, dan saat Anda memperkecil, Anda dapat membuat berbagai cerita dan lingkungan yang berubah di sekitar tema utama. Minggu ini kami merilis fitur serupa yang memungkinkan Anda menggerakkan kamera, lalu saat Anda menggerakkan kamera ke samping, Anda dapat terus mengubah isyarat, lalu menceritakan kisahnya, dan kami merilis sistem kontrol keren ini yang menggabungkan fitur-fitur baru ini untuk kontrol Halus yang lebih baik atas pembuatan gambar.
Anda juga dapat menggabungkan ini dengan kontrol gaya. "Kontrol gaya" agak membingungkan, tetapi idenya adalah Anda ingin memberi tahu AI betapa cantiknya Anda ingin menghasilkannya, dan seberapa besar risiko yang Anda ambil untuk menciptakan keindahan itu. Meski tidak konvensional, berantakan, dan aneh, terkadang hasilnya benar-benar luar biasa.
Terkadang Anda perlu berpetualang, dan ini memungkinkan seseorang untuk mengontrol keseimbangan antara risiko dan keacakan keindahan, atau seberapa banyak perhatian diberikan pada keindahan umum suatu gambar. Kami juga memperkenalkan sesuatu yang kami sebut mode turbo. Mode turbo adalah tempat kami menggunakan GPU sebanyak mungkin, membuat pembuatan gambar menjadi sangat cepat. Hal ini membuat generasi 4 sampai 5 kali lebih cepat. Mode ini membuat Anda seolah-olah menggunakan 64 atau lebih dari 100 GPU untuk menghasilkan gambar. Untuk mencapai daya komputasi ini, komputer Anda harus berharga sekitar 500.000 dolar AS. Kedengarannya agak gila, dan kami sedang mengerjakan yang lebih gila lagi. Meskipun sebagian besar masih dalam proses pembuatan, menurut kami seiring waktu Midjourney akan berevolusi untuk membuat tidak hanya gambar 2D, tetapi juga gambar 3D, gambar bergerak, dan Anda bahkan dapat berinteraksi dengan piksel itu sendiri. Di masa mendatang mungkin Anda akan dapat mengubah dan membentuk kembali apa yang Anda gambar secara real time.
Seseorang hanya membutuhkan prosesor AI yang sangat besar, dan kemudian dapat memimpikan semua dunia yang berbeda, dan mimpi tersebut dapat berinteraksi dengan pikiran kita. Dan kami seperti memimpikannya (AI), dan itu akan sangat keren. Penemuan berurutan dari model Diffusion, model Transformer, dan model Clip sebenarnya memungkinkan AI memasuki ruang gambar. Sekitar 2 tahun yang lalu, sebelum layanan AI gambar apa pun keluar, semua peneliti kami berkomunikasi di San Francisco, saya ingat mengatakan bahwa model ini, terutama model Difusi, pasti akan membawa sesuatu yang sama sekali berbeda. Ada juga teknologi jaringan konfrontasi generatif, yaitu teknologi dasar yang digunakan semua orang untuk membuat generasi gambar sebelumnya.
Saya hanya ingat semua orang langsung mengangguk dengan cara yang tidak biasa, mengatakan bahwa model Difusi benar-benar berbeda. Itu adalah momen yang sangat serius, dan saya memiliki perasaan yang kuat bahwa saya harus terlibat dan membawa antarmuka pengguna yang lebih manusiawi ke dalam teknologi ini.
Namun terkait masa depan, sulit untuk mengetahui secara pasti bagaimana perkembangan teknologi tersebut. Terkadang kita berbicara tentang bagaimana mengubah model bahasa menjadi model Difusi sekarang, yaitu menggunakan model Difusi untuk membuat teks. Atau model gambar akan menjadi lebih seperti model bahasa. Bagaimana ini dicapai? Istilah teknis untuk pendekatan ini adalah Autoregressive Transformer, atau AI akan berkembang menuju model hybrid. Tapi sangat sulit untuk mengatakannya. Saya pikir kita baru di awal perubahan ini, tapi saya 100% yakin ada banyak kemajuan yang harus dicapai. Peningkatan sepuluh kali lipat, seratus kali lipat kemungkinan besar tidak dapat dihindari.
Kemajuan ini tidak hanya dalam kinerja, tetapi dalam antarmuka pengguna dan produk yang memungkinkan kami menggunakan teknologi ini dengan lebih baik. Baik secara individu maupun kolektif dapat membuat hal-hal keren yang memecahkan masalah dengan lebih baik. Douglas Engelbart adalah orang pertama yang membuat editor teks. Awalnya, komputer diprogram dengan meninju kartu, atau melubangi kartu. Tapi Douglas mulai memikirkan apa yang akan terjadi jika kita memprogram komputer, yang terdengar gila saat itu. Idenya adalah bahwa dengan memprogram komputer pada komputer kita dapat mempercepat siklus ini, membuat apa yang kita lakukan menjadi lebih baik, membuat komputer lebih bertenaga, memperkuat segalanya. Ide ini akhirnya menjadi kenyataan. Meskipun kami memiliki budaya yang berbeda seperti AI, antarmuka manusia-mesin, budaya aplikasi cerdas, saya pikir sebagian besar kemajuan teknologi sejauh ini berasal dari upaya membuat orang lebih baik, mencoba memperkuat kemampuan manusia.
Kami belum benar-benar melihat era AI datang, di mana kami akan memiliki AI independen untuk memecahkan masalah. Namun jika kita terlalu memikirkan untuk bergerak ke arah itu, kita mungkin akan kehilangan banyak peluang yang ada dalam teknologi. Saya tidak hanya memikirkan tentang apa yang dapat dilakukan AI, tetapi juga bagaimana menciptakan fluiditas dan keterjeratan di antara berbagai hal. Karena alat seharusnya tidak terasa seperti seseorang, itu harus terasa seperti perpanjangan dari diri Anda, tubuh Anda, pikiran Anda. Saya sedang berpikir tentang bagaimana membangun teknologi ini di mana manusia dan AI terjalin sehingga Anda tidak merasa seperti sedang berkolaborasi dengan seorang seniman, tetapi lebih seperti Anda sedang membayangkan sesuatu dan itu ada di layar. Banyak orang menggambarkan perjalanan saya seolah-olah tujuan itu adalah bagian dari pemikiran mereka. Saya pikir kebanyakan AI harus seperti ini, itu harus menjadi perpanjangan dari diri kita sendiri.
Jadi saya ingin mengucapkan terima kasih sekali lagi kepada Tuan Chen dan kepada seluruh hadirin. WAIC cukup keren dan saya harap saya bisa hadir langsung di masa depan dan menjadi bagian dari acara ini. Saya menantikan lebih banyak kerja sama dengan China, saya ingat semua pengalaman pribadi yang luar biasa yang saya alami di sana, dan saya berharap semua orang dapat menikmati kesenangan berinteraksi di sana juga.
Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Pidato terbaru CEO Midjourney David Holz: AI adalah perpanjangan dari diri kita sendiri
Sumber: Teknologi Tencent
Pada 7 Juli, CEO Midjourney David Holz berbicara di Konferensi Kecerdasan Buatan Dunia 2023, dengan alasan bahwa AI akan menjadi pembawa dan mesin baru kreativitas dan imajinasi. Melalui AI, kami memiliki potensi untuk memperkuat imajinasi mentah seluruh umat manusia. Mengenai nama perusahaan Midjouney, Holz menyatakan bahwa itu berasal dari konsep jalan tengah dalam buku Tao "Zhuang Zhou" Dia percaya bahwa sastra klasik Tiongkok telah membawa banyak pemikiran terindah dan terdalam.
Saat ini, Midjouney sedang mengembangkan versi 5.3, dan akan memberikan serangkaian kemampuan zooming dan panning untuk secara otomatis menghasilkan gambar baru yang terkait dengan sudut yang berbeda di versi 6, dan dapat mengontrol keacakan gambar yang dihasilkan, memungkinkan pembuatnya menjadi aneh. keseimbangan antara keindahan dan gambar yang membingungkan. Di masa depan, Midjourney bertujuan untuk mengembangkan gambar yang dihasilkan secara tiga dimensi, real-time, dan dapat disesuaikan secara dinamis.
Mengenai masa depan teknologi, dia tidak yakin kemana perginya. Tetapi model fusi (model gambar/teks untuk fusi) mungkin merupakan arah pengembangan yang lebih mungkin. Dia percaya bahwa potensi kemajuan teknologi AI belum sepenuhnya terwujud, dan sepuluh kali lebih kuat dari sekarang, dan kemajuan seratus kali lipat tidak bisa dihindari.
Dia percaya bahwa sebagian besar kemajuan teknologi sejauh ini berasal dari upaya membuat orang lebih baik, mencoba memperkuat kemampuan manusia. Oleh karena itu, AGI mungkin tidak diperlukan, sebagai perpanjangan dari manusia kita, AI adalah pilihan yang lebih baik untuk memberdayakan manusia.
Berikut transkrip pidatonya:
Halo semuanya, saya David Holz, CEO dan pendiri Midjourney. Saya merasa terhormat diundang oleh Pemerintah Kota Shanghai untuk berpartisipasi dalam Konferensi Dunia tentang Kecerdasan Buatan dan berharap dapat bergabung dalam acara hari ini.
Salah satu teknologi terpenting di dunia adalah mesin. Mesin adalah mesin yang digunakan untuk menghasilkan, mentransfer atau memperkuat. Kami menggunakan mesin untuk membuat semua jenis kendaraan seperti mobil, pesawat, dan kapal di berbagai pabrik. Dan sekarang, saatnya menganggap AI sebagai jenis mesin baru.
Di MidJourney, kami mencoba menggunakan mesin ini untuk membuat kendaraan jenis baru, yang bukan merupakan kendaraan, melainkan kendaraan yang membawa pemikiran dan imajinasi kami.
Seperti Anda bisa mengubah dunia dengan bola sepak, tapi masih butuh kaki untuk menendangnya. Kami berharap dapat menciptakan jenis kendaraan baru yang dapat Anda gunakan untuk berimajinasi, bukan hanya menghasilkan gerakan. Sebelum kita dapat mencipta, pertama-tama kita harus membayangkan apa yang kita bisa, ke mana kita bisa pergi, apa yang mungkin. Saya pikir alat yang kami buat, lebih dari apa pun, difokuskan untuk memperkuat kekuatan imajinasi primordial. Kami memiliki kesempatan untuk memperkuat bukan sembarang individu, tetapi imajinasi seluruh umat manusia. Saya telah mengunjungi China berkali-kali dengan Leap Motion (perangkat pengenal gerakan), dan kantor pertama Leap Motion ada di Shanghai. Shanghai memiliki nuansa khusus yang sangat saya sukai, tampaknya merupakan kombinasi dari San Francisco, Los Angeles, New York, dan beberapa kota Eropa kuno. Ia memiliki kekuatan sejarah dan budaya kuno, tetapi juga memiliki rasa masa depan yang belum dimurnikan. Ini sangat keren, dan itu adalah dua hal favorit saya.
Faktanya, pada dasarnya saya adalah pembaca fiksi ilmiah yang rajin, dan latar paling gila yang pernah saya lihat berasal dari kisah klasik Tiongkok. Saya pikir sastra Tiongkok kuno memiliki pemikiran yang paling indah dan mendalam dalam sejarah manusia. Nama MidJourney sebenarnya berasal dari terjemahan salah satu teks Tao kuno favorit saya, dari Zhuang Zhou. Misalnya, "Impian Kupu-Kupu Zhuang Zhou", "Zi Fei Yu", "Paod Ding Jie Niu", "Kayu dari Kayu Tidak Layak", "Perahu Kosong", saya suka ini. Yang saya sukai dari nama MidJourney adalah menurut saya orang-orang cenderung melupakan masa lalu dan bisa merasa tersesat dan tidak pasti tentang masa depan. Tapi saya lebih merasa bahwa kita sebenarnya sedang dalam perjalanan setengah jalan, kita berasal dari masa lalu yang kaya dan indah, dan kita memiliki masa depan yang liar dan luar biasa.
Kami baru-baru ini merilis versi 5.2 dari Mid Journey dan saat ini sedang mengerjakan versi 5.3. Setelah itu saya berharap untuk merilis pembaruan besar, yang saya harap akan disebut versi 6. Fitur terbaru yang kami perkenalkan adalah tentang penskalaan gambar, dan saat Anda memperkecil, Anda dapat membuat berbagai cerita dan lingkungan yang berubah di sekitar tema utama. Minggu ini kami merilis fitur serupa yang memungkinkan Anda menggerakkan kamera, lalu saat Anda menggerakkan kamera ke samping, Anda dapat terus mengubah isyarat, lalu menceritakan kisahnya, dan kami merilis sistem kontrol keren ini yang menggabungkan fitur-fitur baru ini untuk kontrol Halus yang lebih baik atas pembuatan gambar.
Anda juga dapat menggabungkan ini dengan kontrol gaya. "Kontrol gaya" agak membingungkan, tetapi idenya adalah Anda ingin memberi tahu AI betapa cantiknya Anda ingin menghasilkannya, dan seberapa besar risiko yang Anda ambil untuk menciptakan keindahan itu. Meski tidak konvensional, berantakan, dan aneh, terkadang hasilnya benar-benar luar biasa.
Terkadang Anda perlu berpetualang, dan ini memungkinkan seseorang untuk mengontrol keseimbangan antara risiko dan keacakan keindahan, atau seberapa banyak perhatian diberikan pada keindahan umum suatu gambar. Kami juga memperkenalkan sesuatu yang kami sebut mode turbo. Mode turbo adalah tempat kami menggunakan GPU sebanyak mungkin, membuat pembuatan gambar menjadi sangat cepat. Hal ini membuat generasi 4 sampai 5 kali lebih cepat. Mode ini membuat Anda seolah-olah menggunakan 64 atau lebih dari 100 GPU untuk menghasilkan gambar. Untuk mencapai daya komputasi ini, komputer Anda harus berharga sekitar 500.000 dolar AS. Kedengarannya agak gila, dan kami sedang mengerjakan yang lebih gila lagi. Meskipun sebagian besar masih dalam proses pembuatan, menurut kami seiring waktu Midjourney akan berevolusi untuk membuat tidak hanya gambar 2D, tetapi juga gambar 3D, gambar bergerak, dan Anda bahkan dapat berinteraksi dengan piksel itu sendiri. Di masa mendatang mungkin Anda akan dapat mengubah dan membentuk kembali apa yang Anda gambar secara real time.
Seseorang hanya membutuhkan prosesor AI yang sangat besar, dan kemudian dapat memimpikan semua dunia yang berbeda, dan mimpi tersebut dapat berinteraksi dengan pikiran kita. Dan kami seperti memimpikannya (AI), dan itu akan sangat keren. Penemuan berurutan dari model Diffusion, model Transformer, dan model Clip sebenarnya memungkinkan AI memasuki ruang gambar. Sekitar 2 tahun yang lalu, sebelum layanan AI gambar apa pun keluar, semua peneliti kami berkomunikasi di San Francisco, saya ingat mengatakan bahwa model ini, terutama model Difusi, pasti akan membawa sesuatu yang sama sekali berbeda. Ada juga teknologi jaringan konfrontasi generatif, yaitu teknologi dasar yang digunakan semua orang untuk membuat generasi gambar sebelumnya.
Saya hanya ingat semua orang langsung mengangguk dengan cara yang tidak biasa, mengatakan bahwa model Difusi benar-benar berbeda. Itu adalah momen yang sangat serius, dan saya memiliki perasaan yang kuat bahwa saya harus terlibat dan membawa antarmuka pengguna yang lebih manusiawi ke dalam teknologi ini.
Namun terkait masa depan, sulit untuk mengetahui secara pasti bagaimana perkembangan teknologi tersebut. Terkadang kita berbicara tentang bagaimana mengubah model bahasa menjadi model Difusi sekarang, yaitu menggunakan model Difusi untuk membuat teks. Atau model gambar akan menjadi lebih seperti model bahasa. Bagaimana ini dicapai? Istilah teknis untuk pendekatan ini adalah Autoregressive Transformer, atau AI akan berkembang menuju model hybrid. Tapi sangat sulit untuk mengatakannya. Saya pikir kita baru di awal perubahan ini, tapi saya 100% yakin ada banyak kemajuan yang harus dicapai. Peningkatan sepuluh kali lipat, seratus kali lipat kemungkinan besar tidak dapat dihindari.
Kemajuan ini tidak hanya dalam kinerja, tetapi dalam antarmuka pengguna dan produk yang memungkinkan kami menggunakan teknologi ini dengan lebih baik. Baik secara individu maupun kolektif dapat membuat hal-hal keren yang memecahkan masalah dengan lebih baik. Douglas Engelbart adalah orang pertama yang membuat editor teks. Awalnya, komputer diprogram dengan meninju kartu, atau melubangi kartu. Tapi Douglas mulai memikirkan apa yang akan terjadi jika kita memprogram komputer, yang terdengar gila saat itu. Idenya adalah bahwa dengan memprogram komputer pada komputer kita dapat mempercepat siklus ini, membuat apa yang kita lakukan menjadi lebih baik, membuat komputer lebih bertenaga, memperkuat segalanya. Ide ini akhirnya menjadi kenyataan. Meskipun kami memiliki budaya yang berbeda seperti AI, antarmuka manusia-mesin, budaya aplikasi cerdas, saya pikir sebagian besar kemajuan teknologi sejauh ini berasal dari upaya membuat orang lebih baik, mencoba memperkuat kemampuan manusia.
Kami belum benar-benar melihat era AI datang, di mana kami akan memiliki AI independen untuk memecahkan masalah. Namun jika kita terlalu memikirkan untuk bergerak ke arah itu, kita mungkin akan kehilangan banyak peluang yang ada dalam teknologi. Saya tidak hanya memikirkan tentang apa yang dapat dilakukan AI, tetapi juga bagaimana menciptakan fluiditas dan keterjeratan di antara berbagai hal. Karena alat seharusnya tidak terasa seperti seseorang, itu harus terasa seperti perpanjangan dari diri Anda, tubuh Anda, pikiran Anda. Saya sedang berpikir tentang bagaimana membangun teknologi ini di mana manusia dan AI terjalin sehingga Anda tidak merasa seperti sedang berkolaborasi dengan seorang seniman, tetapi lebih seperti Anda sedang membayangkan sesuatu dan itu ada di layar. Banyak orang menggambarkan perjalanan saya seolah-olah tujuan itu adalah bagian dari pemikiran mereka. Saya pikir kebanyakan AI harus seperti ini, itu harus menjadi perpanjangan dari diri kita sendiri.
Jadi saya ingin mengucapkan terima kasih sekali lagi kepada Tuan Chen dan kepada seluruh hadirin. WAIC cukup keren dan saya harap saya bisa hadir langsung di masa depan dan menjadi bagian dari acara ini. Saya menantikan lebih banyak kerja sama dengan China, saya ingat semua pengalaman pribadi yang luar biasa yang saya alami di sana, dan saya berharap semua orang dapat menikmati kesenangan berinteraksi di sana juga.