Tanpa pelatihan apa pun, GPT-4V dapat langsung berinteraksi dengan smartphone layaknya manusia dan menyelesaikan berbagai perintah yang ditentukan.
Misalnya, minta untuk membeli alat buih susu dengan anggaran $50-$100.
Itu dapat menyelesaikan pemilihan program belanja (Amazon) langkah demi langkah dan membukanya, klik pada bilah pencarian untuk memasukkan "milk frother", temukan fungsi filter, pilih kisaran anggaran, klik pada produk dan selesaikan pesanan, total 9 tindakan.
Menurut pengujian, GPT-4V memiliki tingkat keberhasilan 75% dalam menyelesaikan tugas serupa di iPhone.
Oleh karena itu, beberapa orang menyesalkan bahwa dengan itu, Siri secara bertahap tidak berguna (ia memahami iPhone lebih baik daripada Siri)
Siapa yang tahu bahwa seseorang melambaikan tangannya secara langsung:
Siri tidak sekuat itu sejak awal. (Kepala anjing)
Beberapa orang juga berseru:
Era interaksi suara cerdas telah dimulai. Ponsel kami mungkin akan menjadi perangkat layar murni.
🐂🍺 Benarkah?
GPT-4V Operasi Zero-Sample iPhone
Penelitian ini berasal dari University of California, San Diego, Microsoft, dan lainnya.
Ini sendiri adalah pengembangan dari MM-Navigator, yang merupakan agen berbasis GPT-4V, yang digunakan untuk melakukan tugas-tugas navigasi di antarmuka pengguna smartphone.
Pengaturan Eksperimental
Pada setiap langkah waktu, MM-Navigator mendapat tangkapan layar.
Sebagai model multimodal, GPT-4V menerima gambar dan teks sebagai input dan menghasilkan output teks.
Di sini, untuk membaca informasi tangkapan layar langkah demi langkah dan menampilkan langkah-langkah yang akan dioperasikan.
Sekarang pertanyaannya adalah:
Cara membuat model menghitung koordinat lokasi yang tepat secara wajar yang harus diklik pada layar tertentu (GPT-4V hanya dapat memberikan perkiraan lokasi).
Solusi yang diberikan oleh penulis sangat sederhana, menggunakan alat OCR dan IconNet untuk mendeteksi elemen UI pada setiap layar yang diberikan dan menandainya dengan nomor yang berbeda.
Dengan cara ini, GPT-4V hanya perlu menghadapi tangkapan layar untuk menunjukkan nomor apa yang harus ditunjukkan.
Dua Tes Bakat
Pengujian pertama kali dilakukan pada iPhone.
Agar berhasil memanipulasi ponsel, GPT-4V diperlukan untuk memahami berbagai jenis layar:
Salah satunya adalah penalaran semantik, yang melibatkan pemahaman input di layar dan mengartikulasikan tindakan yang diperlukan untuk menyelesaikan instruksi yang diberikan.
Salah satunya adalah kemampuan untuk menunjukkan lokasi yang tepat (yaitu, nomor mana pada saat itu) setiap tindakan harus dilakukan.
Oleh karena itu, penulis mengembangkan dua set tes untuk membedakannya.
1. Deskripsi tindakan yang diharapkan
Hanya keluarkan apa yang harus dilakukan, bukan koordinat spesifik.
Dalam tugas ini, GPT-4V memahami instruksi dan memberikan langkah-langkah operasional dengan akurasi 90,9%.
Misalnya, pada tangkapan layar di bawah browser Safari, pengguna ingin membuka tab baru, tetapi tanda + di sudut kiri bawah berwarna abu-abu, apa yang harus saya lakukan?
Jawaban GPT-4V:
Biasanya ini baik-baik saja, tetapi dilihat dari tangkapan layar, sepertinya Anda telah mencapai batas 500 tab, dan untuk membuka yang baru, Anda harus menutup beberapa tab yang ada dan melihat apakah tanda + dapat diklik.
Melihat pemahaman gambar, itu sangat bagus ~ Untuk lebih banyak contoh, Anda dapat membolak-balik kertas.
2. Eksekusi Tindakan Lokal
Ketika GPT-4V diminta untuk mengubah semua "kata-kata di atas kertas" ini menjadi tindakan nyata (yaitu, misi uji kedua), tingkat akurasinya turun menjadi 74,5%.
Sekali lagi, dalam contoh di atas, ia dapat mengikuti instruksinya sendiri dan memberikan nomor operasi yang benar, seperti mengklik angka 9 untuk menutup tab.
Tetapi seperti yang ditunjukkan pada gambar di bawah ini, ketika diminta untuk menemukan aplikasi yang dapat mengenali bangunan, itu dapat secara akurat menunjukkan penggunaan ChatGPT, tetapi memberikan angka yang salah "15" (yang seharusnya "5").
Ada juga kesalahan karena tangkapan layar itu sendiri tidak ditandai dengan posisi yang sesuai.
Misalnya, biarkan menyalakan mode siluman dari gambar di bawah ini,Langsung berikan wifi ada di"11"Posisi,Ini sama sekali tidak cocok。
Selain itu, selain tugas satu langkah sederhana ini, tes ini juga menemukan bahwa GPT-4V dapat menangani instruksi kompleks seperti "membeli aerator" tanpa pelatihan.
Dalam proses ini, kita dapat melihat bahwa GPT-4V mencantumkan apa yang harus dilakukan pada setiap langkah secara rinci, serta koordinat numerik yang sesuai.
Akhirnya, ada tes di Android.
Secara keseluruhan, kinerjanya jauh lebih baik daripada model lain seperti Llama 2, PaLM 2, dan ChatGPT.
Skor kinerja keseluruhan tertinggi untuk melakukan tugas-tugas seperti instalasi dan belanja adalah 52,96%, dan skor tertinggi untuk model dasar ini adalah 39,6%.
Untuk keseluruhan percobaan, signifikansi terbesarnya adalah membuktikan bahwa model multimodal seperti GPT-4V dapat secara langsung mentransfer kemampuan ke pemandangan yang tidak terlihat, menunjukkan potensi besar untuk interaksi ponsel.
Perlu disebutkan bahwa setelah membaca penelitian ini, netizen juga mengemukakan dua poin:
Yang pertama adalah bagaimana kita mendefinisikan keberhasilan pelaksanaan tugas.
Misalnya, jika kita ingin membeli isi ulang pembersih tangan, dan kita hanya ingin satu tas, tetapi membeli enam tas lagi, apakah berhasil?
Kedua, semua orang tidak bisa bersemangat terlalu dini, dan masih banyak ruang untuk kemajuan jika Anda ingin benar-benar mengkomersialkan teknologi ini.
Sebab, Siri yang memiliki tingkat akurasi hingga 95% sering dikeluhkan sangat buruk.
Pengenalan Tim
Ada 12 penulis dalam penelitian ini, yang sebagian besar berasal dari Microsoft.
Satu untuk dua.
Mereka adalah An Yan, Ph.D. mahasiswa di University of California, San Diego, dan Zhengyuan Yang, seorang peneliti senior di Microsoft, yang menerima gelar sarjana dari University of Science and Technology of China dan Ph.D. dari University of Rochester.
Link Referensi:
[1]
[2]
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
GPT-4V dapat "mengoperasikan" telepon untuk menyelesaikan perintah apa pun tanpa pelatihan
Sumber Asli: Dimensi Kuantum
Satu studi menemukan bahwa:
Tanpa pelatihan apa pun, GPT-4V dapat langsung berinteraksi dengan smartphone layaknya manusia dan menyelesaikan berbagai perintah yang ditentukan.
Misalnya, minta untuk membeli alat buih susu dengan anggaran $50-$100.
Itu dapat menyelesaikan pemilihan program belanja (Amazon) langkah demi langkah dan membukanya, klik pada bilah pencarian untuk memasukkan "milk frother", temukan fungsi filter, pilih kisaran anggaran, klik pada produk dan selesaikan pesanan, total 9 tindakan.
Oleh karena itu, beberapa orang menyesalkan bahwa dengan itu, Siri secara bertahap tidak berguna (ia memahami iPhone lebih baik daripada Siri)
Siri tidak sekuat itu sejak awal. (Kepala anjing)
GPT-4V Operasi Zero-Sample iPhone
Penelitian ini berasal dari University of California, San Diego, Microsoft, dan lainnya.
Ini sendiri adalah pengembangan dari MM-Navigator, yang merupakan agen berbasis GPT-4V, yang digunakan untuk melakukan tugas-tugas navigasi di antarmuka pengguna smartphone.
Pengaturan Eksperimental
Pada setiap langkah waktu, MM-Navigator mendapat tangkapan layar.
Sebagai model multimodal, GPT-4V menerima gambar dan teks sebagai input dan menghasilkan output teks.
Di sini, untuk membaca informasi tangkapan layar langkah demi langkah dan menampilkan langkah-langkah yang akan dioperasikan.
Sekarang pertanyaannya adalah:
Cara membuat model menghitung koordinat lokasi yang tepat secara wajar yang harus diklik pada layar tertentu (GPT-4V hanya dapat memberikan perkiraan lokasi).
Solusi yang diberikan oleh penulis sangat sederhana, menggunakan alat OCR dan IconNet untuk mendeteksi elemen UI pada setiap layar yang diberikan dan menandainya dengan nomor yang berbeda.
Dua Tes Bakat
Pengujian pertama kali dilakukan pada iPhone.
Agar berhasil memanipulasi ponsel, GPT-4V diperlukan untuk memahami berbagai jenis layar:
Salah satunya adalah penalaran semantik, yang melibatkan pemahaman input di layar dan mengartikulasikan tindakan yang diperlukan untuk menyelesaikan instruksi yang diberikan.
Salah satunya adalah kemampuan untuk menunjukkan lokasi yang tepat (yaitu, nomor mana pada saat itu) setiap tindakan harus dilakukan.
Oleh karena itu, penulis mengembangkan dua set tes untuk membedakannya.
1. Deskripsi tindakan yang diharapkan
Hanya keluarkan apa yang harus dilakukan, bukan koordinat spesifik.
Dalam tugas ini, GPT-4V memahami instruksi dan memberikan langkah-langkah operasional dengan akurasi 90,9%.
Misalnya, pada tangkapan layar di bawah browser Safari, pengguna ingin membuka tab baru, tetapi tanda + di sudut kiri bawah berwarna abu-abu, apa yang harus saya lakukan?
Melihat pemahaman gambar, itu sangat bagus ~ Untuk lebih banyak contoh, Anda dapat membolak-balik kertas.
2. Eksekusi Tindakan Lokal
Ketika GPT-4V diminta untuk mengubah semua "kata-kata di atas kertas" ini menjadi tindakan nyata (yaitu, misi uji kedua), tingkat akurasinya turun menjadi 74,5%.
Sekali lagi, dalam contoh di atas, ia dapat mengikuti instruksinya sendiri dan memberikan nomor operasi yang benar, seperti mengklik angka 9 untuk menutup tab.
Misalnya, biarkan menyalakan mode siluman dari gambar di bawah ini,Langsung berikan wifi ada di"11"Posisi,Ini sama sekali tidak cocok。
Dalam proses ini, kita dapat melihat bahwa GPT-4V mencantumkan apa yang harus dilakukan pada setiap langkah secara rinci, serta koordinat numerik yang sesuai.
Secara keseluruhan, kinerjanya jauh lebih baik daripada model lain seperti Llama 2, PaLM 2, dan ChatGPT.
Skor kinerja keseluruhan tertinggi untuk melakukan tugas-tugas seperti instalasi dan belanja adalah 52,96%, dan skor tertinggi untuk model dasar ini adalah 39,6%.
Perlu disebutkan bahwa setelah membaca penelitian ini, netizen juga mengemukakan dua poin:
Yang pertama adalah bagaimana kita mendefinisikan keberhasilan pelaksanaan tugas.
Misalnya, jika kita ingin membeli isi ulang pembersih tangan, dan kita hanya ingin satu tas, tetapi membeli enam tas lagi, apakah berhasil?
Sebab, Siri yang memiliki tingkat akurasi hingga 95% sering dikeluhkan sangat buruk.
Pengenalan Tim
Ada 12 penulis dalam penelitian ini, yang sebagian besar berasal dari Microsoft.
Mereka adalah An Yan, Ph.D. mahasiswa di University of California, San Diego, dan Zhengyuan Yang, seorang peneliti senior di Microsoft, yang menerima gelar sarjana dari University of Science and Technology of China dan Ph.D. dari University of Rochester.
Link Referensi:
[1]
[2]