AI mendapat captcha Google, dan model besar multimodal terbaru lebih akurat daripada pemahaman ruang GPT-4V

Sumber asli: Qubits

Sumber gambar: Dihasilkan oleh Unbounded AI

Google CAPTCHA tidak bisa menghentikan AI!

** Model besar multimodal terbaru ** memudahkan untuk menemukan semua lampu lalu lintas dalam gambar dan secara akurat melingkari lokasi tertentu.

Kinerjanya langsung melebihi GPT-4V.

Ini adalah model besar multimodal "Ferret" yang dibawa oleh tim peneliti Apple dan Columbia University.

Ini memiliki kemampuan korelasi grafis dan teks yang lebih kuat, yang meningkatkan akurasi model besar dalam tugas "melihat, berbicara, dan menjawab".

Misalnya, bagian yang sangat kecil (wilayah 1) pada gambar di bawah ini juga dapat dibedakan sebagai kejutan.

GPT-4V tidak menjawab dengan benar dan tidak berkinerja baik di bagian-bagian kecil.

Jadi, bagaimana Ferret melakukannya?

** "Point a little" gambar model besar mengerti **

Masalah inti yang dipecahkan Ferret adalah membuat pemahaman spasial tentang referensi dan landasan lebih dekat.

Referensi mengacu pada memiliki model memahami persis semantik wilayah tertentu, yaitu, apa lokasi yang dapat diketahuinya.

Pemosisian adalah memberikan semantik sehingga model dapat menemukan target yang sesuai dalam grafik.

Bagi manusia, kedua kemampuan ini adalah kombinasi alami, tetapi banyak model multimodal yang ada hanya menggunakan referensi dan penentuan posisi saja.

Oleh karena itu, Ferret mengusulkan jenis baru metode representasi wilayah campuran yang dapat menggabungkan koordinat diskrit dan fitur kontinu untuk mewakili wilayah dalam sebuah gambar.

Ini memungkinkan model untuk membedakan objek yang hampir identik dengan kotak pembatas.

Misalnya, dalam kasus dua objek pada gambar di bawah ini, jika hanya kotak pembatas diskrit yang digunakan, model akan merasa sangat "bingung". Dikombinasikan dengan representasi campuran bentuk bebas berkelanjutan, masalah ini terpecahkan dengan baik.

Untuk mengekstrak fitur kontinu dari berbagai wilayah, makalah ini mengusulkan sampler visual persepsi spasial yang mampu menangani perbedaan sparsitas antara berbagai bentuk.

Akibatnya, Ferret dapat menerima berbagai input regional seperti titik, kotak pembatas, dan bentuk bebas dan memahami semantiknya.

Dalam output, secara otomatis dapat menghasilkan koordinat setiap objek berlabuh berdasarkan teks.

Untuk mencapai hal ini, arsitektur model Ferret mencakup komponen seperti encoder gambar, sampler visual yang sadar spasial, dan model bahasa (LLM).

Ferret menggabungkan koordinat diskrit dan fitur kontinu untuk membentuk representasi wilayah hibrida.

Representasi ini dirancang untuk memecahkan tantangan mewakili area dari berbagai bentuk dan format, termasuk titik, kotak pembatas, dan bentuk bebas.

Setiap koordinat dalam koordinat diskrit dikuantisasi ke koordinat diskrit dari bingkai target, dan kuantisasi ini memastikan ketahanan model untuk ukuran gambar yang berbeda.

Fitur kontinu diekstraksi oleh sampler visual persepsi spasial, yang menggunakan topeng biner dan peta fitur untuk secara acak mengambil sampel titik dalam ROI dan mendapatkan fitur melalui interpolasi bilinear.

Fitur-fitur ini diproses oleh modul kesadaran spasial yang terinspirasi oleh model cloud titik 3D, diringkas menjadi vektor tunggal, dan dipetakan ke model bahasa besar (LLM) untuk diproses lebih lanjut.

Untuk meningkatkan kemampuan Ferret, makalah ini juga membuat dataset yang disebut GRIT.

Himpunan data ini berisi 1,1 juta sampel dan mencakup empat kategori utama: objek individual, hubungan antar objek, deskripsi khusus wilayah, dan penalaran kompleks berbasis wilayah.

Himpunan data GRIT mencakup data yang dikonversi dari himpunan data publik, data penyetelan instruksi yang dihasilkan melalui ChatGPT dan GPT-4, dan tambahan 95 ribu sampel negatif sulit disediakan untuk meningkatkan ketahanan model.

Hasil eksperimen menunjukkan bahwa model tidak hanya menunjukkan kinerja yang unggul dalam tugas referensi dan lokalisasi klasik, tetapi juga jauh melebihi model MLLM lain yang ada dalam dialog multimodal berdasarkan wilayah dan kebutuhan untuk melokalisasi.

Selain itu, penelitian ini mengusulkan Ferret-Bench yang dapat menilai referensi / lokalisasi, semantik, pengetahuan, dan kemampuan penalaran area lokal dari suatu gambar.

Model Ferret, yang dievaluasi pada LLaVA-Bench dan Ferret-Bench, unggul dalam semua tugas, terutama pada tiga tugas baru yang membutuhkan landasan referensial dan visual.

Selain itu, ada peningkatan yang signifikan dalam detail deskripsi gambar, dan ada penurunan halusinasi yang signifikan.

Semua Tim Cina

Model besar Ferret dibawa bersama oleh AI / ML Apple dan tim peneliti Universitas Columbia, dengan jajaran yang semuanya Cina.

Ada Haoxuan dan Zhang Haotian sebagai kerja bersama.

You Haoxuan sekarang adalah Ph.D. dalam ilmu komputer dari Colum University dan akan bergabung dengan tim AI / ML Apple setelah lulus. Dia lulus dari Universitas Xidian pada tahun 2018.

Bidang minat penelitiannya meliputi pemahaman bahasa visual, pembuatan teks-gambar dan bahasa visual.

Zhang Haotian sekarang menjadi peneliti kecerdasan visual di tim AI/ML Apple.

Sebelum bergabung dengan Apple, Haotian menerima gelar Ph.D. dari University of Washington dan gelar sarjana dari Shanghai Jiao Tong University.

Dia adalah salah satu penulis utama GLIP / GLIPv2, yang telah dinominasikan untuk CVPR2022 Best Paper Award.

Selain itu, tim termasuk Gan Zhe, Wang Zirui, Cao Liangliang, Yang Yinfei dan mantan peneliti model besar multimodal Google dan Microsoft lainnya yang sangat baik.

Alamat kertas:

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)