Peningkatan dalam Model Bahasa Visi: Dari Pemahaman Gambar Tunggal hingga Pemahaman Video

robot
Pembuatan abstrak sedang berlangsung

Jessie A Ellis

26 Februari 2025 09:32

Jelajahi evolusi Model Bahasa Visi (VLMs) dari analisis gambar tunggal hingga pemahaman video komprehensif, menyoroti kemampuan mereka dalam berbagai aplikasi.

! Kemajuan dalam Model Bahasa Visi: Dari Pemahaman Gambar Tunggal ke Video

Model Bahasa Visi (VLMs) telah berkembang pesat, mengubah lanskap AI generatif dengan mengintegrasikan pemahaman visual dengan model bahasa besar (LLMs). Awalnya diperkenalkan pada tahun 2020, VLM terbatas pada input teks dan gambar tunggal. Namun, kemajuan terbaru telah memperluas kemampuan mereka untuk menyertakan input multi-gambar dan video, memungkinkan tugas visi-bahasa yang kompleks seperti menjawab pertanyaan visual, teks, pencarian, dan ringkasan.

Meningkatkan Akurasi VLM

Menurut NVIDIA, akurasi VLM untuk kasus penggunaan tertentu dapat ditingkatkan melalui rekayasa yang cepat dan penyetelan bobot model. Teknik seperti PEFT memungkinkan penyetelan halus yang efisien, meskipun memerlukan sumber daya data dan komputasi yang signifikan. Rekayasa yang cepat, di sisi lain, dapat meningkatkan kualitas output dengan menyesuaikan masukan teks secara realtime.

Pemahaman Gambar Tunggal

VLMs unggul dalam pemahaman citra tunggal dengan mengidentifikasi, mengklasifikasikan, dan merasionalkan konten citra. Mereka dapat memberikan deskripsi detail dan bahkan menerjemahkan teks dalam gambar. Untuk streaming langsung, VLMs dapat mendeteksi peristiwa dengan menganalisis bingkai individu, meskipun metode ini membatasi kemampuan mereka untuk memahami dinamika temporal.

Pemahaman Multi-Gambar

Kemampuan multi-gambar memungkinkan VLM untuk membandingkan dan membedakan gambar, menawarkan konteks yang lebih baik untuk tugas khusus domain. Misalnya, di ritel, VLM dapat memperkirakan tingkat stok dengan menganalisis gambar rak-rak toko. Memberikan konteks tambahan, seperti gambar referensi, secara signifikan meningkatkan akurasi perkiraan ini.

Pemahaman Video

VLM canggih kini memiliki kemampuan pemahaman video, memproses banyak frame untuk memahami tindakan dan tren dari waktu ke waktu. Hal ini memungkinkan mereka untuk menjawab pertanyaan kompleks tentang konten video, seperti mengidentifikasi tindakan atau anomali dalam urutan. Pemahaman visual berurutan menangkap perkembangan peristiwa, sementara teknik lokalisasi temporal seperti LITA meningkatkan kemampuan model untuk menentukan kapan peristiwa spesifik terjadi.

Misalnya, VLM yang menganalisis video gudang dapat mengidentifikasi pekerja yang menjatuhkan kotak, memberikan tanggapan terperinci tentang tempat kejadian dan potensi bahaya.

Untuk menjelajahi potensi penuh VLMs, NVIDIA menawarkan sumber daya dan alat untuk pengembang. Individu yang tertarik dapat mendaftar untuk webinar dan mengakses alur kerja contoh di platform seperti GitHub untuk bereksperimen dengan VLMs dalam berbagai aplikasi.

Untuk wawasan lebih lanjut tentang VLM dan aplikasinya, kunjungi blog NVIDIA.

Sumber gambar: Shutterstock

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)