AI, Google captcha'yı aldı ve en son çok modlu büyük model, GPT-4V alan anlayışından daha doğru

Orijinal kaynak: Qubits

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Google CAPTCHA yapay zekayı durduramaz!

En yeni çok modlu büyük model, resimdeki tüm trafik ışıklarını bulmayı kolaylaştırır ve belirli bir konumu doğru bir şekilde daire içine alır.

Performans, GPT-4V'yi doğrudan aşıyor.

Bu, Apple ve Columbia Üniversitesi araştırma ekibi tarafından getirilen çok modlu büyük model "Gelincik".

"Görme, konuşma ve cevaplama" görevinde büyük modellerin doğruluğunu artıran daha güçlü grafik ve metin korelasyon yeteneklerine sahiptir.

Örneğin, aşağıdaki şekildeki çok küçük kısım (bölge 1) şok olarak da ayırt edilebilir.

GPT-4V doğru cevap vermedi ve küçük parçalarda iyi performans göstermedi.

Peki, Ferret bunu nasıl yapıyor?

** "Biraz işaret et" resim büyük model anla **

Ferret'in çözdüğü temel sorun, hem atıfta bulunma hem de topraklamanın mekansal anlayışını daha yakın hale getirmektir.

Referanslar, modelin belirli bir bölgenin semantiğini, yani bilebileceği bir konumun ne olduğunu tam olarak anlamasını ifade eder.

Konumlandırma, modelin grafikte karşılık gelen hedefi bulabilmesi için anlambilim vermektir.

İnsanlar için bu iki yetenek doğal bir kombinasyondur, ancak mevcut birçok çok modlu model yalnızca referanslama ve konumlandırmayı tek başına kullanır.

Bu nedenle Ferret, bir görüntüdeki bölgeleri temsil etmek için ayrık koordinatları ve sürekli özellikleri birleştirebilen yeni bir tür karma bölge temsil yöntemi önerdi.

Bu, modelin sınırlayıcı kutularla neredeyse aynı olan nesneleri ayırt etmesini sağlar.

Örneğin, aşağıdaki şekildeki iki nesne söz konusu olduğunda, yalnızca ayrık sınırlayıcı kutu kullanılırsa, model çok "karışık" hissedecektir. Sürekli serbest biçimli harmanlanmış temsillerle birleştiğinde, bu sorun iyi bir şekilde çözülmüştür.

Farklı bölgelerin sürekli özelliklerini çıkarmak için makale, farklı şekiller arasındaki seyreklik farklılıklarını ele alabilen bir uzamsal algı görsel örnekleyici önermektedir.

Sonuç olarak, Ferret noktalar, sınırlayıcı kutular ve serbest şekiller gibi çeşitli bölgesel girdileri kabul edebilir ve anlamlarını anlayabilir.

Çıktıda, metne dayalı olarak her bağlantılı nesnenin koordinatlarını otomatik olarak oluşturabilir.

Bunu başarmak için Ferret modelinin mimarisi, görüntü kodlayıcı, uzamsal olarak duyarlı görsel örnekleyici ve dil modeli (LLM) gibi bileşenleri içerir.

Ferret, hibrit bir bölge temsili oluşturmak için ayrık koordinatları ve sürekli özellikleri birleştirir.

Bu gösterim, noktalar, sınırlayıcı kutular ve serbest biçimli şekiller dahil olmak üzere çeşitli şekil ve biçimlerdeki alanları temsil etme zorluğunu çözmek için tasarlanmıştır.

Ayrık koordinatlardaki her koordinat, bir hedef çerçevenin ayrık bir koordinatına nicelenir ve bu niceleme, modelin farklı görüntü boyutlarına sağlamlığını sağlar.

Sürekli özellikler, ROI içindeki noktaları rastgele örneklemek ve çift doğrusal enterpolasyon yoluyla özellikler elde etmek için ikili maskeler ve özellik haritaları kullanan uzamsal algı görsel örnekleyici tarafından çıkarılır.

Bu özellikler, bir 3B nokta bulutu modelinden ilham alan bir uzamsal farkındalık modülü tarafından işlenir, tek bir vektöre yoğunlaştırılır ve daha sonraki işlemler için büyük bir dil modeline (LLM) eşlenir.

Ferret'in yeteneklerini artırmak için, makale ayrıca GRIT adlı bir veri seti oluşturdu.

Bu veri kümesi 1,1 milyon örnek içerir ve dört ana kategoriyi kapsar: tek tek nesneler, nesneler arasındaki ilişkiler, bölgeye özgü açıklamalar ve bölgeye dayalı karmaşık akıl yürütme.

GRIT veri kümesi, genel veri kümelerinden dönüştürülen verileri, ChatGPT ve GPT-4 aracılığıyla oluşturulan talimat ayarlama verilerini içerir ve modelin sağlamlığını artırmak için ek 95 bin zor negatif örnek sağlanır.

Deneysel sonuçlar, modelin sadece klasik referanslama ve yerelleştirme görevlerinde üstün performans göstermekle kalmayıp, aynı zamanda bölgeye ve yerelleştirme ihtiyacına dayalı çok modlu diyalogda mevcut diğer MLLM modellerini çok aştığını göstermektedir.

Buna ek olarak, çalışma, bir görüntünün yerel alanlarının referans/yerelleştirme, anlambilim, bilgi ve akıl yürütme yeteneğini değerlendirebilen bir Ferret-Bench önermektedir.

LLaVA-Bench ve Ferret-Bench'te değerlendirilen Ferret modeli, tüm görevlerde, özellikle referans ve görsel topraklama gerektiren üç yeni görevde başarılı oldu.

Ayrıca, görüntünün tanımının detaylarında önemli bir gelişme var ve halüsinasyonlarda önemli bir azalma var.

Tüm Çin Takımı

Ferret büyük modeli, Apple'ın AI/ML ve Columbia Üniversitesi araştırma ekibi tarafından tamamen Çinlilerden oluşan bir kadroyla ortaklaşa getirildi.

Ortak bir çalışma olarak Haoxuan ve Zhang Haotian var.

You Haoxuan şu anda Colum Üniversitesi'nden bilgisayar bilimleri alanında doktora derecesine sahip ve mezun olduktan sonra Apple'ın AI/ML ekibine katılacak. 2018 yılında Xidian Üniversitesi'nden mezun oldu.

Araştırma alanları arasında görsel dil anlama, metin-imge üretimi ve görsel dil yer almaktadır.

Zhang Haotian şu anda Apple'ın AI/ML ekibinde görsel zeka araştırmacısı.

Haotian, Apple'a katılmadan önce doktora derecesini Washington Üniversitesi'nden, lisans derecesini ise Şanghay Jiao Tong Üniversitesi'nden aldı.

En İyi Makale Ödülü'ne aday gösterilen GLIP/GLIPv2 CVPR2022 nin baş yazarlarından biridir.

Buna ek olarak, ekipte Gan Zhe, Wang Zirui, Cao Liangliang, Yang Yinfei ve diğer eski Google ve Microsoft mükemmel çok modlu büyük model araştırmacıları yer alıyor.

Bildiri Adresi:

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)