GPT-4V, eğitim almadan herhangi bir komutu tamamlamak için telefonu "çalıştırabilir"

Orijinal Kaynak: Kuantum Boyutu

GPT-4V, Siri'nin sonunun başlangıcıdır.

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Bir çalışma şunları buldu:

GPT-4V, herhangi bir eğitim olmadan bir akıllı telefonla insan gibi doğrudan etkileşime girebilir ve belirtilen çeşitli komutları tamamlayabilir.

Örneğin, 50-100$ bütçe dahilinde bir süt köpürtme aracı satın almasını isteyin.

Alışveriş programının (Amazon) seçimini adım adım tamamlayıp açabilir, "süt köpürtücü" yazmak için arama çubuğuna tıklayabilir, filtre işlevini bulabilir, bütçe aralığını seçebilir, ürüne tıklayabilir ve siparişi tamamlayabilir, toplam 9 işlem.

Testlere göre GPT-4V, iPhone'da benzer görevleri tamamlamada %75 başarı oranına sahip.

Bu nedenle, bazı insanlar Siri'nin yavaş yavaş işe yaramaz hale geldiğinden yakınıyor (iPhone'u Siri'den daha iyi anlıyor)

Birinin doğrudan elini salladığını kim bilebilirdi:

Siri ilk etapta o kadar güçlü değildi. (Köpek kafalı)

Bazı insanlar da haykırdı:

Akıllı sesli etkileşim çağı başladı. Telefonlarımız saf görüntüleme cihazları haline gelmek üzere olabilir.

🐂🍺 Gerçekten?

GPT-4V Sıfır Örneklemeli İşlem iPhone

Çalışma Kaliforniya Üniversitesi, San Diego, Microsoft ve diğerlerinden geldi.

Kendisi, akıllı telefonların kullanıcı arayüzünde gezinme görevlerini yerine getirmek için kullanılan GPT-4V tabanlı bir aracı olan bir MM-Navigator'ın geliştirilmesidir.

Deney Düzeneği

Her adımda, MM-Navigator bir ekran görüntüsü alır.

Çok modlu bir model olarak GPT-4V, görüntüleri ve metni girdi olarak kabul eder ve metin çıktısı üretir.

Burada, ekran görüntüsü bilgilerini adım adım okumak ve çalıştırılacak adımların çıktısını almaktır.

Şimdi soru şu:

Modelin, belirli bir ekranda tıklanması gereken tam konum koordinatlarını makul bir şekilde hesaplaması nasıl sağlanır (GPT-4V yalnızca yaklaşık bir konum verebilir).

Yazarlar tarafından verilen çözüm, verilen her ekrandaki UI öğelerini algılamak ve bunları farklı sayılarla işaretlemek için OCR aracını ve IconNet'i kullanarak çok basittir.

Bu şekilde, GPT-4V'nin hangi sayıyı göstereceğini belirtmek için yalnızca bir ekran görüntüsüyle karşılaşması gerekir.

İki Yetenek Sınavı

Test ilk olarak iPhone'da gerçekleştirildi.

Bir cep telefonunu başarılı bir şekilde manipüle etmek için GPT-4V'nin farklı ekran türlerini anlaması gerekir:

Bunlardan biri, ekrandaki girdiyi anlamayı ve belirli bir talimatı tamamlamak için gereken eylemleri ifade etmeyi içeren anlamsal akıl yürütmedir.

Birincisi, her bir eylemin gerçekleştirilmesi gereken kesin konumu (yani, o noktada hangi sayı) belirtme yeteneğidir.

Bu nedenle, yazarlar aralarında ayrım yapmak için iki test seti geliştirdiler.

1. Beklenen eylemin açıklaması

Belirli koordinatları değil, yalnızca yapılması gerekenleri çıkarın.

Bu görevde GPT-4V, talimatları anlar ve %90,9 doğrulukla operasyonel adımlar verir.

Örneğin, Safari tarayıcısının aşağıdaki ekran görüntüsünde, kullanıcı yeni bir sekme açmak istiyor, ancak sol alt köşedeki + işareti grileşiyor, ne yapmalıyım?

GPT-4V yanıtı:

Normalde bu sorun değil, ancak ekran görüntülerine bakılırsa, 500 sekme sınırına ulaşmışsınız gibi görünüyor ve yeni bir tane açmak için mevcut sekmelerden bazılarını kapatmanız ve + işaretinin tıklanıp tıklanamayacağını görmeniz gerekecek.

Resmin anlaşılmasına bakıldığında çok iyi~ Daha fazla örnek için kağıdı çevirebilirsiniz.

2. Yerelleştirilmiş Eylem Yürütme

GPT-4V'den tüm bu "kağıt üzerindeki kelimeleri" somut eylemlere (yani ikinci test görevine) dönüştürmesi istendiğinde, doğruluk oranı %74,5'e düştü.

Yine yukarıdaki örnekte kendi talimatlarını takip edebilir ve bir sekmeyi kapatmak için 9 rakamına tıklamak gibi doğru işlem numarasını verebilir.

Ancak aşağıdaki resimde gösterildiği gibi, binaları tanıyabilen bir uygulama bulması istendiğinde, ChatGPT'nin kullanımını doğru bir şekilde gösterebilir, ancak yanlış "15" ("5" olmalıdır) sayısını verir.

Ekran görüntüsünün kendisi ilgili konumla işaretlenmediği için hatalar da vardır.

Örneğin, aşağıdaki resimden gizli modu açmasına izin verin,Doğrudan wifi'yi verin"11"Konum,Hiç eşleşme değil。

Ek olarak, bu basit tek adımlı göreve ek olarak test, GPT-4V'nin eğitim almadan "havalandırıcı satın alma" gibi karmaşık talimatları yerine getirebildiğini de buldu.

Bu süreçte GPT-4V'nin her adımda ne yapılması gerektiğini ve buna karşılık gelen sayısal koordinatları ayrıntılı olarak listelediğini görebiliriz.

Son olarak, Android'de test var.

Genel olarak, Llama 2, PaLM 2 ve ChatGPT gibi diğer modellerden önemli ölçüde daha iyi performans gösterir.

Kurulum ve alışveriş gibi görevleri gerçekleştirmek için en yüksek genel performans puanı %52,96 ve bu temel modeller için en yüksek puan %39,6 idi.

Tüm deney için en büyük önemi, GPT-4V gibi çok modlu modellerin yetenekleri doğrudan görünmeyen sahnelere aktarabildiğini ve cep telefonu etkileşimi için büyük potansiyel gösterdiğini kanıtlamaktır.

Bu çalışmayı okuduktan sonra netizenlerin de iki nokta öne sürdüğünü belirtmekte fayda var:

Birincisi, görev yürütmenin başarısını nasıl tanımladığımızdır.

Örneğin, el dezenfektanı yedekleri satın almasını istiyorsak ve sadece bir torba istiyorsak, ancak altı torba daha alıyorsa, başarılı olur mu?

İkincisi, herkes çok erken heyecanlanamaz ve bu teknolojiyi gerçekten ticarileştirmek istiyorsanız ilerleme için hala çok yer var.

Çünkü %95'e varan doğruluk oranına sahip olan Siri, çoğu zaman çok zayıf olmasından şikayet ediliyor.

Takım Tanıtımı

Bu çalışmada çoğu Microsoft'tan olmak üzere 12 yazar bulunmaktadır.

İkiye bir.

Bunlar, San Diego'daki California Üniversitesi'nde doktora öğrencisi olan An Yan ve Microsoft'ta kıdemli bir araştırmacı olan Zhengyuan Yang, lisans derecesini Çin Bilim ve Teknoloji Üniversitesi'nden ve doktora derecesini Rochester Üniversitesi'nden aldı.

Referans Linkleri:
[1]
[2]

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)