GPT-4, yıkıcı iki katmanlı bir Wensheng grafik modeli olan bir "planlayıcı ve denetçi" görevi görür

Orijinal kaynak: AIGC Açık Topluluğu

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

DALL-E 3, Midjourney ve Stable Diffusion gibi modeller, metinden eskizler, punk, 3D ve iki boyutlu görüntüler gibi çeşitli türlerde yüksek kaliteli görüntüler oluşturmak için büyük bir yaratıcı yetenek sergilemiştir, ancak bilimsel çizelgeler (sütunlar, histogramlar, kutu çizgileri, ağaçlar vb.) oluşturmada biraz eksiktirler.

Bunun nedeni, modelin diyagram oluştururken önemli nesneleri gözden kaçırması, yanlış nesne ilişkisi okları oluşturması ve nesneler üzerinde ayrıntılı düzen denetimine sahip olmayan okunamayan metin etiketleri oluşturmasıdır. Özellikle, birden çok nesne karmaşık oklara veya çizgi parçası ilişkilerine sahip olduğunda, grafik oluşturma için kritik olan net ve okunabilir metin oluşturmak mümkün değildir.

Bu iki sorunu çözmek için Kuzey Carolina Üniversitesi, DiagrammerGPT çerçevesini önerdi. İlk olarak, metin açıklamalarına dayalı olarak diyagram için yerleşim planlama bilgileri oluşturmak üzere bir "planlayıcı" olarak hareket etmek üzere GPT-4'ü kullanın.

Planlama bilgileri objeleri (nesneler ve metin etiketleri), objeler arasındaki ilişkileri (oklar, kesimler vb.) ve objeler için düzen bilgilerini (sınırlayıcı kutu koordinatları) içerir. Ardından GPT-4, tüm planlama planını gözden geçirmek ve grafiklerin ayrıntılarını optimize etmek için bir "denetçi" olarak kullanılır.

Diyagram oluşturma aşamasında, diyagram planına göre doğru grafikler oluşturmak için DiagramGLIGEN difüzyon modeli kullanılabilir ve doğruluğu artırmak için metin etiketleri Yastık kitaplığı tarafından oluşturulabilir.

Test verilerine göre DiagrammerGPT, Stable Diffusion, VPGen ve AutomaTikZ gibi modeller tarafından çoklu nicel göstergeler üzerinde oluşturulan grafiklerden önemli ölçüde daha iyidir.

Grafikler ile metinler ve nesneler arasındaki ilişkinin doğruluk değerlendirmesi açısından DiagrammerGPT, kıyaslama modelinden sırasıyla %36 ve %48 daha iyi puanlar elde etti. Bu çalışma, metin üretimi için yüksek hassasiyetli grafik modelleri için büyük bir atılımdır.

Açık Kaynak Adresi:

Adres:

Grafik Planlama

DiagrammerGPT çerçevesinin en büyük yeniliği, diyagram düzenlerinin oluşturulmasına rehberlik etmek için GPT-4'ün güçlü doğal dil işleme gücünü kullanmasıdır. Daha doğru bir plan oluşturmak için kapalı döngü bir geri bildirim mekanizması da tasarlanmıştır.

Bir GPT-4, ilk planı oluşturmak için bir "planlayıcı" görevi görür ve diğer GPT-4, planın doğruluğunu değerlendiren ve geri bildirim sağlayan bir "denetçi" görevi görür. Planlayıcılar, geri bildirime dayalı olarak düzeni ayarlayabilir.

1) İlk grafik planlama oluşturma

Araştırmacılar, GPT-4'ü her biri eksiksiz bir diyagram metin açıklaması, varlıklar, ilişkiler ve düzen bilgileri içeren 10 bağlamsal öğrenme örneği üzerinde eğitti. Planın 3 unsuru vardır:

Varlıklar: Nesnelerin ve metin etiketlerinin listesi. Nesne, diyagramdaki bir görüntü öğesini ifade eder ve metin etiketi, bir nesnenin metinsel açıklamasını ifade eder.

İlişkiler: Ok bağlantıları, çizgi parçası bağlantıları, metin etiketi etiketleme nesneleri vb. gibi varlıklar arasındaki ilişkiler.

Düzen: Tüm objeler için [x,y,w,h] biçimindeki sınırlayıcı kutu koordinat bilgileri.

2) Planlama Optimizasyonu

Planlama kalitesini daha da artırmak için, yinelemeli optimizasyon için planlamacılar ve denetçiler için kapalı döngü bir geri bildirim mekanizması önerilmiştir. GPT-4 bir planlayıcı görevi görür ve başka bir GPT-4 bir denetçi görevi görür. Denetçi, planın metin açıklamasıyla eşleşip eşleşmediğini kontrol eder ve geri bildirim sağlar; Planlayıcılar, geri bildirimlere dayalı olarak planları günceller.

Bunlar arasında, denetçi GPT-4 de etkili geri bildirim sağlamak için bağlama özel öğrenme yoluyla eğitilir. Her iki eğitim de farklı bağlamsal öğrenme örnekleri kullanır.

Grafik Oluşturma

Araştırmacılar, grafik üretimi için Diyagram GLIGEN difüzyon modelini kullandılar ve görüntü oluşturmaya rehberlik etmek için grafik planlamanın düzen bilgilerini kullanabilen kapılı bir kendi kendine dikkat katmanı eklediler.

Yalnızca nesnelerle ilgilenen orijinal GLIGEN modelinden farklı olarak, DiagramGLIGEN hem metin etiketini hem de ok ilişkilerini mizanpaj girdileri olarak işleyebilir. DiagramGLIGEN, alana özgü bilimsel diyagramlar oluşturmak için AI2D-Caption veri kümesi üzerinde eğitilmiştir.

Bununla birlikte, difüzyon modelinin metninin kendisinin zayıf bir şekilde işlenmesi nedeniyle, araştırmacılar metnin netliğini artırmak için metin etiketlerini açıkça oluşturmak için Yastık kitaplığını kullandılar.

Eğitim, Değerlendirme Veri Seti

Araştırmacılar, AI2D bilimsel grafik veri kümesine dayanarak, metinden grafiğe üretimin eğitimi ve veri testi için AI2D-Caption veri kümesini oluşturdular. AI2D, astronomi, biyoloji, mühendislik ve daha fazlasını kapsayan yaklaşık 4.900 bilimsel çizelge ve grafik görüntüsü içerir.

Toplam 105 grafik seçildi ve her grafik için ayrıntılı görüntü başlıkları ve nesne açıklamaları oluşturmak için büyük bir dil modeli kullanıldı. Bunlardan 30'u dil modeli için bağlamsal öğrenme örneklemi, 75'i ise test seti olarak kullanılmıştır.

Yalnızca basit bir başlığa sahip olan orijinal AI2D ile karşılaştırıldığında, AI2D-Caption, tam grafik başlığı ve her nesnenin ayrıntıları dahil olmak üzere daha zengin bir metin açıklaması sağlar.

Birden fazla kıyaslama verisi, VP'de DiagrammerGPT'nin nesne, sayı, ilişki ve metin oluşturma doğruluğunun kıyaslama modelinden önemli ölçüde daha iyi olduğunu ve oluşturulan grafiklerin yüksek kalitesini birçok açıdan kanıtladığını gösteriyor.

Resim başlıklarında, DiagrammerGPT tarafından oluşturulan grafikler, doğruluk değerlerine daha yakın olan daha alakalı başlıklar üretebilir. CLIPScore'da, DiagrammerGPT'nin görüntüden metne ve görüntü-görüntü benzerliği daha yüksektir, doğruluk çizelgelerine ve başlıklara daha yakındır. İnsan değerlendirmeleri de yapıldı ve çoğunluk DiagrammerGPT tarafından oluşturulan grafikleri tercih ettiklerini söyledi.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)