Model seperti DALL-E 3, Midjourney, dan Stable Diffusion telah menunjukkan kemampuan kreatif yang hebat untuk menghasilkan gambar berkualitas tinggi dari berbagai jenis seperti sketsa, punk, 3D, dan gambar dua dimensi dari teks, tetapi mereka sedikit kurang dalam menghasilkan grafik ilmiah (kolom, histogram, boxlines, pohon, dll.).
Ini karena model melewatkan objek penting saat membuat diagram, menghasilkan panah hubungan objek yang salah, dan menghasilkan label teks yang tidak dapat dibaca yang tidak memiliki kontrol tata letak berbutir halus atas objek. Secara khusus, ketika beberapa objek memiliki panah kompleks atau hubungan segmen garis, tidak mungkin untuk membuat teks yang jelas dan mudah dibaca, yang sangat penting untuk pembuatan bagan.
Untuk mengatasi dua masalah ini, University of North Carolina mengusulkan kerangka kerja DiagrammerGPT. Pertama, gunakan GPT-4 untuk bertindak sebagai "perencana" untuk menghasilkan informasi perencanaan tata letak untuk diagram berdasarkan deskripsi teks.
Informasi perencanaan berisi entitas (objek dan label teks), hubungan antara entitas (panah, segmen, dan sebagainya), dan informasi tata letak untuk entitas (koordinat kotak pembatas). Kemudian, GPT-4 digunakan sebagai "auditor" untuk meninjau seluruh rencana perencanaan dan mengoptimalkan detail grafik.
Pada tahap pembuatan diagram, model difusi DiagramGLIGEN dapat digunakan untuk menghasilkan grafik yang akurat sesuai dengan rencana diagram, dan label teks dapat diberikan oleh perpustakaan Pillow untuk meningkatkan akurasi.
Menurut data pengujian, DiagrammerGPT secara signifikan lebih baik daripada grafik yang dihasilkan oleh model seperti Difusi Stabil, VPGen, dan AutomaTikZ pada beberapa indikator kuantitatif.
Dalam hal evaluasi akurasi hubungan antara bagan dan teks dan objek, DiagrammerGPT masing-masing mencapai skor 36% dan 48% lebih baik daripada model benchmark. Studi ini merupakan terobosan besar untuk model grafik presisi tinggi untuk pembuatan teks.
Alamat Sumber Terbuka:
Alamat:
Perencanaan Bagan
Inovasi terbesar dari kerangka kerja DiagrammerGPT adalah ia menggunakan kekuatan pemrosesan bahasa alami GPT-4 yang kuat untuk memandu pembuatan tata letak diagram. Untuk menghasilkan rencana yang lebih akurat, mekanisme umpan balik loop tertutup juga dirancang.
Satu GPT-4 bertindak sebagai "perencana" untuk menghasilkan rencana awal, dan GPT-4 lainnya bertindak sebagai "auditor," menilai keakuratan rencana dan memberikan umpan balik. Perencana dapat menyesuaikan tata letak berdasarkan umpan balik.
1) Generasi perencanaan grafik awal
Para peneliti melatih GPT-4 pada 10 sampel pembelajaran kontekstual, masing-masing berisi deskripsi teks diagram lengkap, entitas, hubungan, dan informasi tata letak. Ada 3 elemen dalam rencana:
Entitas: Daftar objek dan label teks. Objek mengacu pada elemen gambar dalam diagram, dan label teks mengacu pada deskripsi tekstual suatu objek.
Hubungan: Hubungan antar entitas, seperti koneksi panah, koneksi segmen garis, objek pelabelan label teks, dan sebagainya.
Tata letak: Informasi koordinat kotak pembatas untuk semua entitas, dalam format [x,y,w,h].
2) Optimalisasi Perencanaan
Untuk lebih meningkatkan kualitas perencanaan, mekanisme umpan balik loop tertutup untuk perencana dan auditor diusulkan untuk optimasi berulang. GPT-4 bertindak sebagai perencana dan GPT-4 lainnya bertindak sebagai auditor. Auditor memeriksa apakah rencana tersebut cocok dengan deskripsi teks dan memberikan umpan balik; Perencana memperbarui rencana berdasarkan umpan balik.
Di antara mereka, auditor GPT-4 juga dilatih melalui pembelajaran konteks-spesifik untuk memberikan umpan balik yang efektif. Kedua pelatihan tersebut menggunakan sampel pembelajaran kontekstual yang berbeda.
Pembuatan Bagan
Para peneliti menggunakan model difusi Diagram GLIGEN untuk pembuatan grafik, dan menambahkan lapisan perhatian diri yang terjaga keamanannya, yang dapat menggunakan informasi tata letak perencanaan grafik untuk memandu pembuatan gambar.
Berbeda dengan model GLIGEN asli, yang hanya berurusan dengan objek, DiagramGLIGEN dapat menangani label teks dan hubungan panah sebagai input tata letak. DiagramGLIGEN dilatih pada himpunan data AI2D-Caption untuk menghasilkan diagram ilmiah khusus domain.
Namun, karena rendering yang buruk dari teks model difusi itu sendiri, para peneliti menggunakan perpustakaan Pillow untuk secara eksplisit membuat label teks untuk meningkatkan kejelasan teks.
Pelatihan, Dataset Evaluasi
Berdasarkan dataset grafik ilmiah AI2D, para peneliti membangun dataset AI2D-Caption untuk pelatihan dan pengujian data pembuatan teks-ke-grafik. AI2D berisi sekitar 4.900 gambar grafik dan grafik ilmiah, yang mencakup astronomi, biologi, teknik, dan banyak lagi.
Sebanyak 105 bagan dipilih, dan model bahasa besar digunakan untuk menghasilkan judul gambar terperinci dan deskripsi objek untuk setiap bagan. Diantaranya, 30 digunakan sebagai sampel pembelajaran kontekstual untuk model bahasa, dan 75 digunakan sebagai set tes.
Dibandingkan dengan AI2D asli, yang hanya memiliki judul sederhana, AI2D-Caption memberikan deskripsi teks yang lebih kaya, termasuk judul bagan lengkap dan detail setiap objek.
Beberapa data benchmark menunjukkan bahwa pada VP, objek, angka, hubungan, dan akurasi rendering teks DiagrammerGPT secara signifikan lebih baik daripada model benchmark, membuktikan kualitas tinggi dari grafik yang dihasilkan dalam banyak aspek.
Pada keterangan gambar, bagan yang dihasilkan oleh DiagrammerGPT dapat menghasilkan keterangan yang lebih relevan yang lebih mendekati nilai kebenaran. Di CLIPScore, kesamaan gambar-ke-teks dan gambar-gambar DiagrammerGPT lebih tinggi, lebih dekat dengan bagan dan judul kebenaran. Evaluasi manusia juga dilakukan, dengan mayoritas mengatakan mereka lebih suka grafik yang dihasilkan oleh DiagrammerGPT.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
GPT-4 bertindak sebagai "perencana dan auditor", model bagan Wensheng dua lapis subversif
Sumber asli: AIGC Open Community
Model seperti DALL-E 3, Midjourney, dan Stable Diffusion telah menunjukkan kemampuan kreatif yang hebat untuk menghasilkan gambar berkualitas tinggi dari berbagai jenis seperti sketsa, punk, 3D, dan gambar dua dimensi dari teks, tetapi mereka sedikit kurang dalam menghasilkan grafik ilmiah (kolom, histogram, boxlines, pohon, dll.).
Ini karena model melewatkan objek penting saat membuat diagram, menghasilkan panah hubungan objek yang salah, dan menghasilkan label teks yang tidak dapat dibaca yang tidak memiliki kontrol tata letak berbutir halus atas objek. Secara khusus, ketika beberapa objek memiliki panah kompleks atau hubungan segmen garis, tidak mungkin untuk membuat teks yang jelas dan mudah dibaca, yang sangat penting untuk pembuatan bagan.
Untuk mengatasi dua masalah ini, University of North Carolina mengusulkan kerangka kerja DiagrammerGPT. Pertama, gunakan GPT-4 untuk bertindak sebagai "perencana" untuk menghasilkan informasi perencanaan tata letak untuk diagram berdasarkan deskripsi teks.
Informasi perencanaan berisi entitas (objek dan label teks), hubungan antara entitas (panah, segmen, dan sebagainya), dan informasi tata letak untuk entitas (koordinat kotak pembatas). Kemudian, GPT-4 digunakan sebagai "auditor" untuk meninjau seluruh rencana perencanaan dan mengoptimalkan detail grafik.
Menurut data pengujian, DiagrammerGPT secara signifikan lebih baik daripada grafik yang dihasilkan oleh model seperti Difusi Stabil, VPGen, dan AutomaTikZ pada beberapa indikator kuantitatif.
Dalam hal evaluasi akurasi hubungan antara bagan dan teks dan objek, DiagrammerGPT masing-masing mencapai skor 36% dan 48% lebih baik daripada model benchmark. Studi ini merupakan terobosan besar untuk model grafik presisi tinggi untuk pembuatan teks.
Alamat Sumber Terbuka:
Alamat:
Perencanaan Bagan
Inovasi terbesar dari kerangka kerja DiagrammerGPT adalah ia menggunakan kekuatan pemrosesan bahasa alami GPT-4 yang kuat untuk memandu pembuatan tata letak diagram. Untuk menghasilkan rencana yang lebih akurat, mekanisme umpan balik loop tertutup juga dirancang.
Satu GPT-4 bertindak sebagai "perencana" untuk menghasilkan rencana awal, dan GPT-4 lainnya bertindak sebagai "auditor," menilai keakuratan rencana dan memberikan umpan balik. Perencana dapat menyesuaikan tata letak berdasarkan umpan balik.
Para peneliti melatih GPT-4 pada 10 sampel pembelajaran kontekstual, masing-masing berisi deskripsi teks diagram lengkap, entitas, hubungan, dan informasi tata letak. Ada 3 elemen dalam rencana:
Entitas: Daftar objek dan label teks. Objek mengacu pada elemen gambar dalam diagram, dan label teks mengacu pada deskripsi tekstual suatu objek.
Hubungan: Hubungan antar entitas, seperti koneksi panah, koneksi segmen garis, objek pelabelan label teks, dan sebagainya.
Tata letak: Informasi koordinat kotak pembatas untuk semua entitas, dalam format [x,y,w,h].
2) Optimalisasi Perencanaan
Untuk lebih meningkatkan kualitas perencanaan, mekanisme umpan balik loop tertutup untuk perencana dan auditor diusulkan untuk optimasi berulang. GPT-4 bertindak sebagai perencana dan GPT-4 lainnya bertindak sebagai auditor. Auditor memeriksa apakah rencana tersebut cocok dengan deskripsi teks dan memberikan umpan balik; Perencana memperbarui rencana berdasarkan umpan balik.
Pembuatan Bagan
Para peneliti menggunakan model difusi Diagram GLIGEN untuk pembuatan grafik, dan menambahkan lapisan perhatian diri yang terjaga keamanannya, yang dapat menggunakan informasi tata letak perencanaan grafik untuk memandu pembuatan gambar.
Berbeda dengan model GLIGEN asli, yang hanya berurusan dengan objek, DiagramGLIGEN dapat menangani label teks dan hubungan panah sebagai input tata letak. DiagramGLIGEN dilatih pada himpunan data AI2D-Caption untuk menghasilkan diagram ilmiah khusus domain.
Pelatihan, Dataset Evaluasi
Berdasarkan dataset grafik ilmiah AI2D, para peneliti membangun dataset AI2D-Caption untuk pelatihan dan pengujian data pembuatan teks-ke-grafik. AI2D berisi sekitar 4.900 gambar grafik dan grafik ilmiah, yang mencakup astronomi, biologi, teknik, dan banyak lagi.
Sebanyak 105 bagan dipilih, dan model bahasa besar digunakan untuk menghasilkan judul gambar terperinci dan deskripsi objek untuk setiap bagan. Diantaranya, 30 digunakan sebagai sampel pembelajaran kontekstual untuk model bahasa, dan 75 digunakan sebagai set tes.
Dibandingkan dengan AI2D asli, yang hanya memiliki judul sederhana, AI2D-Caption memberikan deskripsi teks yang lebih kaya, termasuk judul bagan lengkap dan detail setiap objek.
Pada keterangan gambar, bagan yang dihasilkan oleh DiagrammerGPT dapat menghasilkan keterangan yang lebih relevan yang lebih mendekati nilai kebenaran. Di CLIPScore, kesamaan gambar-ke-teks dan gambar-gambar DiagrammerGPT lebih tinggi, lebih dekat dengan bagan dan judul kebenaran. Evaluasi manusia juga dilakukan, dengan mayoritas mengatakan mereka lebih suka grafik yang dihasilkan oleh DiagrammerGPT.