GPT-4充當“規劃師、審計師”,顛覆性雙層文生圖表模型

原文來源:AIGC開放社區

圖片來源:由無界 AI生成

DALL-E 3、Midjourney、Stable Diffusion等模型展現出了強大的創造能力,通過文本便能生成素描、朋克、3D、二次元等多種類型的高品質圖片,但在生成科學圖表(柱狀、直方、箱線、樹狀等)方面卻略顯不足。

這是因為模型在生成圖表時會遺漏重要的物件,生成錯誤的對象關係箭頭,以及產生不可讀的文本標籤,缺乏對物件的精細佈局控制。 尤其是當多個物件存在複雜的箭頭或線段關係時,無法渲染清晰可讀的文本,而這兩點對於圖表生成至關重要。

為了解決這兩大難題,北卡羅來納大學提出了DiagrammerGPT框架。 首先,使用GPT-4充當“規劃師”,根據文本描述生成圖表的布局規劃資訊

規劃資訊包含實體(物件和文本標籤)、實體之間的關係(箭頭、線段等)以及實體的佈局資訊(邊界框座標)。 然後再用GPT-4充當“審計師”來審核整個規劃計劃,進行圖表細節優化

在圖表生成階段,通過DiagramGLIGEN擴散模型能夠根據圖表規劃生成精準圖表,並用Pillow庫對文本標籤進行渲染提升精準度。

根據測試數據顯示,在多個量化指標上,DiagrammerGPT 顯著優於Stable Diffusion、VPGen 和 AutomaTikZ等模型生成的圖表。

在圖表與文本相關性和對象關係的準確性評估方面,DiagrammerGPT分別取得36%和48%的優於基準模型的評分。 該研究對於文本生成高精準圖表模型來說,有著重大突破。

開源位址:

論文位址:

圖表規劃

DiagrammerGPT框架的最大創新在於,利用GPT-4的強大自然語言處理能力指導圖表佈局生成。 為了生成更準確的規劃,還設計了閉環反饋機制。

一個GPT-4 充當“規劃師”生成初始規劃,另一個 GPT-4 充當“審計師”,評估規劃的準確性並提供反饋。 而規劃師可以根據反饋調整規劃佈局。

1)初始圖表規劃生成

研究人員對GPT-4通過10個語境學習樣例進行了訓練,每個樣例都包含完整的圖表文本描述、實體、關係和布局資訊。 規劃包含3個要素:

**實體:**物件和文本標籤的清單。 物件指圖表中的圖像元素,文本標籤指物件的文字說明。

**關係:**實體之間的關係,比如箭頭連接、線段連接、文本標籤標註物件等。

**佈局:**所有實體的邊界框座標資訊,[x,y,w,h]格式。

2)規劃優化

為進一步提高規劃品質,提出了規劃師、審計師的閉環反饋機制進行反覆運算優化。 其中GPT-4充當規劃師,另一個GPT-4充當審計師。 審計師會檢查規劃與文本描述是否匹配,提供反饋意見; 規劃師根據反饋更新規劃。

其中,審計師GPT-4也是通過特定語境學習進行訓練的,以提供有效的反饋意見。 兩者訓練使用不同的語境學習樣本。

圖表生成

研究人員通過Diagram GLIGEN擴散模型用於圖表生成,並加入了門控自注意力層,可以利用圖表規劃的佈局資訊指導圖像生成。

與原始的GLIGEN模型只處理物體不同,DiagramGLIGEN可同時處理文本標籤和箭頭關係作為佈局輸入。 DiagramGLIGEN在AI2D-Caption數據集上進行了訓練,使其能生成特定領域的科學圖表。

但由於擴散模型本身文本渲染效果不佳,無法輸出清晰可讀的文本,研究人員使用Pillow庫顯式渲染文本標籤,提升文本的清晰度。

訓練、評估數據集

研究人員基於AI2D科學圖表數據集構建了AI2D-Caption數據集,用於文本到圖表生成的訓練和數據測試。 AI2D包含約4900張科學圖表圖像,涵蓋天文、生物、工程等領域。

其中選取了105張圖表,使用大語言模型為每個圖表生成詳細的圖像標題和物件描述。 其中30張作為語言模型的語境學習樣本,75張作為測試集。

相比原始AI2D只有簡單的標題,AI2D-Caption提供了更豐富的文本描述,包括完整的圖表標題和每個對象的詳情。

多個基準測試數據顯示,在VP上,DiagrammerGPT的對象、數量、關係和文本渲染準確性均明顯優於基準模型,從多個方面證明瞭其生成圖表的高品質。

在圖像字幕上,DiagrammerGPT生成的圖表能產生更相關的標題,標題與真值更加接近。 在CLIPScore上,DiagrammerGPT的圖像-文本和圖像-圖像相似度更高,更接近真值圖表和標題。 還進行了人類評估,多數人表示,更喜歡DiagrammerGPT生成的圖表。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)