📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
GPT-4充當“規劃師、審計師”,顛覆性雙層文生圖表模型
原文來源:AIGC開放社區
DALL-E 3、Midjourney、Stable Diffusion等模型展現出了強大的創造能力,通過文本便能生成素描、朋克、3D、二次元等多種類型的高品質圖片,但在生成科學圖表(柱狀、直方、箱線、樹狀等)方面卻略顯不足。
這是因為模型在生成圖表時會遺漏重要的物件,生成錯誤的對象關係箭頭,以及產生不可讀的文本標籤,缺乏對物件的精細佈局控制。 尤其是當多個物件存在複雜的箭頭或線段關係時,無法渲染清晰可讀的文本,而這兩點對於圖表生成至關重要。
為了解決這兩大難題,北卡羅來納大學提出了DiagrammerGPT框架。 首先,使用GPT-4充當“規劃師”,根據文本描述生成圖表的布局規劃資訊。
規劃資訊包含實體(物件和文本標籤)、實體之間的關係(箭頭、線段等)以及實體的佈局資訊(邊界框座標)。 然後再用GPT-4充當“審計師”來審核整個規劃計劃,進行圖表細節優化。
根據測試數據顯示,在多個量化指標上,DiagrammerGPT 顯著優於Stable Diffusion、VPGen 和 AutomaTikZ等模型生成的圖表。
在圖表與文本相關性和對象關係的準確性評估方面,DiagrammerGPT分別取得36%和48%的優於基準模型的評分。 該研究對於文本生成高精準圖表模型來說,有著重大突破。
開源位址:
論文位址:
圖表規劃
DiagrammerGPT框架的最大創新在於,利用GPT-4的強大自然語言處理能力指導圖表佈局生成。 為了生成更準確的規劃,還設計了閉環反饋機制。
一個GPT-4 充當“規劃師”生成初始規劃,另一個 GPT-4 充當“審計師”,評估規劃的準確性並提供反饋。 而規劃師可以根據反饋調整規劃佈局。
研究人員對GPT-4通過10個語境學習樣例進行了訓練,每個樣例都包含完整的圖表文本描述、實體、關係和布局資訊。 規劃包含3個要素:
**實體:**物件和文本標籤的清單。 物件指圖表中的圖像元素,文本標籤指物件的文字說明。
**關係:**實體之間的關係,比如箭頭連接、線段連接、文本標籤標註物件等。
**佈局:**所有實體的邊界框座標資訊,[x,y,w,h]格式。
2)規劃優化
為進一步提高規劃品質,提出了規劃師、審計師的閉環反饋機制進行反覆運算優化。 其中GPT-4充當規劃師,另一個GPT-4充當審計師。 審計師會檢查規劃與文本描述是否匹配,提供反饋意見; 規劃師根據反饋更新規劃。
圖表生成
研究人員通過Diagram GLIGEN擴散模型用於圖表生成,並加入了門控自注意力層,可以利用圖表規劃的佈局資訊指導圖像生成。
與原始的GLIGEN模型只處理物體不同,DiagramGLIGEN可同時處理文本標籤和箭頭關係作為佈局輸入。 DiagramGLIGEN在AI2D-Caption數據集上進行了訓練,使其能生成特定領域的科學圖表。
訓練、評估數據集
研究人員基於AI2D科學圖表數據集構建了AI2D-Caption數據集,用於文本到圖表生成的訓練和數據測試。 AI2D包含約4900張科學圖表圖像,涵蓋天文、生物、工程等領域。
其中選取了105張圖表,使用大語言模型為每個圖表生成詳細的圖像標題和物件描述。 其中30張作為語言模型的語境學習樣本,75張作為測試集。
相比原始AI2D只有簡單的標題,AI2D-Caption提供了更豐富的文本描述,包括完整的圖表標題和每個對象的詳情。
在圖像字幕上,DiagrammerGPT生成的圖表能產生更相關的標題,標題與真值更加接近。 在CLIPScore上,DiagrammerGPT的圖像-文本和圖像-圖像相似度更高,更接近真值圖表和標題。 還進行了人類評估,多數人表示,更喜歡DiagrammerGPT生成的圖表。