📢 Gate廣場獨家活動: #PUBLIC创作大赛# 正式開啓!
參與 Gate Launchpool 第 297 期 — PublicAI (PUBLIC),並在 Gate廣場發布你的原創內容,即有機會瓜分 4,000 枚 $PUBLIC 獎勵池!
🎨 活動時間
2025年8月18日 10:00 – 2025年8月22日 16:00 (UTC)
📌 參與方式
在 Gate廣場發布與 PublicAI (PUBLIC) 或當前 Launchpool 活動相關的原創內容
內容需不少於 100 字(可爲分析、教程、創意圖文、測評等)
添加話題: #PUBLIC创作大赛#
帖子需附帶 Launchpool 參與截圖(如質押記錄、領取頁面等)
🏆 獎勵設置(總計 4,000 枚 $PUBLIC)
🥇 一等獎(1名):1,500 $PUBLIC
🥈 二等獎(3名):每人 500 $PUBLIC
🥉 三等獎(5名):每人 200 $PUBLIC
📋 評選標準
內容質量(相關性、清晰度、創意性)
互動熱度(點讚、評論)
含有 Launchpool 參與截圖的帖子將優先考慮
📄 注意事項
所有內容須爲原創,嚴禁抄襲或虛假互動
獲獎用戶需完成 Gate廣場實名認證
Gate 保留本次活動的最終解釋權
統一影像與文字生成的MiniGPT-5來了:Token變Voken,模型不僅能續寫,還會自動配圖了
大模型正在實現語言和視覺的跨越,有望無縫地理解和生成文字和圖像內容。在最近的一系列研究中,多模態特徵整合不僅是一種不斷發展的趨勢,而且已經帶來了從多模態對話到內容創建工具等關鍵進步。大型語言模型在文本理解和生成方面已經展現出無與倫比的能力。然而,同時產生具有連貫文本敘述的圖像仍然是一個有待發展的領域。
近日,加州大學聖克魯茲分校的研究團隊提出了MiniGPT-5,這是一種以「生成式voken」概念為基礎的創新交錯視覺語言生成技術。
透過特殊的視覺token「生成式voken」,將Stable Diffusion 機制與LLM 結合, MiniGPT-5 為熟練的多模態生成預示了一種新模式。同時,本文提出的兩階段訓練方法強調了無描述基礎階段的重要性,使模型在資料稀缺的情況下也能「茁壯成長」。此方法的通用階段不需要特定領域的註釋,這使得本文解決方案與現有的方法截然不同。為了確保生成的文本和圖像和諧一致,本文的雙損失策略開始發揮作用,生成式voken 方法和分類方法進一步增強了這一效果。
在這些技術的基礎上,這項工作標誌著一種變革性的方法。透過使用ViT(Vision Transformer)和Qformer 以及大型語言模型,研究團隊將多模態輸入轉換為生成式voken,並與高解析度的Stable Diffusion2.1 無縫配對,以實現上下文感知影像生成。本文將圖像作為輔助輸入與指令調整方法結合,並率先採用文字和圖像生成損失,從而擴大了文字和視覺之間的協同作用。
MiniGPT-5 與CLIP 約束等模型相匹配,巧妙地將擴散模型與MiniGPT-4 融合在一起,在不依賴特定領域註釋的情況下實現了較好的多模態結果。最重要的是,本文的策略可以利用多模態視覺語言基礎模型的進步,為增強多模態生成能力提供新藍圖。
如下圖所示,除了原有的多模態理解和文本生成能力外,MiniGPT5 還能提供合理、連貫的多模態輸出:
接下來,我們一起來看看研究的細節。
方法概覽
為了使大型語言模型具備多模態生成能力,研究者引入了一個結構化框架,將預先訓練好的多模態大型語言模型和文字到圖像生成模型整合在一起。為了解決不同模型領域之間的差異,他們引入了特殊的視覺符號「生成式voken」(generative vokens),能夠直接在原始影像上進行訓練。此外,還推進了兩階段訓練方法,並結合無分類器引導策略,以進一步提高生成品質。
多模態大模型(如MiniGPT-4)的最新進展主要集中在多模態理解方面,能夠處理作為連續輸入的影像。為了將其功能擴展到多模態生成,研究者引入了專為輸出視覺特徵而設計的生成式vokens。此外,他們還在大語言模型(LLM)框架內採用了參數效率高的微調技術,用於多模態輸出學習。
多模態輸出生成
為了使生成式token 與生成模型精確對齊,研究者制定了一個用於維度匹配的緊湊型映射模組,並納入了若干監督損失,包括文本空間損失和潛在擴散模型損失。文字空間損失有助於模型學習token 的正確定位,而潛在擴散損失則直接將token 與適當的視覺特徵對齊。由於生成式符號的特徵直接由影像引導,因此此方法不需要全面的影像描述,從而實現了無描述學習。
訓練策略
鑑於文字域和圖像域之間存在不可忽略的領域偏移,研究者發現直接在有限的文字和圖像交錯資料集上進行訓練可能會導致錯位和影像品質下降。
因此,他們採用了兩種不同的訓練策略來緩解這個問題。第一種策略包括採用無分類器引導技術,在整個擴散過程中提高生成token 的有效性;第二種策略分兩個階段展開:最初的預訓練階段側重於粗略的特徵對齊,隨後的微調階段致力於複雜的特徵學習。
實驗及結果
為了評估模型功效,研究者選擇了多個基準進行了一系列評估。實驗旨在解決幾個關鍵問題:
為了評估模型在不同訓練階段的不同基準上的效能,MiniGPT-5 的定量分析樣本如下圖3 所示:
VIST Final-Step 評估
第一組實驗涉及單步評估,即根據最後一步的模型產生相應的圖像,結果如表1 所示。
在所有三種設定中,MiniGPT-5 的效能都優於微調後的SD 2。值得注意的是,MiniGPT-5(LoRA)模型的CLIP 得分在多種類型中始終優於其他變體,尤其是在結合影像和文字時。另一方面,FID 分數凸顯了MiniGPT-5(前綴)模型的競爭力,顯示影像嵌入品質(由CLIP 分數反映)與影像的多樣性和真實性(由FID 分數反映)之間可能存在權衡。與直接在VIST 上進行訓練而不包含單模態配準階段的模型(MiniGPT-5 w/o UAS)相比,雖然該模型保留了生成有意義圖像的能力,但圖像品質和一致性明顯下降。這項觀察結果凸顯了兩階段訓練策略的重要性。
在更詳細和全面的評估中,研究者係統性地為模型提供了先前的歷史背景,並隨後在每個步驟中對生成的圖像和敘述進行評估。
表2 和表3 概述了這些實驗的結果,分別概括了圖像和語言指標的表現。實驗結果表明,MiniGPT-5 能夠在所有數據中利用long-horizontal 多模態輸入產生連貫、高品質的圖像,而不會影響原始模型的多模態理解能力。這凸顯了MiniGPT-5 在不同環境中的效能。
如表4 所示,MiniGPT-5 在57.18% 的情況下產生了更貼切的文本敘述,在52.06% 的情況下提供了更出色的圖像質量,在57.62% 的場景中生成了更連貫的多模態輸出。與採用文字到圖像敘述而不包含虛擬語氣的兩階段基線相比,這些數據明顯展示了其更強的多模態生成能力。
結果如表5 所示,MiniGPT-5 在產生更準確的文字回應方面優於基線模型Divter。雖然生成的影像品質相似,但與基準模型相比,MiniGPT-5 在MM 相關性方面更勝一籌,表明其可以更好地學習如何適當定位影像生成,並產生高度一致的多模態反應。