已經有人替OpenAI把GPT-5做出來了？

Question

原文來源：GenAI新世界作者｜薛良Neil![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3a78851946-dd1a6f-6d2ef1) 圖片來源：由無界AI‌ 生成從理論到實踐，大語言模型LLM完全體的形態是什麼樣子的？很多人會說是基於對自然語言的深刻理解，但這點目前OpenAI的GPT系列已經做得很好。也有人在討論AI Agent在實踐上的可能性，但目前這種討論也沒有脫離對自然語言的處理範疇。生成式AI實際上包括了兩個方面，大語言模型是其中之一，它著重理解人類的語言，而更廣泛的所謂AIGC應用，實際上指的是以擴散模型為代表的跨模態轉換能力，也就是所謂的文生圖、文生影片等等。那麼把這二者結合起來呢？在許多人眼中，這其實就是下一代GPT，或者說GPT完全體的樣子。最近出現在預印網站arxiv上的一篇來自新加坡國立大學計算機學院的論文引起了人們的注意，因為這篇論文設計的NExT-GPT模型試圖進行全面的模態轉換。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5d54ddb212-dd1a6f-6d2ef1) 從上圖我們可以看到，NExT-GPT模型的輸入和輸出端都能產生包含文字、圖片、音訊和視訊在內的多種模態形式。其中輸出端除了文字以外均使用了對應不同模態的擴散模型。輸入和輸出之間的介質轉換依靠大模型進行。NExT-GPT模型的樣式其實不僅符合目前人們試圖把生成式AI的兩股力量：大語言模型和擴散模型結合起來的趨勢，甚至某種程度上說也符合人類的直覺：人類大腦正是依靠對多種模態的自由轉換和互動理解來認識這個世界的。特別值得指出的是，所謂多模態轉換與大語言模型能力的結合，並不是簡單的用方式在彼此之間“搭橋”，而是真正把多模態數據（向量）同語言數據結合起來，這個過程被真正拉通後，等於大模型可以不僅學習從而理解人的語言，還能把這種能力擴大到更多模態去，這種結合一旦成功，將會帶來AI能力質的飛躍。**NExT-GPT結構一覽：****兩個突破點**據說Google 和OpenAI的GPT5都在進行類似的研究。在這之前，先來看看NExT-GPT模型是怎麼做到的。總的來說，NExT-GPT模型是把大模型與多模態適配器以及擴散模型解碼器連接了起來，僅在投影層進行了1%的參數調整。論文的創新之處在於創建了一個名為MosIT的模態切換調整指令，以及一個專門針對跨模態轉換的資料集。具體來說，NExT-GPT由三層組成，第一層是各種成熟編碼器對各種模態輸入進行編碼，然後透過投影層映射到大語言模型可以理解的形式。第二層這是一個開源的大語言模型，用來進行推理。值得一提的是，大語言模型不僅會產生文本，還會產生一個獨特的標記，用來指令解碼層輸出具體什麼模態的內容。第三層則是將這些指令訊號經過投影，對應不同的編碼器產生對應的內容。為了降低成本，NExT-GPT利用了現成的編碼器和解碼器，為了最大限度的減輕不同模態內容轉換時出現的“噪聲”，NExT-GPT利用了ImageBind，它是一個跨模態的統一編碼器，這樣NExT-GPT不需要管理諸多異構的模態編碼器，而是可以統一將不同模態投影到大語言模型中去。至於輸出階段，NExT-GPT廣泛使用了各種成熟的模型，包括用於影像生成的stable diffusion，視訊生成的Zeroscope，以及音訊合成的AudioLDM。下圖是論文中一個推理過程的一環，可以看到文字模式和訊號標記決定了模態被如何辨識、觸發以及生成，灰色的部分是沒有被觸發的模態選項。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9afd63e00f-dd1a6f-6d2ef1) 這其中涉及了一個不同模態之間語義理解的問題，因此對齊是必不可少的。不過由於結構上比較清晰，實際上NExT-GPT的對齊是很好操作的。作者設計了一個三層的耦合結構，編碼端以大模型為中心對齊，解碼端則與指令對齊。這種對齊放棄讓擴散模型與大語言模型之間執行完整規模的對齊過程，而是僅使用文本條件編碼器，在最小化了大模型模式信號標記與擴散模型文本之間的距離後，對齊僅基於純粹的文字進行，因此這種對齊的量級很輕，只有大概1%的參數需要調整。考慮到需要讓NExT-GPT具備準確地跨模態生成和推理的能力，論文還引入了MosIT，也就是Modality-switching Instruction Tuning模式切換指令微調，它的訓練基於5000個高品質樣本組成的資料集。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0a8da7306d-dd1a6f-6d2ef1) 具體的訓練過程有些複雜，就不展開細說了，總的來說MosIT可以重構輸入和輸出的文字內容，讓NExT-GPT能夠很好地理解文字、圖像、視訊和音訊的各種模式組合中的複雜指令，這就十分接近人類理解和推理的模式。**完全體要來了嗎？ **目前NExT-GPT還具有許多的弱點，作者在論文中也提到了不少，例如非常容易想到的，四種模態對於真正的多模態完全體大模型來說種類還是有點太少，訓練MosIT的數據集的數量同樣有限。另外，作者也正努力試圖透過不同尺寸的大語言模型來讓NExT-GPT適應更多場景。相比尺寸來說，另一個棘手的問題更為現實。儘管NExT-GPT展現出一種關於多模態能力的強大前景，但其實以擴散模型為代表的AIGC能力目前所能達到的水平依然有限，這影響了整個NExT-GPT的表現。總的來說，多模態AI有著非常誘人的前景，因為它和應用場景以及用戶的需求結合的更緊密，在大模型賽道目前熱度略有下降的情況下，多模態AI 給人以巨大的想像空間。 NExT-GPT作為一個端對端的多模態大模型，實際上已經具備了多模態AI的雛形，論文中關於參數調優對齊以及使用MosIT進行模型推理能力強化的思路讓人印象深刻，因此我們甚至可以說，邁向完全體AI的道路，此刻已經有人踏出了第一步。