📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
已經有人替OpenAI把GPT-5做出來了?
原文來源:GenAI新世界
作者|薛良Neil
從理論到實踐,大語言模型LLM完全體的形態是什麼樣子的?
很多人會說是基於對自然語言的深刻理解,但這點目前OpenAI的GPT系列已經做得很好。也有人在討論AI Agent在實踐上的可能性,但目前這種討論也沒有脫離對自然語言的處理範疇。
生成式AI實際上包括了兩個方面,大語言模型是其中之一,它著重理解人類的語言,而更廣泛的所謂AIGC應用,實際上指的是以擴散模型為代表的跨模態轉換能力,也就是所謂的文生圖、文生影片等等。
那麼把這二者結合起來呢?在許多人眼中,這其實就是下一代GPT,或者說GPT完全體的樣子。最近出現在預印網站arxiv上的一篇來自新加坡國立大學計算機學院的論文引起了人們的注意,因為這篇論文設計的NExT-GPT模型試圖進行全面的模態轉換。
NExT-GPT模型的樣式其實不僅符合目前人們試圖把生成式AI的兩股力量:大語言模型和擴散模型結合起來的趨勢,甚至某種程度上說也符合人類的直覺:人類大腦正是依靠對多種模態的自由轉換和互動理解來認識這個世界的。
特別值得指出的是,所謂多模態轉換與大語言模型能力的結合,並不是簡單的用方式在彼此之間“搭橋”,而是真正把多模態數據(向量)同語言數據結合起來,這個過程被真正拉通後,等於大模型可以不僅學習從而理解人的語言,還能把這種能力擴大到更多模態去,這種結合一旦成功,將會帶來AI能力質的飛躍。
NExT-GPT結構一覽:
兩個突破點
據說Google 和OpenAI的GPT5都在進行類似的研究。在這之前,先來看看NExT-GPT模型是怎麼做到的。
總的來說,NExT-GPT模型是把大模型與多模態適配器以及擴散模型解碼器連接了起來,僅在投影層進行了1%的參數調整。論文的創新之處在於創建了一個名為MosIT的模態切換調整指令,以及一個專門針對跨模態轉換的資料集。
具體來說,NExT-GPT由三層組成,第一層是各種成熟編碼器對各種模態輸入進行編碼,然後透過投影層映射到大語言模型可以理解的形式。第二層這是一個開源的大語言模型,用來進行推理。值得一提的是,大語言模型不僅會產生文本,還會產生一個獨特的標記,用來指令解碼層輸出具體什麼模態的內容。第三層則是將這些指令訊號經過投影,對應不同的編碼器產生對應的內容。
為了降低成本,NExT-GPT利用了現成的編碼器和解碼器,為了最大限度的減輕不同模態內容轉換時出現的“噪聲”,NExT-GPT利用了ImageBind,它是一個跨模態的統一編碼器,這樣NExT-GPT不需要管理諸多異構的模態編碼器,而是可以統一將不同模態投影到大語言模型中去。
至於輸出階段,NExT-GPT廣泛使用了各種成熟的模型,包括用於影像生成的stable diffusion,視訊生成的Zeroscope,以及音訊合成的AudioLDM。下圖是論文中一個推理過程的一環,可以看到文字模式和訊號標記決定了模態被如何辨識、觸發以及生成,灰色的部分是沒有被觸發的模態選項。
考慮到需要讓NExT-GPT具備準確地跨模態生成和推理的能力,論文還引入了MosIT,也就是Modality-switching Instruction Tuning模式切換指令微調,它的訓練基於5000個高品質樣本組成的資料集。
**完全體要來了嗎? **
目前NExT-GPT還具有許多的弱點,作者在論文中也提到了不少,例如非常容易想到的,四種模態對於真正的多模態完全體大模型來說種類還是有點太少,訓練MosIT的數據集的數量同樣有限。
另外,作者也正努力試圖透過不同尺寸的大語言模型來讓NExT-GPT適應更多場景。
相比尺寸來說,另一個棘手的問題更為現實。儘管NExT-GPT展現出一種關於多模態能力的強大前景,但其實以擴散模型為代表的AIGC能力目前所能達到的水平依然有限,這影響了整個NExT-GPT的表現。
總的來說,多模態AI有著非常誘人的前景,因為它和應用場景以及用戶的需求結合的更緊密,在大模型賽道目前熱度略有下降的情況下,多模態AI 給人以巨大的想像空間。 NExT-GPT作為一個端對端的多模態大模型,實際上已經具備了多模態AI的雛形,論文中關於參數調優對齊以及使用MosIT進行模型推理能力強化的思路讓人印象深刻,因此我們甚至可以說,邁向完全體AI的道路,此刻已經有人踏出了第一步。