📢 Gate廣場 #MBG任务挑战# 發帖贏大獎活動火熱開啓!
想要瓜分1,000枚MBG?現在就來參與,展示你的洞察與實操,成爲MBG推廣達人!
💰️ 本期將評選出20位優質發帖用戶,每人可輕鬆獲得50枚MBG!
如何參與:
1️⃣ 調研MBG項目
對MBG的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與MBG相關活動(包括CandyDrop、Launchpool或現貨交易),並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是現貨行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
MBG熱門活動(帖文需附下列活動連結):
Gate第287期Launchpool:MBG — 質押ETH、MBG即可免費瓜分112,500 MBG,每小時領取獎勵!參與攻略見公告:https://www.gate.com/announcements/article/46230
Gate CandyDrop第55期:CandyDrop x MBG — 通過首次交易、交易MBG、邀請好友註冊交易即可分187,500 MBG!參與攻略見公告:https://www.gate.com/announcements
ChatGPT等模型:到2026年,將消耗盡高品質訓練數據
原文來源:AIGC開放社區
《麻省理工技術評論》曾在官網發表文章表示,隨著ChatGPT等大模型的持續火熱,對訓練數據的需求越來越大。 大模型就像是一個「網路黑洞」不斷地吸收,最終會導致沒有足夠的數據進行訓練。
而知名AI研究機構Epochai直接針對數據訓練問題發表了一篇論文,並指出,到2026年,大模型將消耗盡高質量數據;到2030年—2050年,將消耗盡所有低質量數據;
到2030年—2060年,將消耗盡所有圖像訓練數據。 (這裡的數據指的是,沒有被任何標記、污染過的原生數據)
論文位址:
所以,OpenAI為了增強GPT-5的學習、推理和AGI通用能力,已建立了一個“數據聯盟”,希望大面積搜集私密、超長文本、視頻、音頻等數據,讓模型深度模擬、學習人類的思維和工作方式。
目前,冰島、Free Law Project等組織已加入該聯盟,為OpenAI提供各種數據,説明其加速模型研發。
此外,隨著ChatGPT、Midjourney、Gen-2等模型生成的AI內容進入公共網路,這對人類構建的公共數據池將產生嚴重污染,會出現同質化、邏輯單一等特徵,加速高質量數據消耗的進程。
高品質訓練數據,對大模型研發至關重要
從技術原理來看,可以把大語言模型看成“語言預測機器”, 通過學習大量文本數據,建立起單詞之間的關聯模式,然後利用這些模式來預測文本的下一個單詞或句子。
Transformer便是最著名、應用最廣泛的架構之一,ChatGPT等借鑒了該技術。
簡單來說,大語言模型就是“照葫蘆畫瓢”,人類怎麼說它就怎麼說。 所以,當你使用ChatGPT等模型生成文本時,會感覺這些文本內容的敘述模式在哪裡見過。
例如,訓練了一個翻譯模型,但使用的數據都是胡編亂造的低劣內容,AI翻譯出來的內容自然會非常差。
這也是為什麼我們經常會看到很多參數很小,性能、輸出能力卻比高參數還強的模型,主要原因之一便是使用了高品質訓練數據。
大模型時代,數據為王
正因數據的重要性,高品質的訓練數據成為OpenAI、百度、Anthropic、Cohere等廠商必爭的寶貴資源,成為大模型時代的“石油”。
早在今年3月,國內還在瘋狂煉丹研究大模型時,百度已經率先發佈了對標ChatGPT的生成式AI產品——文心一言生。
除了超強的研發能力之外,百度通過搜尋引擎積累的20多年龐大的中文語料數據幫了大忙,並在文心一言的多個反覆運算版本中發揮重要作用,遙遙領先國內其他廠商。
高質量數據通常包括出版書籍、文學作品、學術論文、學校課本、權威媒體的新聞報導、維琪百科、百度百科等,經過時間、人類驗證過的文本、視頻、音頻等數據。
但研究機構發現,這類高質量數據的增長非常緩慢。 以出版社書籍為例,需要經過市場調研、初稿、編輯、再審等繁瑣流程,耗費幾個月甚至幾年時間才能出版一本書,這種數據產出速度,遠遠落後大模型訓練數據需求的增長。
從大語言模型過去4年的發展趨勢來看,其年訓練數據量的增速超過了50%。 也就是說,每過1年就需要雙倍的數據量來訓練模型,才能實現性能、功能的提升。
所以,你會看到很多國家、企業嚴格保護數據隱私以及制定了相關條例,一方面,是保護用戶的隱私不被第三方機構搜集,出現盜取、亂用的情況;
另一方面,便是為了防止重要數據被少數機構壟斷和囤積,在技術研發時無數據可用。
到2026年,高品質訓練數據可能會用光
為了研究訓練數據消耗問題,Epochai的研究人員類比了從2022年—2100年,全球每年產生的語言和圖像數據,然後計算這些數據的總量。
又類比了ChatGPT等大模型對數據的消耗速率。 最後,比較了數據增長速度和被消耗的速度,得出了以下重要結論:
在當前大模型的高速發展趨勢下, 到2030年—2050年將消耗盡所有低質量數據;高質量數據,極有可能在2026年就會消耗完。
**第二個模型:**預測未來每年全球範圍內將產生多少新數據。 該模型基於三個變數,全球人口數量、互聯網普及率和平均每個線民每年產生的數據。
同時研究人員使用聯合國數據擬合出人口增長曲線,用一個S型函數擬合互聯網使用率,並做出每人每年產數據基本不變的簡單假設,三者相乘即可估算全球每年的新數據量。
該模型已經準確預測出Reddit(知名論壇)每個月產出的數據,所以,準確率很高。
最後,研究人員將兩個模型進行相結合得出了以上結論。
研究人員表示,雖然這個數據是類比、估算出來的,存在一定的不確定性。 但為大模型界敲響了警鐘,訓練數據可能很快成為制約AI模型擴展和應用的重要瓶頸。
AI廠商們需要提前布局數據再生、合成的有效方法,避免在發展大模型的過程中出現斷崖式數據短缺。