ChatGPT等模型:到2026年,將消耗盡高品質訓練數據

原文來源:AIGC開放社區

圖片來源:由無界 AI生成

《麻省理工技術評論》曾在官網發表文章表示,隨著ChatGPT等大模型的持續火熱,對訓練數據的需求越來越大。 大模型就像是一個「網路黑洞」不斷地吸收,最終會導致沒有足夠的數據進行訓練。

而知名AI研究機構Epochai直接針對數據訓練問題發表了一篇論文,並指出,到2026年,大模型將消耗盡高質量數據;到2030年—2050年,將消耗盡所有低質量數據;

到2030年—2060年,將消耗盡所有圖像訓練數據。 (這裡的數據指的是,沒有被任何標記、污染過的原生數據)

論文位址:

事實上,訓練數據的問題已經顯現。 OpenAI表示,缺乏高品質訓練數據將成為開發GPT-5的重要難題之一。 這就像人類上學一樣,當你的知識水平達到博士級別時,再給你看初中的知識對學習毫無説明。

所以,OpenAI為了增強GPT-5的學習、推理和AGI通用能力,已建立了一個“數據聯盟”,希望大面積搜集私密、超長文本、視頻、音頻等數據,讓模型深度模擬、學習人類的思維和工作方式

目前,冰島、Free Law Project等組織已加入該聯盟,為OpenAI提供各種數據,説明其加速模型研發。

此外,隨著ChatGPT、Midjourney、Gen-2等模型生成的AI內容進入公共網路,這對人類構建的公共數據池將產生嚴重污染,會出現同質化、邏輯單一等特徵,加速高質量數據消耗的進程。

高品質訓練數據,對大模型研發至關重要

從技術原理來看,可以把大語言模型看成“語言預測機器”, 通過學習大量文本數據,建立起單詞之間的關聯模式,然後利用這些模式來預測文本的下一個單詞或句子。

Transformer便是最著名、應用最廣泛的架構之一,ChatGPT等借鑒了該技術。

簡單來說,大語言模型就是“照葫蘆畫瓢”,人類怎麼說它就怎麼說。 所以,當你使用ChatGPT等模型生成文本時,會感覺這些文本內容的敘述模式在哪裡見過。

因此,訓練數據的品質直接決定了大模型學習的結構是否準確。 如果數據中包含了大量語法錯誤、措辭不當、斷句不準、虛假內容等,那麼模型預測出來的內容自然也包含這些問題。

例如,訓練了一個翻譯模型,但使用的數據都是胡編亂造的低劣內容,AI翻譯出來的內容自然會非常差。

這也是為什麼我們經常會看到很多參數很小,性能、輸出能力卻比高參數還強的模型,主要原因之一便是使用了高品質訓練數據。

大模型時代,數據為王

正因數據的重要性,高品質的訓練數據成為OpenAI、百度、Anthropic、Cohere等廠商必爭的寶貴資源,成為大模型時代的“石油”。

早在今年3月,國內還在瘋狂煉丹研究大模型時,百度已經率先發佈了對標ChatGPT的生成式AI產品——文心一言生。

除了超強的研發能力之外,百度通過搜尋引擎積累的20多年龐大的中文語料數據幫了大忙,並在文心一言的多個反覆運算版本中發揮重要作用,遙遙領先國內其他廠商。

高質量數據通常包括出版書籍、文學作品、學術論文、學校課本、權威媒體的新聞報導、維琪百科、百度百科等,經過時間、人類驗證過的文本、視頻、音頻等數據。

但研究機構發現,這類高質量數據的增長非常緩慢。 以出版社書籍為例,需要經過市場調研、初稿、編輯、再審等繁瑣流程,耗費幾個月甚至幾年時間才能出版一本書,這種數據產出速度,遠遠落後大模型訓練數據需求的增長。

從大語言模型過去4年的發展趨勢來看,其年訓練數據量的增速超過了50%。 也就是說,每過1年就需要雙倍的數據量來訓練模型,才能實現性能、功能的提升

所以,你會看到很多國家、企業嚴格保護數據隱私以及制定了相關條例,一方面,是保護用戶的隱私不被第三方機構搜集,出現盜取、亂用的情況;

另一方面,便是為了防止重要數據被少數機構壟斷和囤積,在技術研發時無數據可用。

到2026年,高品質訓練數據可能會用光

為了研究訓練數據消耗問題,Epochai的研究人員類比了從2022年—2100年,全球每年產生的語言和圖像數據,然後計算這些數據的總量。

又類比了ChatGPT等大模型對數據的消耗速率。 最後,比較了數據增長速度和被消耗的速度,得出了以下重要結論:

在當前大模型的高速發展趨勢下, 到2030年—2050年將消耗盡所有低質量數據;高質量數據,極有可能在2026年就會消耗完。

到2030年—2060年,將消耗盡所有圖像訓練數據;到2040年,由於缺乏訓練數據,大模型的功能反覆運算可能會出現放緩的跡象。

**研究人員使用了兩個模型進行了計算:**第一個模型,通過大語言和圖像模型兩個領域實際使用的數據集增長趨勢,再利用歷史統計數據進行外推,預測它們何時會達到消耗峰值和平均消耗。

**第二個模型:**預測未來每年全球範圍內將產生多少新數據。 該模型基於三個變數,全球人口數量、互聯網普及率和平均每個線民每年產生的數據。

同時研究人員使用聯合國數據擬合出人口增長曲線,用一個S型函數擬合互聯網使用率,並做出每人每年產數據基本不變的簡單假設,三者相乘即可估算全球每年的新數據量。

該模型已經準確預測出Reddit(知名論壇)每個月產出的數據,所以,準確率很高

最後,研究人員將兩個模型進行相結合得出了以上結論。

研究人員表示,雖然這個數據是類比、估算出來的,存在一定的不確定性。 但為大模型界敲響了警鐘,訓練數據可能很快成為制約AI模型擴展和應用的重要瓶頸。

AI廠商們需要提前布局數據再生、合成的有效方法,避免在發展大模型的過程中出現斷崖式數據短缺。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)