📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
AI模型“大即好”的觀點已經走不通了
作者|The Economist 譯者| 明明如月
責編| 夏萌
上市 | CSDN(ID:CSDNnews)
如果AI 想要發展更好,將不得不用更少的資源實現更強大的功能。
談起“大型語言模型”(LLMs),如OpenAI 的GPT (Generative Pre-trained Transformer)——驅動美國流行聊天機器人的核心力量——名字已經說明了一切。這種現代AI 系統由龐大的人工神經網絡驅動,這些網絡採用一種寬泛的方式模擬著生物大腦的工作機制。 2020 年發布的GPT-3 就是一款大語言模型“巨獸”,擁有1750 億個“參數”,這是神經元之間模擬連接的名稱。 GPT-3 通過在幾週內使用數千個擅長AI 計算的GPU 處理數万億字的文本進行訓練,耗資預計超過460 萬美元。
然而,現代AI 研究的共識是:“大即好,越大越好”。因此,模型的規模增長速度一直處於飛速發展之中。 GPT-4 於三月份發布,據估計其擁有大約1 萬億個參數——比前一代增加了近六倍。 OpenAI 的CEO Sam Altman 估計其開發成本超過1 億美元。而整個行業也呈現出同樣的趨勢。研究公司Epoch AI 在2022 年預測,訓練頂級模型所需的計算能力每六到十個月就會翻倍(見下圖)。
今年早些時候,摩根士丹利銀行估算,如果一半的Google 搜索由目前的GPT 類型程序處理,這可能會讓公司每年多支出60 億美元。隨著模型規模的增長,這個數字可能會繼續上升。
因此,許多人認為AI 模型“大即好”的觀點已經走不通了。如果要繼續改善AI 模型(更別提實現那些更宏大的AI夢想了),開發者們需要找出如何在資源有限的情況下獲得更好的性能。就像Altman 先生在今年四月回顧大型AI 的歷史時所說:“我認為我們已經到了一個時代的盡頭。”
量化緊縮
反之,研究人員開始關注如何提高模型的效率,而不只是追求規模。一種方式是通過降低參數數量但使用更多數據來訓練模型以達到權衡。 2022年,Google 的DeepMind 部門在一個包含1.4 萬億字的語料庫上訓練了一個擁有700 億參數的LLM,名為Chinchilla。儘管參數少於GPT-3的1750億,訓練數據只有3000億字,但這個模型的表現超過了GPT-3。為一個較小的LLM提供更多的數據意味著它需要更長的時間來訓練,但結果是一個更小、更快、更便宜的模型。
另一種選擇是讓降低浮點數的精度。減少模型中每個數字的精確位數,即四捨五入,可以大幅減少硬件需求。奧地利科學技術研究所的研究人員在三月份證明,四捨五入可以大幅度減少類似GPT-3 模型的內存消耗,使得模型可以在一台高端GPU 上運行,而不是五台,且“精度下降可以忽略不計”。
一些用戶會對通用LLM 進行微調,專注於生成法律文件或檢測假新聞等特定任務。雖然這不像首次訓練LLM 那樣複雜,但仍可能代價昂貴且耗時長。微調Meta(Facebook 的母公司)開源的擁有650 億參數的LLaMA 模型,需要多個GPU,花費的時間從幾個小時到幾天不等。
華盛頓大學的研究人員發明了一種更高效的方法,可以在一天內在單個GPU 上從LLaMA 創建一個新模型Guanaco,性能損失微乎其微。其中一部分技巧就是採用了類似奧地利研究人員的四捨五入技術。但他們還使用了一種叫做“低秩自適應(Low-Rank Adaptation ,LoRA)” 的技術,該技術涉及固定模型的現有參數,然後在其中添加一組新的、較小的參數。微調是通過僅改變這些新變量來完成的。這使得事情簡化到即使是計算能力相對較弱的計算機,如智能手機,也可以勝任這項任務。如果能讓LLM 在用戶設備上運行,而非目前的巨型數據中心,那可能帶來更大的個性化和更好的隱私保護。
同時,一個Google 的團隊為那些可以使用較小模型的人提供了新的選擇。這種方法專注於從大型通用模型中挖掘特定的知識,並將其轉化為一個更小且專業化的模型。大模型充當教師,小模型充當學生。研究人員讓教師回答問題,並展示其推理過程。教師模型(大模型)的答案和推理都用於訓練學生模型(小模型)。該團隊成功地訓練了一個只有77 億參數的學生模型(小模型),在特定的推理任務上超過了其有5400 億參數的教師模型(大模型)。
另一種方法是改變模型構建方式,而不是關注模型在做什麼。大部分AI 模型都是採用Python 語言開發的。它設計得易於使用,讓編程人員無需考慮程序在運行時如何操作芯片。屏蔽這些細節的代價是代碼運行得更慢。更多地關注這些實現細節可以帶來巨大的收益。正如開源AI 公司Hugging Face 的首席科學官Thomas Wolf 所說,這是“目前人工智能領域研究的一個重要方面”。
優化代碼
例如,在2022 年,斯坦福大學的研究人員發布了一種改進版的“注意力算法”,該算法允許大語言模型(LLM)學習詞語和概念之間的聯繫。這個想法是修改代碼以考慮正在運行它的芯片上發生的情況,特別是追踪何時需要檢索或儲存特定信息。他們的算法成功將GPT-2(一種早期的大型語言模型)的訓練速度提高了三倍,還增強了它處理更長查詢的能力。
更簡潔的代碼也可以通過更好的工具來實現。今年早些時候,Meta 發布了AI 編程框架PyTorch 的新版本。通過讓程序員更多地思考如何在實際芯片上組織計算,它可以通過添加一行代碼來使模型的訓練速度提高一倍。由Apple 和Google 的前工程師創建的初創公司Modular,上個月發布了一種名為Mojo 的新的專注於AI 的編程語言,它基於Python。 Mojo 讓程序員可以控製過去被屏蔽的所有細節,這在某些情況下使用Mojo 編寫的代碼運行速度比用Python 編寫的等價代碼塊數千倍。
最後一個選擇是改進運行代碼的芯片。雖然最初是用來處理現代視頻遊戲中的複雜圖形, GPU 意外地在運行AI模型上表現良好。 Meta 的一位硬件研究員表示,對於"推理"(即,模型訓練完成後的實際運行),GPU 的設計並不完美。因此,一些公司正在設計自己的更專業的硬件。 Google 已經在其內部的“TPU” 芯片上運行了大部分AI 項目。 Meta 及其MTIA 芯片,以及Amazon 及其Inferentia 芯片,都在做類似嘗試。
有時候只需要一些簡單的改變(比如對數字四捨五入或切換編程語言)就可以獲得巨大的性能提升,這可能讓人感到驚訝。但這反映了大語言模型(LLM)的發展速度之快。多年來,大語言模型主要是作為研究項目,關注點主要是讓它們能夠正常運行和產生有效結果,而不是過於關注其設計的優雅性。只是最近,它們才變成了商業化、面向大眾市場的產品。大多數專家都認為,還有很大的改進空間。正如斯坦福大學的計算機科學家Chris Manning 所說:“沒有任何理由相信目前使用的神經架構(指代當前的神經網絡結構)最優的,不排除未來會出現更先進的架構”。