英偉達的「鐮刀」,不是AI晶元

原文來源:矽基研究室

作者:白嘉嘉

圖片來源:由無界 AI生成

英偉達又一次被推上了風口浪尖,這次不是因為它扶搖直上的業績,而是過去將它捧在手心的微軟、OpenAI、谷歌等人工智慧排頭兵起了「異心」。

據The Information報導,微軟計劃在下個月的年度開發者大會上推出首款為人工智慧設計的晶元。 這款晶元是為訓練和運行大型語言模型(LLM)的數據中心伺服器設計的。 OpenAI也在探索製造自己的人工智慧晶片。 公開信息顯示,OpenAI至少投資了3家晶元公司。

谷歌的自研晶元TPU更是反覆運算到了v5世代。 此前有分析師爆料谷歌的算力資源比OpenAI、Meta、亞馬遜、甲骨文和CoreWeave加起來還要多,它的優勢正是來源於擁有龐大數量的TPU。

**這些企業為什麼要下場造芯,市場上已經有了許多分析,原因主要集中在英偉達的GPU價格過高、產能不足。 通過自研晶元,有望削弱英偉達在人工智慧晶元領域的定價權,同時比沒有自研晶元的企業更具戰略自主。 **

但是,自研晶元真的能迫使英偉達放緩手中的鐮刀嗎?

一個事實是,市面上H100 GPU已漲到了原價的兩倍,依舊供不應求。 即便是自研晶元已經「上線」的谷歌,仍在大量採購英偉達的晶元。

為什麼?

由於英偉達的GPU銷量過於亮眼,以至於常常被簡單定義成一家硬體公司。 但很多人不知道的是,英偉達的軟體工程師數量比硬體工程師還要多。

這句話背後的意思是,**英偉達真正的護城河從不來自於層出不窮的新晶元(當然這也很了不起),而來源於軟硬體生態。 **

而CUDA,正是這條護城河的第一道河堤。

英偉達真正的王牌——CUDA

2019年,英偉達CEO黃仁勳在密爾沃基工學院介紹企業發展史時,說了這樣一段話。

“一項接著一項的應用,一個接著一個的科學領域,從分子動力學、計算物理學,到天體物理學、粒子物理學、高能物理學,這些不同的科學領域開始採用我們的科技,因為這是向前發展的最佳解法。 而我們深深地以這項貢獻為榮。 ”

**這項英偉達深以為榮的技術,正是CUDA。 **

CUDA是一種英偉達推出的並行計算架構,正是在它的加持下,GPU才得以打敗CPU,成為今天運行大數據計算的基礎。 運行相同任務的情況下,支援CUDA系統的英偉達GPU比CPU的速度要快10到100倍。

為什麼CUDA有這種魔力?

CPU和GPU都是計算機處理器,都能執行計算任務,其不同點在於,CPU更擅長線性計算,而GPU更擅長並行計算。 業內常用的一個類比是,CPU就像一位大學教授,能獨立解決各種複雜問題,但要按部就班進行,GPU像一群小學生,單核運算能力不如CPU,但勝在核的數量龐大,能同時計算。

而CUDA,則是調動這群小學生的指揮棒。 **在CUDA的仲介下,研究員、程式設計人員得以實現通過程式設計語言與硬體設施對話,從而將複雜的數學問題轉化為多個簡單的小問題,分發給GPU的多個計算核。 **

如黃仁勳所說,CUDA問世後成為了「科學向前發展的最佳解法」,龐大的運算能力成為了搭建超級計算機的首選。

10月11日,美國能源部下屬橡樹嶺國家實驗室宣布,他們研發出的超級計算機「頂點」(Summit),浮點運算速度峰值可達每秒20億億次,接近「神威·太湖之光」超級計算機的兩倍。

這台算力巨獸身上搭載了近28000塊英偉達GPU。 而橡樹嶺國家實驗室,正是第一家大量採用英偉達「CUDA+GPU」套餐的研究所。

事實上,從2006年英偉達推出CUDA至今,涉及計算機計算的各個領域,幾乎已經被塑造成了英偉達的形狀。 航空航太、生物科學研究、機械和流體類比及能源探索等領域的研究,80%在CUDA的基礎上進行。

**並且,在大模型熱的帶動下,CUDA生態合作者規模仍在翻倍增長。 **

根據英偉達2023財年年報,目前有400萬名開發者正在與CUDA合作。 英偉達通過12年的時間達到200萬名開發者,在過去的兩年半里該數位翻了一番,目前CUDA的下載量已經超過了4000萬次。

與此同時,英偉達仍在不斷擴大CUDA生態,推出了軟體加速庫的集合CUDA-X AI。 這些庫建立在 CUDA之上,提供對於深度學習、機器學習和高性能計算必不可少的優化功能,是針對數據科學加速的端到端平臺。

CUDA生態如日中天,與之相輔相成的GPU成為消費者的首選,英偉達因此賺得盆滿缽滿。 不過,面對這麼大一塊蛋糕,競爭對手自然不可能只眼錚錚地看著。

比如,AMD推出了生態平臺ROCm,同樣相容不少計算框架; OpenAI的Triton被認為是CUDA的最有力挑戰者; 由蘋果設計,後交由Khronos Group維護的開源構架OpenCL,借鑒了CUDA的成功經驗,並盡可能的支援多核CPU、GPU或其他加速器; 谷歌用「TPU+TensorFlow+雲」的模式吸引開發者和拓展客戶。

但這些「理論上」的競爭者,在實際工作中,卻暴露出了各種各樣的問題。

今年2月,半導體研究和諮詢公司Semi Analysis首席分析師Dylan Patel曾寫了一篇名為《Nvidia 在機器學習領域的 CUDA 壟斷如何被打破(How Nvidia's CUDA Monopoly In Machine Learning Is Breaking - OpenAI Triton And PyTorch 2.0)》的文章。

文章的留言中,一位程式師表示:

“我希望如此,但我非常非常懷疑。 我使用的所有東西都是基於CUDA構建的。 實際上,在非NVidia硬體上沒有任何功能。 '實際上有效'與'理論上有效'不同。 我使用的很多東西理論上都支援 ROCm,但在實踐中,當你嘗試使用它時,你會遇到大大小小的錯誤,並且會崩潰或無法正常工作。 ”

**一線研究人員的言論證明瞭,在軟硬體均坐穩頭把交椅,並且培育了市場近20年的英偉達面前,至少眼下這個階段,沒有企業能和它正面競爭。 **

英偉達帝國,誕生於「再造世界」

為什麼恰好是英偉達捏住了CUDA這張王牌? 從2006年CUDA面世起算,已經過去了接近18年時間,為什麼在如此漫長的時間,為什麼在如此漫長的時間,英偉達的護城河不但沒有被攻破,反而越來越寬闊?

**這些問題背後都有一個預設的前提——CUDA是那個「正確」的方向。 而在英偉達孤注一擲的21世紀初,這句話黃仁勳對股東和市場重複了千百遍。 **

如果我們想要一個美好的世界,要做的第一件事,就是類比它。 某種程度上,這個想法就是GPU時代的原點,將那些複雜的物理定律模擬出來,並以畫面的形式呈現。 然而,那些類比物理定律的應用不會從天上掉下來,它需要有人一個一個地去開發。

因此,即便GPU的運算能力已經被證明未來有可能超過CPU,應用程式匱乏,程式設計過程太過繁瑣,缺少底層語言代表的現狀,仍讓程式師們對其敬而遠之。

2003年,英特爾推出了4核CPU,英偉達為了與之競爭,開始著手發展統一計算設備架構技術,也就是CUDA。

這個想法由首席科學家大衛·柯克博士提出,後來也是他說服黃仁勳,讓英偉達未來所有的GPU都必須支援CUDA。 因為柯克在計算機高性能計算領域所發揮的重要作用,他後來被譽為「CUDA之父」,還當選為美國國家工程院院士。

**這些榮譽都是後話,當時黃仁勳需要解決的問題是,如何讓股東接受產品成本需要上升一倍,去搏一個回報週期可能在10年以上的未來。 **

事實上,圍繞著CUDA的質疑一直持續到了AI時代的前夜,英偉達的市值常年徘徊在10億美元的水平,股價甚至一度因為CUDA附加成本對業績的拖累跌至1.5美元。 股東多次提出希望他們專注於提高盈利能力。

2010年,當時的CPU王者英特爾曾傳出計劃收購英偉達。 《晶元戰爭》中描述到,「對英特爾來說,(收購英偉達)價格不是問題,問題是該給黃仁勳一個什麼職位。 然而雙方一直沒有達成一致意見,最後不了了之。 ”

**在市場看空英偉達的這些年裡,黃仁勳從未質疑過CUDA的價值。 **

為了吸引開發人員編寫應用程式並展示GPU的優勢,黃仁勳先是使用了當時已經擁有龐大遊戲玩家市場的GeForce GPU來作為安裝CUDA的基礎。 然後又創建了一個名為GTC的會議,在全球範圍內孜孜不倦地推廣CUDA。

近年來最為市場稱道的一個案例是,2016年,黃仁勳親自去彼時剛成立的OpenAI交流,並贈送了一台搭載有8顆P100晶元的DGX-1,那是英偉達當時最強力的浮點運算GPU。

這件事往往被解讀為黃仁勳的眼光老辣,但對他本人來說,這無非是確保CUDA成為前沿科學研究者最習慣的框架的又一次嘗試而已。

與英偉達的篤定恰好能形成對比的,是英特爾。

作為CPU時代的王者,英特爾本該成為英偉達最具競爭力的對手。

然而,**在2010年取消了CPU和GPU融合的獨立顯卡計劃后,英特爾就失去了和英偉達硬碰硬的興趣(當然也可以說是因為納米製程陷入停滯而失去底氣)。 **先是試圖收購英偉達,然後又轉身去和高通在移動基帶市場上較勁,2015年第一波人工智慧熱潮席捲而來時,大夢初醒的英特爾一手收購人工智慧方向的晶元公司,一手將AMD的晶元納入到自己的系統晶元當中。

可惜的是,彼時英偉達的市場份額超過了60%,CUDA壟斷已然初具雛形,在GPU領域,英特爾已經沒有資格和英偉達坐在同一張牌桌上了。

DPU和DOCA,英偉達的新戰場

2020年,創投圈曾流行過一個笑話。

“DPU是什麼?”

“支付寶到賬,一億元。”

只要觸發了DPU這個關鍵詞,錢就會滾滾而來。

這輪DPU熱,正是英偉達掀起的。

2020年上半年,英偉達以69億美元對價收購以色列網路晶元公司Mellanox Technologies,並於同年推出BlueField-2 DPU,將其定義為繼CPU、GPU之後的「第三顆主力晶元」。

**那麼到底什麼是DPU? **

**DPU最核心的功能,是取代CPU,建立以數據為中心的計算架構。 **

眾所周知,CPU的全稱是中央處理器,它除了承擔運行應用程式、執行計算的任務外,還扮演著數據流量控制器的角色,在GPU、存儲、FPGA和其他設備之間移動數據。

你可以簡單理解成,校長拋出一道難題后,老師(CPU)對其進行拆分,其中較為複雜的部分由自己解決,容易但繁瑣的分發給學生(GPU)來做。 過去題的數量比較少,老師還可以分得過來。 但隨著題目的數量增加,拆分、分發題目的時間反倒佔用了老師的大量時間。

此時,再聘請一個專門拆分、分發題目的人,就成為了提升系統整體運算效率的關鍵。 而DPU就是那個人。

**近年來,隨著數據中心建設、網路頻寬和數據量急劇增長,同時CPU性能增長速度放緩,越來越難以適應未來計算晶片的需求,DPU應運而生。 **英偉達官網是這樣定義它的——DPU是一個用於數據中心基礎設施的先進計算平臺。

就像GPU背後有CUDA生態作支撐一樣,黃仁勳同樣為DPU量身定做了一套軟體生態,同步推出了DOCA。

借助DOCA,開發者可以通過創建軟體定義、雲原生、DPU 加速的服務來對未來的數據中心基礎設施進行程式設計,並支援零信任保護,以滿足現代數據中心日益增長的性能和安全需求。

與CUDA不同的是,已經功成名就的英偉達不再需要苦口婆心地向市場證明自己眼光的獨到之處,創投圈的DPU熱就足以說明這一點。

**不過伴隨而來的,DPU市場的競爭也遠比當年GPU要來得激烈。 **

國外廠商中,Marvell、英特爾、AMD均研發了DPU或DPU的對位產品。 國內亦湧現出一批DPU初創企業,如雲豹智慧、中科馭數、芯啟源、雲脈芯聯、星雲智聯、大禹智芯。

雲廠商方面,亞馬遜的AWS和阿裡雲已經實現大規模商用DPU構架,騰訊和位元組跳動則加入了DPU研發大軍,其中騰訊推出了水杉和銀杉兩代DPU。

這一次英偉達還能靠DPU+DOCA的軟硬體生態複現GPU+CUDA的奇跡嗎?

**各國、各企業之間的算力競賽愈演愈烈,在產能受限並且DOCA生態尚未形成的情況下,對手們並非毫無機會。 **

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)