華為的大模型終於來了,我的評價是:相當震撼

原文來源:差評

圖片來源:由無界AI‌ 生成

老被人說在大模型競賽中掉隊的華為,這次終於帶著它的傢伙事兒來了。

這不,在昨天的華為開發者大會2023 上,華為就狠狠地秀了一把。

將近三個小時的發布會,還是繼承了華為以往大雜燴的風格,看得世超是眼花繚亂。

不過,總結下來其實也就突出了一個主題:盤古大模型3.0 。

其實就在前幾天,當別的大模型還在比各種評分的時候,盤古靠著世界頂級期刊Nature 認證的金字招牌,以一種別具一格的方式進入了大家的視野。

據說,加入了盤古大模型,氣象預測的速度提高了10000 倍以上,幾秒鐘就能出結果,颱風打哪來,幾點來,啥時候走,都能給你預測得明明白白的。

最主要的是,它的預測精度甚至超過了號稱全球最強的歐洲氣象中心的IFS 系統,算是頭一個AI 預測贏了傳統數值預測的產品。

要知道,以往的AI 氣象預測多是基於2D 神經網絡開發,但氣象這玩意實在是太複雜了,2D 著實有點兒吃不消。

而且,之前的AI 模型會在預測的過程當中不斷累計迭代的誤差,容易影響到結果的精確性。

所以AI 預測方法一直都不咋受待見。

而盤古氣象大模型牛就牛在,他們用了個叫3DEST 的三維神經網絡來處理氣象數據, 2D 幹不了的那就換3D 來。

3DEST 的網絡訓練和推理策略

針對迭代誤差的問題,模型還用了個“ 層次化時域聚合策略” 來減少迭代誤差,從而提高預報的精度。

這詞兒雖然聽起來挺容易被唬住的,但其實很好理解。

就比如,之前的AI 氣象預測模型FourCastNet ,在颱風來之前,它會提前6 小時進行預測,在這6 個小時裡,模型會多次計算颱風到底啥時候來。

可能一會兒算出來5 個小時,一會兒又算出來4 個半小時,這些結果加到一起誤差就大了。

但盤古氣象大模型想了個法子,訓練了4 個不同預報間隔的模型,分別是1 小時迭代1 次,還有3 小時、 6 小時和24 小時迭代1 次。

再根據具體的氣象預測需求,選擇相應的模型進行迭代。

就比如說,咱們如果要預測未來7 天的天氣,那就讓24 小時的模型迭代7 次;預測20 個小時就是6 小時的模型迭代3 次+1 小時的迭代2 次。

**迭代次數越少,誤差也就越小。 **

這波操作,讓天氣預報又邁向了一個新的level 。

不過,可能有差友開始犯嘀咕了,人家的大模型都是生成圖像和文字,怎麼到華為這就變成了天氣預報了?

有一說一啊,這盤古大模型跟咱之前接觸到的ChatGPT 、 Midjourney 的確不太一樣,人家做的是行業的生意。

簡單來理解,就是盤古大模型咱個人一般用不上。

它並不是**大家期待的ChatGPT“ 剋星” ,而是針對平時不太能接觸到的To B 市場。 **

咱先不提難與不難,至少華為這麼多年積累下來的企業客戶資源,確實很容易變現。

而且華為這次的發布會可不止帶來了氣象預測模型這一個狠角色。

40 多年都沒發現新的抗生素,盤古藥物分子大模型一來就找著了超級抗菌藥Drug X ,而且藥物的研發週期從數年縮短至幾個月,研發成本降低70% 。

盤古礦山大模型也能深入到採煤的1000 多個工序之中,而且光是裡頭挑選精煤的這一個環節,就能讓精煤回收率提升0.1% 到0.2% 。

要知道,一家年產1000 萬噸焦煤的選煤廠,每提升0.1% 精煤產率,每年就能多1000 萬的利潤。

**這可都是白花花的銀子啊。 。 。 **

事實上,除了上邊兒咱提到的天氣預測、藥物研發和選煤,盤古大模型在很多行業裡都已經用起來了。

發布會上,華為雲人工智能首席科學家田奇就表示,華為雲人工智能項目已經應用在了超過1000 個項目中,其中30% 用在客戶的核心生產系統裡,平均推動客戶盈利能力提升了18% 。

而華為能夠量產這些各不相同的行業大模型,要歸功於華為盤古大模型3.0 的5+N+X 三層架構。

正是這種結構,讓盤古能夠快速落地到各個行業裡。

為什這麼說呢?

因為AI 落地行業,數據是一大難點。

張平安在發布會上就說, “ 由於行業數據獲取難,技術與行業結合難,大模型在行業的落地進展較慢。 ”

**而盤古則很巧妙,通過5+N+X 的三層架構,直接把這個大難題拆成了3 個小問題來解決。 **

首先,是先讓盤古L0 層的5 個大模型,學習了上百TB 的百科知識、文學作品、程序代碼等文本數據,以及數10 億張帶文本標籤的互聯網圖像。

咱們可以理解為,先讓第一層L0 的大模型( 自然語言大模型、視覺大模型、多模態大模型、預測大模型、科學計算大模型這5 個基礎大模型)建立起基本的認知,也就是有點像咱們大學前的素質教育階段。

然後,在第二層L1 中的模型,則是讓L0 中的某一個基礎大模型學習N 個相關行業的數據形成的。這就像大學的本科階段,需要選擇各種專業去學習。

打個比方,醫院裡的CT 影像檢測跟工廠的圖像質檢雖說用的都是視覺大模型。

但畢竟一個是醫院,一個是工廠,使用場景完全不一樣,光靠基礎大模型那肯定行不通,但如果把行業數據加進去,可能就有驚喜了。

最後的L2 ,則類似研究生,會在具體行業的基礎上再細化到某個場景。比如在倉儲物流行業裡,貨物的運輸、入庫、出庫可能都需要用到不一樣的部署模型。

與此同時呢,華為還在裡頭加入一個反饋環節,有點進公司實習內味了。

根據他們的說法,過去開發一個GPT-3 規模的行業大模型,通常需要5 個月;而有了這套東西,開發週期能縮短至原來的1/5 。

同時很多行業數據集小的限制也能被解決。比如造大飛機這種很細很細的行業,也能有大模型。

除了這一套大模型,華為這次還提出了個非常有意思的東西——算力國產化。

眾所周知,咱們在AI 算力方面,確實是比較尷尬。

一來, AI 行業的核心設備英偉達的H100/A100 咱們買不到,二來,即使英偉達“ 貼心” 出了平替H800 ,但是也有所保留。比如,在傳輸速率上就砍了不少。

在大模型動輒幾個月訓練時間的背景之下,這就很容易被算力更強的國外同行彎道超車。

而這一回,針對這個問題,華為還是掏了些真傢伙出來的。

比如,在纸面性能上,华为的昇腾 910 处理器已经够上了英伟达 A100 。

不過實際應用起來,還是有一些差距的。而且A100 這也不是英偉達的終極武器。

但是,昇腾已经受到了不少友商的认可。华为甚至在发布会上,直接表示 “ 中国一半大模型的算力都是由他们提供的 ” 。

當然,華為這會兒在算力上的亮點,更像是整個軟件生態帶來的。

比如,根据发布会的说法,算上 AI 昇腾云算力底座、计算框架 CANN 。。。等环节,华为在训练大模型方面,效率是业界主流 GPU 的 1.1 倍。

還有,他們給用戶制定好了全套的應用套餐。

例如,美圖僅用30 天就將70 個模型遷移到了華為生態。同時華為還表示,**在雙方的努力下,AI 性能較原有方案提升了30% 。 **

還是挺可觀的。

而且華為還說,他們現在有近400 萬的開發者,這個數量,是和英偉達CUDA 生態對齊了。

這一系列的動作,**算是把短板補上了一部分。 **

**總的來說,一場華為發布會看下來,**差評君覺得華為在AI 方面的佈局是很深刻的,他們早就開始思考“AI 真正能帶給我們什麼” 這個問題了。

過去半年裡, AI 行業雖然掌聲雷動,但是真正落到行業層面,多少有些尷尬。

而華為的這一次動作,恰好印證瞭如任正非說的:

“ 未來在AI 大模型方面會風起雲湧的,不只是微軟一家。人工智能軟件平台公司對人類社會的直接貢獻可能不到2% , 98% 都是對工業社會、農業社會的促進。 ”

AI 領域,真正的大時代還在後頭。

查看原文
本頁面內容僅供參考,非招攬或要約,也不提供投資、稅務或法律諮詢。詳見聲明了解更多風險披露。
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)