6000 字詳解盤古大模型:能否撐起世界AI 另一極?

華為在大模型領域狠狠秀了一把「肌肉」。

7 月7 日,2023 華為開發者大會(HDC 2023)開幕。下午兩個多小時的主題演講裡,華為雲首次詳細披露了盤古大模型的進展,不僅發布面向行業的盤古大模型3.0,還詳細介紹了華為發展大模型的基礎技術能力。

盤古大模型3.0 包括「5+N+X」三層架構,三層分別指L0 層的5 個基礎大模型、L1 層的N 個行業通用大模型、以及L2 層可以讓用戶自主訓練的更多細化場景模型。其採用完全的分層解耦設計,企業用戶可以基於自己的業務需要選擇適合的大模型開發、升級或精調,從而適配千行百業多變的需求。

华为轮值董事长胡厚崑在日前的 WAIC 大会上表示,华为发展大模型的核心是关注算力和应用。一方面是深耕算力,打造强有力的算力底座,来支撑中国的人工智能事业的发展。另一方面就是结合大模型,从通用大模型到行业大模型的研究创新,来真正让人工智能服务好千行百业,服务好科学研究。

华为是国内最早布局大模型的云服务商之一,早在 2021 年就已经发布了盘古大模型。在发展大模型的道路上,华为从最底层构建了以鲲鹏和昇腾为基础的 AI 算力云平台,以及异构计算架构 CANN、全场景 AI 框架昇思 MindSpore,AI 开发生产线 ModelArts 等技术能力。

除了大模型和算力底座,會上,華為雲還重點介紹了盤古大模型與具體行業結合的典型案例,涉及的行業包括政務、氣象、鐵路、製造、金融,以及多個升級、重塑華為雲旗下軟件產品和服務的應用案例。

不論是基礎的技術能力,AI **+ 雲的產品服務體系,還是落到具體行業的應用案例,華為雲均展示出了高度成熟、成體系化的業務能力,這著實給行業帶來驚喜。 **在大家還在爭論誰是中國的OpenAI 時,華為雲已經開闢出了一條相當成熟的大模型發展道路。

華為在用自己的實踐證明,大模型很重要,但更重要的是用大模型解決行業和產品的痛點問題,做出能讓企業和用戶買單的產品和服務,為千行百業真正創造價值。

01 盤古大模型3.0:分層解耦架構

解耦,是今天發布的盤古大模型3.0 的關鍵詞。這也是過去幾個月來,實際調用大模型的行業客戶一個普遍的訴求。

一位頭部SaaS 廠商在發布自己的大模型升級應用時表示,「我們不自研大模型,而是在不同的業務場景中,哪個大模型擅長什麼事情,就接那個模型。」為了可以在不同的大模型之間切換,「我們自身產品架構上要做到與底層大模型無關,或者說松耦合。」

「盤古大模型的解耦設計,就是為行業著想」,在華為開發者大會上,華為常務董事、華為雲CEO 張平安給出了盤古大模型的差異化路線。其核心是把盤古大模型的的各種層和能力解耦,讓行業用戶根據自己的需求去開發。

具體來說,盤古大模型3.0 是一個面向行業的大模型系列,包括「5+N+X」三層架構:

「5」代表L0 層的五個基礎大模型:包括自然語言、視覺、多模態、預測、科學計算大模型,提供滿足行業場景中的多種技能需求。

盤古3.0 為客戶提供100 億參數、380 億參數、710 參數和1000 億參數的系列化基礎大模型,匹配客戶不同場景、不同時延、不同響應速度的行業多樣化需求。同時提供全新能力集,包括NLP 大模型的知識問答、文案生成、代碼生成,以及多模態大模型的圖像生成、圖像理解等能力,這些技能都可以供客戶和夥伴企業直接調用。無論多大參數規模的大模型,盤古提供一致的能力集。

「5+N+X」三層架構中的「N」,代表L1 層的N 個行業大模型。行業大模型的提供方式有兩種:一方面,華為雲可以提供使用行業公開數據訓練的行業通用大模型,包括政務,金融,製造,礦山,氣象等大模型;另一方面,可以基於行業客戶的自有數據,在盤古大模型的L0 和L1 層上,為客戶訓練自己的專有大模型。

張平安表示:「盤古一出生就是為行業服務,提供了多種大模型的部署、開發和推理形態,可以像華為生成盤古大模型一樣,生成自己的行業大模型,只需要輸入自己的私有數據。」並且,訓練數據也和大模型解耦。

「5+N+X」中的X,則代表L2 層為客戶提供了更多細化場景的模型,更加專注於政務熱線、網點助手、先導藥物篩選、傳送帶異物檢測、颱風路徑預測等具體行業應用或特定業務場景,為客戶提供「開箱即用」的模型服務。

通過**「**5+N+X」的這三層大模型,華為雲構建了自己的大模型底座。

在昨天的世界人工智能大会上,华为轮值董事长胡厚崑形象地阐述道:「最基层对标的是通用大模型,我们叫做基础大模型。这层我们形象的叫做读万卷书,就是要做好海量的基础知识的学习。这一层之上还打造了行业模型和场景模型,叫做行万里路。从读万卷书到行万里路还有很多的挑战要克服,很关键的一点就是要把各行各业的知识与大模型进行充分的匹配和融合,华为正在和各个行业的伙伴一起进行努力。」

**此外,大模型的創新不僅僅是模型自身的創新,更依賴於AI 的各項根技術創新。 **會上,華為諾亞方舟實驗室主任姚駿介紹了盤古大模型的技術底座。

华为在最底层构建了以鲲鹏和昇腾为基础的 AI 算力云平台,以及异构计算架构 CANN、全场景 AI 框架昇思 MindSpore,AI 开发生产线 ModelArts 等,为大模型开发和运行提供分布式并行加速,算子和编译优化、集群级通信优化等关键能力。基于华为的 AI 根技术,大模型训练效能可以调优到业界主流 GPU 的 1.1 倍。

算力是训练大模型的基础。在本次大会上,张平安宣布单集群 2000P Flops 算力的昇腾 AI 云服务在华为云的乌兰察布和贵安 AI 算力中心同时上线。昇腾 AI 云服务除了支持华为全场景 AI 框架昇思 MindSpore 外,还支持 Pytorch、Tensorflow 等主流 AI 框架。

同时,这些框架中 90% 的算子,都可以通过华为端到端的迁移工具平滑迁移到昇腾平台。例如,美图仅用 30 天就将 70 个模型迁移到了昇腾,同时华为云和美图团队一起进行了 30 多个算子的优化以及流程的并行加速,AI 性能较原有方案提升了 30%。

此外,在大模型训练过程中经常会遇到 GPU 故障,研发人员不得不经常重启训练,时间长,代价大。昇腾 AI 云服务可以提供更长稳的 AI 算力服务,千卡训练 30 天长稳率达到 90%,断点恢复时长不超过 10 分钟。

02 賦能千行百業

任正非此前曾表示,「人工智能軟件平台公司對人類社會的直接貢獻可能不到2%,98% 都是對工業社會、農業社會的促進。但是應用平台不是我們的選項,我們會做AI 的底層算力平台。」

讓大模型走進千行百業,已經成為華為發展大模型的工作重心。會上,華為雲介紹了盤古大模型在政務、鐵路、氣象、金融等七個領域的應用案例。

政務

在政務領域,華為雲攜手深圳市福田區政務服務數據管理局,上線了基於盤古政務大模型的福田政務智慧助手小福,能夠精準理解民眾諮詢意圖,改變傳統的一網通辦模式。通過對超過20 萬條政務數據進行精調,包括12345 熱線、政策文件、政務百科等,政務助手掌握了豐富的法律法規、辦事流程等行業知識。

華為雲介紹,盤古政務大模型的核心,是認知能力。讓城市公共系統從看得見到看得懂,完成從感知,到認知、處置的閉環。並根據不同場景,提供問答、文案生成、視頻感知、多模態理解等不同的能力。

華為雲介紹了兩個典型場景:首先是一個諮詢場景,企業用戶向政務助手諮詢相關的投資扶持政策,政務助手可以介紹相關的法規政策,並為諮詢者提供適當的建議;第二個場景,如上圖所示,是一個基於對話和多模態能力的政務處理場景,工作人員可以根據攝像頭拍攝的圖片,智能分析圖片中的違規情況。

鐵路

在鐵路領域,華為展示了貨車檢測助手的應用案例。

傳統列檢員每天要檢測數百萬張列車圖片,檢測鐵路網絡運行的貨車是否存在故障問題。引入盤古大模型後,可以精準識別現網運行的67 種貨車、430 多種故障,無故障圖片篩除率高達95%。換言之,列檢員只需要檢測過去1/20 的列車圖片,相當於提高了20 倍的工作效率。

煤礦

在煤礦領域,盤古礦山大模型已經在全國8 個礦井規模使用,一個大模型可以覆蓋煤礦的採、掘、機、運、通、洗選等業務流程下的1000 多個細分場景,讓更多的煤礦工人能夠在地面上作業,不僅能讓煤礦工人的工作環境更加舒適,而且可以極大地減少安全事故。

氣象

氣象領域是華為雲發布會上介紹的重點,就在幾天前,盤古氣象大模型的研究成果發表在國外頂級期刊《Nature》,被審稿人評價為:讓我們重新審視氣象預測的未來。

原來預測一個颱風未來10 天的路徑,需要在3000 台服務器的高性能計算機集群上花費5 小時進行仿真。現在基於預訓練的盤古氣象大模型,通過AI 推理的方式,研究者只需單台服務器上單卡配置,10 秒內就可以獲得更精確的預測結果。

目前,盤古氣象大模型可以用於預測海浪、高溫、颱風、寒潮等氣象,相比傳統的氣象預測速度更快、準確率也更高。此前盤古和氣象局合作,提前10 天預測了「瑪娃」的路徑。此外,盤古也提前兩天預測到了芬蘭寒潮到來,相比歐洲氣象局的預測。盤古的預測也更接近真實氣溫,

金融

在金融領域,盤古大模型與工商銀行合作,打造了一系列探索性的應用。

其中一個典型的場景是提高銀行櫃員的工作效率。工行在全國有數万個網點,20 萬網點櫃員。他們需要在各種業務間切換,這會浪費大量的時間。

盤古金融大模型對銀行的各種操作、政策、案例文檔進行預訓練,能根據客戶的問題,為櫃檯工作人員自動生成流程和操作指導,將原來需要平均5 次的操作降低為1 次,辦結時間縮短5 分鐘以上。

而這只是最初級的應用,華為正在與金融行業探索,未來將大模型運用到信貸分析等更多的金融場景。

製造業

華為本身也是一家製造企業,其生產製造的硬件產品,涉及通信基站、手機、汽車、芯片等多個領域。基於過去積累的經驗,華為將盤古大模型引入到生產製造領域。

過去單產線製定器件分配計劃,往往要花費3 個小時以上才能做齊1 天的生產計劃。盤古製造大模型學習了華為產線上各種器件數據、業務流程及規則以後,能夠對業務需求進行準確的意圖理解,並調用天籌AI 求解器插件,1 分鐘即可做出未來3 天的生產計劃。

藥物研發

在藥物研發領域,原來一款新藥研發平均需要10 年時間、花費10 億美金。盤古藥物分子大模型助力西安交通大學第一附屬醫院劉冰教授團隊發現全球40 年來首個新靶點、新類別的抗生素,並將先導藥物研發週期縮短至1 個月、研發成本降低70%。

03 大模型融入華為雲產品體系

除了在千行百業的落地實踐,華為雲盤古大模型也深度融入了華為雲的產品服務,重構產品創新。

盤古大模型+華為雲服務

盤古大模型加持下,華為雲一系列B 端產品服務被升級重構。會上,華為雲介紹了資料服務、雲客服、BI、雲搜索四項服務升級的細節。

* 在資料服務中,通過盤古大模型的文案生成和代碼生成技術,能夠提升資料撰寫和前端代碼編寫效率,將新產品上市週期大為縮短。

  • 在雲客服,通過嵌入行業知識庫和意圖挖掘能力的對話問答,實現全流程AI 優先作答,提升客服工作效率30%。
  • 在BI,通過NL2SQL 和AutoGraph 智能路由,實現SQL 到可視化圖表的自動推薦,通過多輪自然語言交互,讓人人都能便捷地從數據中洞察業務細節。
  • 在雲搜索,通過多模態Embedding 和NL2API 技術,實現視頻、文本、圖譜等廣泛場景搜索,借助強大的語義理解和泛化能力,讓搜索準確率提高15%。

盤古大模型+CodeArts 代碼工具

華為雲將CodeArts 研發工具與盤古大模型相結合,正式發布了面向開發者的智能編程助手CodeArts Snap。

該工具訓練了760 億行精選代碼、1300 萬篇技術文檔,具備智能生成、智能問答、智能協同三大核心功能,可以實現一句對話讓代碼生成、一次點擊即可自動註釋和生成測試用例,一條指令即可智能部署,讓每個軟件開發者都有自己的編程助手。

盤古大模型+數字人

華為云通過盤古基礎大模型賦能MetaStudio 數字內容生產線,打造了盤古數字人大模型,提供模型生成和模型驅動兩大服務,並已經使用了20 萬小時音視頻數據進行了預訓練。

基於這兩大服務,開發者可以快速生成和驅動數字人模型,賦能在線教育、文娛直播、企業會議等行業應用,讓每個企業員工實現「數字人自由」。例如,用戶只需在華為雲MetaStudio 的服務頁面上傳20 秒的個人視頻,就可以快速生成個性化的數字人講解視頻,過去3 個研發人員3 天完成的工作,現在只需要3 分鐘就可以完成。

盤古大模型+具身智能

會上,華為雲還提到了盤古大模型在機器人領域的應用,並演示了一段視頻。

過去向機器人下命令需要開發者進行編程,而基於盤古大模型的自然語言理解能力,機器人可以識別自然語言,執行命令,並具備全域感知引導的自主智能。會上,華為演示了一段視頻,用戶不需要輸入程序命令,只需要用自然語言向機器人下令,機器人就可以完成拿取物品等命令,過程中會根據所處的環境情況作出自主判斷(比如移開擋住目標物體的雜物),從而完成任務。

華為介紹,上述演示並非概念視頻,而是來自真實的產品,並在HDC 大會期間在會場展出。

**04 總結和思考:華為能成AI 另一極嗎? **

張平安表示,「為了幫助全球客戶、夥伴、開發者訓練和使用大模型,我們致力於為全球客戶打造世界 AI **另一極,為所有AI 開發者提供新的選擇」。 **

甚至更早之前,早在今年3 月,任正非就曾在公司內部表達過相似的意思。他表示AI 大模型上會風起雲湧,不只是微軟一家。任正非的理由,其實也是今天華為雲努力的方向,即人工智能軟件平台公司對人類社會的直接貢獻可能不到2%,98% 都是對工業社會、農業社會的促進。

比如在中國、德國的工廠,都在推進人工智能對工業的促進,從而實現無人化的生產;比如天津港口的碼頭,貨物裝卸也試了無人化,代碼一輸入,從船上自動把集裝箱搬運過來,然後用汽車運走;比如山西的煤礦,在地下採用5G+人工智能後,人員減少了60-70%,大多數人在地面的控制室穿西裝工作。

這些都是過去數年AI 已經大規模運用到產業側的實例,這些產業的共同點是有龐大的規模和產值,一點點效率的提升都能帶來巨大的收益。

**而大模型的出現,實質上是提供了更加高效的生產力工具。 **一方面,對於這些原本已經在擁抱AI 的產業,意味著更高的效率和更快的改造進程;而效率更高,也意味著對更多行業來說,更容易算好「經濟賬」,AI 有潛力從變革所謂幾大行業,變成改造千行百業。

這是華為為什麼要堅決走進產業的原因,實際上阿里雲、騰訊雲、火山雲和百度雲等國內主要的雲服務大廠,也是相近的思路。而方向一致、起點接近的情況下,在這場競賽中誰能跑的最快,比拼的就是從算力、大模型底座、平台、產品到具體解決方案的全鏈條能力。

因為眾所周知的原因,華為拿不到當下公認的全球最先進的計算芯片,看起來在這場競賽中先天不足。但從今天的發布會來看,華為完全看不到受上游掣肘而落後於人,在大模型的關鍵鏈條上,都拿出了成熟的產品、案例,解耦化的盤古大模型架構更是讓人眼前一亮。 **事實上,考慮到今天國產化的需求,在算力上不落後於人的華為,被卡脖子的劣勢,很可能變成自主可控的優勢。 **

大模型成為華為的新機遇,看起來正在成為現實。

查看原文
本頁面內容僅供參考,非招攬或要約,也不提供投資、稅務或法律諮詢。詳見聲明了解更多風險披露。
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)