破解國產大模型難題:避免“無源之水”,最後一公里需連接算法與芯片

來源:澎湃新聞

作者:實習生胡馨兒澎湃新聞記者邵文

圖片來源:由無界AI生成

·中國工程院院士戴瓊海表示:“我國應從政策、機制和投入上深化人工智能的人才培養和基礎研究,強化原始創新,避免陷入'無源之水'的困境。”

·清華大學電子工程係長聘教授汪玉指出:“上海本地已經有許多芯片企業,上海也有很多算法,怎樣做到高效統一的部署,在芯片上把這樣的算法跑起來,是一個非常重要的問題。”

7月7日,在2023世界人工智能大會“大模型時代的通用人工智能產業發展機遇以及風險”論壇上,多位通用人工智能領域的專家聚焦大模型,分別從基礎創新、應用技術、未來前景等層面深度探討人工智能。

“我國應從政策、機制和投入上深化人工智能的人才培養和基礎研究,強化原始創新,避免陷入'無源之水'的困境。”國務院參事、中國工程院院士戴瓊海在主旨演講中強調。

清華大學電子工程係長聘教授、系主任汪玉則從落地應用角度談到,目前大模型垂直領域部署難度大,國內大模型落地面臨三大挑戰:領域部署成本高、模型算力缺口大和國產芯片替代難。 “在大模型落地的最後一公里,我們需要將算法與芯片連接起來。” 汪玉說。

“腦智能是未來新的方向”

戴瓊海認為,在大模型“0到1”的創新中,國內在基礎研究領域的顛覆性成果弱。 “從智能發展產業來看,我們是既樂觀又不樂觀。”在他看來,中國大部分人工智能人才集中於應用層,因此應用場景和技術層的發揮空間特別大。但中國在基礎層人才方面明顯處於弱勢,原始創新不足。

戴瓊海表示,人工智能創新發展需要三大支柱,即算法、數據、算力。算法決定智能水平,數據決定智能範圍,算力決定智能效率。在算法層面,大模型預計5年左右成為人工智能應用中的關鍵基礎性平台。

戴瓊海同時指出,腦智能是未來新的方向。融合腦與認知的人工智能新算法是行業佈局的前沿,將引領新一代智能。他在論壇上建議,政府應鼓勵企業主導大模型建設,探索生物機制和機器特色相結合,進一步創造人工智能新範式,推動基礎研究和應用拓展並舉。他預計,以認知智能為核心的人工智能將在十年以後開始步入應用。

此外,戴瓊海認為,需要警惕大模型應用的安全問題。大模型尚不能對輸出進行可信性的驗證,例如生成欺騙性內容。 “這意味著大模型的應用一旦出現問題,可不是現在計算機網絡病毒那麼簡單,殺殺毒就好了,這將會帶來顛覆性的影響。因此大模型進行應用時,應將安全性和可信性討論清楚。”

國內大模型應著力解決四個痛點需求

汪玉在論壇中表示,“上海非常關注人工智能和芯片,但從另外一個角度看,我們現在最先進的模型以及比較重要的算力,其實都受到了一定的限制。我們的算力應該往哪個方向去走,國產算力怎麼樣能更好地彌補起來,這樣的空間如何支撐國家在大模型訓練和推理等方面的發展,這些問題已經變得極其重要。”

汪玉還提到,目前在國外,大算力芯片只有英偉達和AMD這兩個公司可以選。英偉達佔據主導市場,並且其軟件生態比較好。 “所以國外各種各樣的模型,例如OpenAI、微軟、谷歌,都在大批量地採購英偉達的芯片,然後在英偉達的軟件框架之上去進行開發。國外的生態是很簡單的,企業做好算法這一領域,部署方面有英偉達的軟件體係來支撐。”

“但中國目前大算力芯片的發展還處於起步階段。”汪玉認為,“上海本地已經有許多芯片企業,例如天數智芯、燧原科技、寒武紀、壁仞科技等。上海也有很多算法,怎樣做到高效統一的部署,在芯片上把這樣的算法跑起來,是一個非常重要的問題。”

汪玉同時強調,目前大模型垂直領域部署難度大,國內大模型落地面臨三大挑戰:領域部署成本高、模型算力缺口大和國產芯片替代難。

“與過去AI 1.0時代的一個模型針對一個特定任務不同,當今AI 2.0時代是一個模型解決多個任務,應用層、算法層、系統層需要協同優化。”汪玉表示,在大模型落地的最後一公里,國內大模型應著力解決四個痛點需求。

“我們首先需要處理長文本的問題,即用得好。”汪玉談到,目前算法的趨勢是將大模型支持的文本長度不斷增大,但長文本也將帶來負載激增的問題,Transformer(谷歌開發的一種深度學習模型,OpenAI在此基礎上開發了GPT)架構的負載會隨著輸入變長而急劇增加。因此調整長文本是一個極其重要的需求。

大模型的另一個需求是性價比的提升。 “如果谷歌在搜索引擎中應用大模型,這將增加360億美元的成本,而利潤可能損失65%。”汪玉表示,若公司能夠做到降低一次點擊的成本,整體的利潤損失可能會降低。按此方向發展,每個人都有望用得起大模型。

此外,大模型需要賦能多種垂直領域,對於各行各業而言,目前並沒有很多大模型擁有大量知識。尤其在醫療、金融等領域,語料數據獲取代價昂貴,並且非常稀少。 “如果能夠加上通用基座大模型,並且進行微調,各行各業的基礎性能有望進一步提升。”但汪玉也指出,如果在垂直領域發展,通用大模型一定要進行微調,而模型越大,微調的代價也隨之大幅增高。因此,如何設計高效的微調算法是一個需要探討的話題。

與此同時,大模型也帶來了一站式部署的新需求。在軟硬件的優化中,若將算子優化、編譯調優、硬件部署進行分層部署,每日一共需要100個人力,而對於一站式自動化部署,每日只需要10個人力。汪玉指出,一站式部署能夠優化人力成本,進一步增大編譯優化空間規模,有望推動整個產業鏈的發展。

查看原文
本頁面內容僅供參考,非招攬或要約,也不提供投資、稅務或法律諮詢。詳見聲明了解更多風險披露。
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)