據證券時報報導,7 月8 日,在由上海數據交易所、大數據流通與交易技術國家工程實驗室承辦的“大模型時代下的數據要素流通”主題論壇上,上海數交所總經理湯奇峰作題為“大模型時代下的語料庫”的主旨演講,帶來關於國內語料庫建設挑戰的觀察,並從語料庫質量和開放程度兩個維度給出建設建議。湯奇峰認為大模型時代下的語料庫建設存在語料庫供給不足、語料庫質量不高、語料庫多樣性匱乏、語料庫標準欠缺等問題。當天活動上,上海數交所正式啟動語料數據生態創新合作夥伴計劃,攜手首批合作夥伴豐富語料庫,推動數據要素市場建設。關於語料庫建設的挑戰,湯奇峰認為主要集中於開放程度和數據質量兩方面:“能否有大模型企業所需的高質量語料?目標對象願不願意開放數據?”由此,湯奇峰指出可以根據開放程度強弱和數據質量高低將語料數據生態機構分出四類供方。上海數交所官網已經於7 月7 日正式上線語料庫,累計掛牌近30 個語料數據產品,包含文本、音頻、圖像等多模態,覆蓋金融、交通運輸和醫療等領域。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)