據站長之家8 月18 日報導,字節推出了一種新大模型BuboGPT。 BuboGPT 是一種先進的大型語言模型(LLM),能夠將文本、圖像和音頻等多模態輸入進行整合,並具有將回復與視覺對象進行對接的獨特能力。它展示了在對齊或未對齊的任意圖像音頻數據理解方面的出色對話能力。通過文字描述、圖像定位和聲音定位,BuboGPT 可以準確判斷聲音來源,即使音頻和圖像之間沒有直接關係,也可以合理描述兩者之間的可能關係。研究人員表示,相比其他多模態大模型,BuboGPT 利用文本與其他模態之間的豐富信息和明確對應關係,提供了對視覺對象及給定模態的細粒度理解。研究人員還展示了BuboGPT 在圖像描述、聲音來源識別等方面的能力,並開源了代碼和數據集,發布了可玩的demo。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)