據站長之家8 月28 日報導,加州大學聖地亞哥分校的研究人員開發了一種視覺語言模型BLIVA,旨在更好地處理包含文本的圖像。視覺語言模型(VLM)通過合併視覺理解功能來擴展大型語言模型(LLM),以回答有關圖像的問題。據悉,BLIVA 結合了兩種互補的視覺嵌入類型:一種是Salesforce InstructBLIP 提取的學習查詢嵌入,用於關注與文本輸入相關的圖像區域;另一種是受Microsoft LLaVA 啟發提取的編碼修補嵌入,直接從完整圖像的原始像素修補中獲得。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)