10月12日のウェブマスターハウスのレポートによると、AppleのAI / MLチームとコロンビア大学の研究チームは、画像内の信号機を正確に見つけることができるマルチモーダル大型モデル「フェレット」を開発し、GPT-4Vよりも優れたパフォーマンスを発揮し、「見て、話す、答える」タスクで大型モデルの精度を向上させます。 Ferretの主な革新は、参照と接地の両方の空間的理解の緊密な組み合わせにあり、モデルが特定の領域のセマンティクスを理解し、対応するターゲットを同時に見つけることができるようにします。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)