AIはGoogleキャプチャを取得し、最新のマルチモーダル大規模モデルはGPT-4V空間理解よりも正確です

元のソース: 量子ビット

画像ソース:無制限のAIによって生成

グーグルキャプチャはAIを止めることはできません!

最新のマルチモーダル大型モデルにより、写真内のすべての信号機を簡単に見つけることができ、特定の場所を正確に周回します。

性能はGPT-4Vを直接上回っています。

これは、アップルとコロンビア大学の研究チームが持ってきたマルチモーダル大型モデル「フェレット」です。

より強力なグラフィックとテキストの相関機能を備えているため、「見る、話す、答える」というタスクにおける大規模なモデルの精度が向上します。

たとえば、下図の非常に小さな部分(領域1)もショックとして区別できます。

GPT-4Vは正しく応答せず、小さな部品ではうまく機能しませんでした。

それで、フェレットはどのようにそれをしますか?

「少し指さす」画像ビッグモデル理解

Ferretが解決する中心的な問題は、参照と接地の両方の空間的理解をより緊密にすることです。

参照とは、モデルが特定の領域のセマンティクス、つまり、モデルが知ることができる場所を正確に理解させることを指します。

ポジショニングとは、モデルがグラフ内の対応するターゲットを見つけられるようにセマンティクスを与えることです。

人間にとって、これら2つの能力は自然な組み合わせですが、多くの既存のマルチモーダルモデルは、参照と配置のみを使用します。

そこでFerretは、離散座標と連続特徴を組み合わせて画像内の領域を表現できる新しいタイプの混合領域表現方法を提案しました。

これにより、モデルは境界ボックスとほぼ同一のオブジェクトを区別できます。

たとえば、下図の2つのオブジェクトの場合、離散的な境界ボックスのみを使用すると、モデルは非常に「混乱」します。 連続自由形式ブレンド表現と組み合わせると、この問題は十分に解決されます。

多様な領域の連続的な特徴を抽出するために、異なる形状間のスパース性の違いを処理できる空間知覚視覚サンプラを提案する。

その結果、Ferretは、ポイント、バウンディングボックス、フリーシェイプなどのさまざまな地域入力を受け入れ、それらのセマンティクスを理解できます。

出力では、テキストに基づいて各アンカー付きオブジェクトの座標を自動的に生成できます。

これを実現するために、Ferretモデルのアーキテクチャには、画像エンコーダー、空間対応ビジュアルサンプラー、言語モデル(LLM)などのコンポーネントが含まれています。

Ferretは、離散座標と連続フィーチャを組み合わせて、ハイブリッド領域表現を形成します。

この表現は、ポイント、境界ボックス、自由形式図形など、さまざまな形状や形式の領域を表現するという課題を解決するように設計されています。

離散座標の各座標は、ターゲットフレームの離散座標に量子化され、この量子化により、さまざまな画像サイズに対するモデルの堅牢性が保証されます。

連続特徴は、バイナリマスクと特徴マップを使用してROI内のポイントをランダムにサンプリングし、双線形補間によって特徴を取得する空間知覚ビジュアルサンプラーによって抽出されます。

これらの特徴は、3D点群モデルに触発された空間認識モジュールによって処理され、単一のベクトルに凝縮され、さらなる処理のために大規模言語モデル(LLM)にマッピングされます。

Ferretの能力を強化するために、この論文はGRITと呼ばれるデータセットも作成しました。

このデータセットには1.1Mのサンプルが含まれており、個々のオブジェクト、オブジェクト間の関係、地域固有の説明、地域ベースの複雑な推論の4つの主要なカテゴリをカバーしています。

GRITデータセットには、公開データセットから変換されたデータ、ChatGPTおよびGPT-4を介して生成された命令チューニングデータが含まれ、モデルのロバスト性を向上させるために追加の95Kの難解な陰性サンプルが提供されます。

実験結果は、このモデルが古典的な参照およびローカリゼーションタスクで優れたパフォーマンスを示すだけでなく、地域とローカリゼーションの必要性に基づくマルチモーダル対話において他の既存のMLLMモデルをはるかに上回ることを示しています。

さらに、この研究では、画像の局所領域の参照/ローカリゼーション、セマンティクス、知識、および推論能力を評価できるフェレットベンチを提案しています。

LLaVAベンチとフェレットベンチで評価されたフェレットモデルは、すべてのタスク、特に参照的および視覚的な接地を必要とする3つの新しいタスクで優れていました。

さらに、画像の説明の詳細が大幅に改善され、幻覚が大幅に減少します。

中国全チーム

Ferretのビッグモデルは、AppleのAI / MLとコロンビア大学の研究チームによって共同でもたらされ、すべて中国のラインナップを備えています。

共同作品としてハオシュアンとチャン・ハオティアンがあります。

You Haoxuanは現在、カラム大学でコンピューターサイエンスの博士号を取得しており、卒業後はAppleのAI / MLチームに加わります。 彼は2018年に西電大学を卒業しました。

彼の研究対象には、視覚言語理解、テキスト画像生成、視覚言語が含まれます。

Zhang Haotianは現在、AppleのAI / MLチームのビジュアルインテリジェンス研究者です。

Appleに入社する前は、ワシントン大学で博士号を、上海交通大学で学士号を取得しています。

彼は、最優秀論文賞にノミネートされたGLIP/GLIPv2 CVPR2022筆頭著者の一人です。

さらに、チームには、Gan Zhe、Wang Zirui、Cao Liangliang、Yang Yinfei、その他の元GoogleおよびMicrosoftの優れたマルチモーダル大規模モデル研究者が含まれています。

論文住所:

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)