AI a obtenu Google captcha, et le dernier grand modèle multimodal est plus précis que la compréhension de l’espace GPT-4V

Source d’origine : Qubits

Source de l’image : Généré par Unbounded AI

Google CAPTCHA ne peut pas arrêter l’IA!

** Le dernier grand modèle multimodal ** permet de trouver facilement tous les feux de circulation dans l’image et entoure avec précision l’emplacement spécifique.

Les performances dépassent directement le GPT-4V.

Il s’agit du grand modèle multimodal « Ferret » apporté par l’équipe de recherche Apple et Columbia University.

Il a des capacités de corrélation graphique et de texte plus fortes, ce qui améliore la précision des grands modèles dans la tâche de « voir, parler et répondre ».

Par exemple, la très petite partie (région 1) de la figure ci-dessous peut également être distinguée comme un choc.

Le GPT-4V n’a pas répondu correctement et n’a pas bien fonctionné dans de petites pièces.

Alors, comment Ferret fait-il?

** « Point un peu » image grand modèle comprendre **

Le problème central que Ferret résout est de rapprocher la compréhension spatiale de la référence et de l’ancrage.

Les références font référence au fait que le modèle comprenne exactement la sémantique d’une région donnée, c’est-à-dire quel emplacement il peut connaître.

Le positionnement consiste à donner de la sémantique afin que le modèle puisse trouver la cible correspondante dans le graphique.

Pour les humains, ces deux capacités sont une combinaison naturelle, mais de nombreux modèles multimodaux existants n’utilisent que le référencement et le positionnement seuls.

Par conséquent, Ferret a proposé un nouveau type de méthode de représentation de régions mixtes qui peut combiner des coordonnées discrètes et des entités continues pour représenter des régions dans une image.

Cela permet au modèle de distinguer les objets qui sont presque identiques aux cadres de sélection.

Par exemple, dans le cas des deux objets de la figure ci-dessous, si seule la boîte de délimitation discrète est utilisée, le modèle se sentira très « confus ». Combiné avec des représentations mixtes continues de forme libre, ce problème est bien résolu.

Afin d’extraire des caractéristiques continues de diverses régions, l’article propose un échantillonneur visuel de perception spatiale capable de gérer les différences de rareté entre différentes formes.

En conséquence, Ferret peut accepter une variété d’entrées régionales telles que des points, des cadres de délimitation et des formes libres et comprendre leur sémantique.

Dans la sortie, il peut générer automatiquement les coordonnées de chaque objet ancré en fonction du texte.

Pour ce faire, l’architecture du modèle Ferret comprend des composants tels qu’un encodeur d’image, un échantillonneur visuel conscient de l’espace et un modèle de langage (LLM).

Le furet combine des coordonnées discrètes et des caractéristiques continues pour former une représentation de région hybride.

Cette représentation est conçue pour résoudre le défi de représenter des zones de différentes formes et formats, y compris des points, des cadres de sélection et des formes de forme libre.

Chaque coordonnée en coordonnées discrètes est quantifiée à une coordonnée discrète d’une image cible, et cette quantification garantit la robustesse du modèle à différentes tailles d’image.

Les entités continues sont extraites par l’échantillonneur visuel de perception spatiale, qui utilise des masques binaires et des cartes d’entités pour échantillonner aléatoirement des points dans le ROI et obtenir des entités par interpolation bilinéaire.

Ces caractéristiques sont traitées par un module de conscience spatiale inspiré d’un modèle de nuage de points 3D, condensé en un vecteur unique et mappé à un grand modèle de langage (LLM) pour un traitement ultérieur.

Pour augmenter les capacités de Ferret, l’article a également créé un ensemble de données appelé GRIT.

Cet ensemble de données contient 1,1 million d’échantillons et couvre quatre catégories principales : les objets individuels, les relations entre les objets, les descriptions spécifiques à la région et le raisonnement complexe basé sur la région.

L’ensemble de données GRIT comprend des données converties à partir d’ensembles de données publics, des données de réglage d’instructions générées via ChatGPT et GPT-4, et 95K échantillons négatifs difficiles supplémentaires sont fournis pour améliorer la robustesse du modèle.

Les résultats expérimentaux montrent que le modèle montre non seulement des performances supérieures dans les tâches classiques de référencement et de localisation, mais dépasse également de loin les autres modèles MLLM existants dans le dialogue multimodal basé sur la région et le besoin de localisation.

En outre, l’étude propose un banc de furet qui peut évaluer la référence/localisation, la sémantique, les connaissances et la capacité de raisonnement des zones locales d’une image.

Le modèle Ferret, qui a été évalué sur LLaVA-Bench et Ferret-Bench, a excellé dans toutes les tâches, en particulier sur les trois nouvelles tâches qui nécessitaient une mise à la terre référentielle et visuelle.

De plus, il y a une amélioration significative dans les détails de la description de l’image, et il y a une diminution significative des hallucinations.

Toute l’équipe chinoise

Le grand modèle Ferret est présenté conjointement par l’équipe de recherche IA / ML d’Apple et de l’Université Columbia, avec une gamme entièrement chinoise.

Il y a Haoxuan et Zhang Haotian comme un travail commun.

You Haoxuan est maintenant titulaire d’un doctorat en informatique de l’Université Colum et rejoindra l’équipe IA / ML d’Apple après l’obtention de son diplôme. Il est diplômé de l’Université Xidian en 2018.

Ses intérêts de recherche comprennent la compréhension du langage visuel, la génération de texte-image et le langage visuel.

Zhang Haotian est maintenant chercheur en intelligence visuelle au sein de l’équipe IA/ML d’Apple.

Avant de rejoindre Apple, Haotian a obtenu son doctorat de l’Université de Washington et son baccalauréat de l’Université Jiao Tong de Shanghai.

Il est l’un des principaux auteurs de GLIP/GLIPv2, qui a été nominé pour CVPR2022 Best Paper Award.

En outre, l’équipe comprend Gan Zhe, Wang Zirui, Cao Liangliang, Yang Yinfei et d’autres anciens chercheurs de Google et Microsoft excellents modèles multimodaux.

Adresse papier :

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)