Selon un rapport de Webmaster House du 12 octobre, l’équipe IA / ML d’Apple et l’équipe de recherche de l’Université Columbia ont développé un grand modèle multimodal « Ferret » capable de trouver avec précision les feux de circulation dans les images, qui fonctionne mieux que le GPT-4V et améliore la précision des grands modèles dans les tâches « regarder, parler, répondre ». L’innovation clé de Ferret réside dans la combinaison étroite de la compréhension spatiale de la référence et de la mise à la terre, permettant au modèle de comprendre la sémantique d’une région donnée et de trouver la cible correspondante en même temps.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Selon un rapport de Webmaster House du 12 octobre, l’équipe IA / ML d’Apple et l’équipe de recherche de l’Université Columbia ont développé un grand modèle multimodal « Ferret » capable de trouver avec précision les feux de circulation dans les images, qui fonctionne mieux que le GPT-4V et améliore la précision des grands modèles dans les tâches « regarder, parler, répondre ». L’innovation clé de Ferret réside dans la combinaison étroite de la compréhension spatiale de la référence et de la mise à la terre, permettant au modèle de comprendre la sémantique d’une région donnée et de trouver la cible correspondante en même temps.