Face à l’attente élevée, GPT4 a finalement poussé les fonctions liées à la vision.
Cet après-midi, j’ai rapidement testé la capacité de GPT à percevoir des images avec mes amis, et même si je m’y attendais, je nous ai quand même beaucoup choqués.
Idées de base :
** Je pense que les problèmes liés à la sémantique dans la conduite autonome auraient dû être bien résolus par le grand modèle, mais la crédibilité et la conscience spatiale du grand modèle ne sont toujours pas satisfaisantes. **
Cela devrait être plus que suffisant pour résoudre certains cas dits liés à l’efficacité, mais il est encore très loin de s’appuyer sur de grands modèles pour effectuer une conduite autonome afin d’assurer la sécurité.
Exemple1 : Quelques obstacles inconnus sur la route
######
** Description de **###### △GPT4
Pièce précise : 3 camions détectés, le numéro de la plaque d’immatriculation de la voiture avant est fondamentalement correct (ignorez-le s’il y a des caractères chinois), la météo et l’environnement sont corrects, ** Identification précise des obstacles inconnus devant vous sans incitation **.
Partie inexacte : la position du troisième camion n’est pas divisée à gauche et à droite, et le texte sur le dessus de la tête du deuxième camion en devine un à l’aveugle (à cause d’une résolution insuffisante ?). )。
Ce n’est pas suffisant, continuons à donner un petit indice et demandons-nous ce qu’est cet objet et s’il peut être pressé.
Impressionnant! Des scénarios similaires ont été testés dans plusieurs cas, et les performances d’obstacles inconnus peuvent être considérées comme très étonnantes.
Exemple2 : Compréhension de l’eau en pavé
Il n’y a pas d’invite pour reconnaître automatiquement la signalisation, cela devrait être l’exercice de base, nous continuons à donner quelques indices.
Encore choqué... Peut automatiquement dire le brouillard derrière le camion, a également pris l’initiative de mentionner la flaque d’eau, mais une fois de plus a dit la direction à gauche... On a l’impression qu’un peu d’ingénierie peut être nécessaire pour mieux positionner et diriger la sortie GPT.
Exemple3 : Un véhicule a fait demi-tour et a heurté la glissière de sécurité
La première image est saisie, car il n’y a pas d’information de chronométrage, mais le camion à droite est considéré comme arrêté. Voici donc un autre cadre :
On peut déjà dire automatiquement que cette voiture a franchi la glissière de sécurité et a plané sur le bord de la route, fantastique... Mais au contraire, il semble que les panneaux de signalisation les plus faciles aient mal tourné... Tout ce que je peux dire, c’est qu’il s’agit d’un grand modèle, il vous choquera toujours et ne sait jamais quand il vous fera pleurer... Un cadre de plus :
Cette fois-ci, j’ai parlé directement des débris sur la surface de la route, et j’ai été à nouveau étonné... C’est juste qu’une fois, j’ai dit que la flèche sur la route était mauvaise... Dans l’ensemble, les informations qui nécessitent une attention particulière dans cette scène sont couvertes, et le problème des panneaux de signalisation routière n’est pas caché.
Exemple4 : Faisons un drôle
Tout ce que l’on peut dire, c’est que c’est très bien en place, par rapport au cas qui semblait extrêmement difficile auparavant, comme « quelqu’un vous a fait signe », qui était comme la pédiatrie, le cas sémantique peut être résolu.
Exemple5 Venez sur une scène célèbre... Les véhicules de livraison se sont égarés sur de nouvelles routes
Au début, il était conservateur et n’a pas directement deviné la raison, donnant une variété de suppositions, ce qui est également conforme à l’objectif d’alignement.
Après avoir utilisé CoT, le problème constaté est qu’il n’est pas compris que la voiture est un véhicule autonome, donc en donnant cette information, elle peut donner des informations plus précises.
Enfin, à travers un tas, il est possible de conclure que l’asphalte nouvellement posé n’est pas adapté à la conduite. Le résultat final est toujours correct, mais le processus est plus tortueux, et plus d’ingénierie est nécessaire, et il est nécessaire de bien concevoir.
Cette raison peut aussi être due au fait qu’il ne s’agit pas d’une image de première vue et qu’elle ne peut être spéculée qu’à travers le point de vue du troisième point. Cet exemple n’est donc pas très précis.
Résumé
Quelques tentatives rapides ont pleinement prouvé la puissance et les performances de généralisation de GPT4V, et les personnes appropriées devraient être en mesure d’exercer pleinement la force de GPT4V.
La résolution du cas limite sémantique devrait être très souhaitable, mais le problème des hallucinations affectera encore certaines applications dans des scénarios liés à la sécurité.
Très excitant, je pense personnellement que l’utilisation raisonnable d’un modèle aussi grand peut grandement accélérer le développement de la conduite autonome L4 et même L5, mais le LLM roule-t-il forcément directement ? La conduite de bout en bout, en particulier, reste une question discutable.
Liens de référence :
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
« Grand choc » d’un CTO : la conduite autonome GPT-4V cinq tests consécutifs
Source d’origine : Qubits
Face à l’attente élevée, GPT4 a finalement poussé les fonctions liées à la vision.
Cet après-midi, j’ai rapidement testé la capacité de GPT à percevoir des images avec mes amis, et même si je m’y attendais, je nous ai quand même beaucoup choqués.
Idées de base :
Cela devrait être plus que suffisant pour résoudre certains cas dits liés à l’efficacité, mais il est encore très loin de s’appuyer sur de grands modèles pour effectuer une conduite autonome afin d’assurer la sécurité.
Exemple1 : Quelques obstacles inconnus sur la route
**
Description de **###### △GPT4
Pièce précise : 3 camions détectés, le numéro de la plaque d’immatriculation de la voiture avant est fondamentalement correct (ignorez-le s’il y a des caractères chinois), la météo et l’environnement sont corrects, ** Identification précise des obstacles inconnus devant vous sans incitation **.
Partie inexacte : la position du troisième camion n’est pas divisée à gauche et à droite, et le texte sur le dessus de la tête du deuxième camion en devine un à l’aveugle (à cause d’une résolution insuffisante ?). )。
Ce n’est pas suffisant, continuons à donner un petit indice et demandons-nous ce qu’est cet objet et s’il peut être pressé.
Exemple2 : Compréhension de l’eau en pavé
Exemple3 : Un véhicule a fait demi-tour et a heurté la glissière de sécurité
Exemple4 : Faisons un drôle
Exemple5 Venez sur une scène célèbre... Les véhicules de livraison se sont égarés sur de nouvelles routes
Après avoir utilisé CoT, le problème constaté est qu’il n’est pas compris que la voiture est un véhicule autonome, donc en donnant cette information, elle peut donner des informations plus précises.
Enfin, à travers un tas, il est possible de conclure que l’asphalte nouvellement posé n’est pas adapté à la conduite. Le résultat final est toujours correct, mais le processus est plus tortueux, et plus d’ingénierie est nécessaire, et il est nécessaire de bien concevoir.
Cette raison peut aussi être due au fait qu’il ne s’agit pas d’une image de première vue et qu’elle ne peut être spéculée qu’à travers le point de vue du troisième point. Cet exemple n’est donc pas très précis.
Résumé
Quelques tentatives rapides ont pleinement prouvé la puissance et les performances de généralisation de GPT4V, et les personnes appropriées devraient être en mesure d’exercer pleinement la force de GPT4V.
La résolution du cas limite sémantique devrait être très souhaitable, mais le problème des hallucinations affectera encore certaines applications dans des scénarios liés à la sécurité.
Très excitant, je pense personnellement que l’utilisation raisonnable d’un modèle aussi grand peut grandement accélérer le développement de la conduite autonome L4 et même L5, mais le LLM roule-t-il forcément directement ? La conduite de bout en bout, en particulier, reste une question discutable.
Liens de référence :