CTOの「大ショック」:GPT-4V自動運転5回連続テスト

巴比特_

2023-10-16 02:50:42

元のソース: 量子ビット

画像ソース:無制限のAIによって生成

高い期待の下、GPT4はついに視覚関連の機能を推進しました。

今日の午後、私は友達とGPTの画像を知覚する能力をすぐにテストしました、そして私はそれを期待していましたが、それでも私たちは大きなショックを受けました。

コアアイデア:

** 自動運転における意味論上の問題は、ラージモデルでうまく解決されるべきだったと思うが、ラージモデルの信頼性や空間認識はまだ十分ではない。 **

いくつかのいわゆる効率関連のコーナーケースを解決するには十分すぎるはずですが、安全性を確保するために独立して運転を完了するために大型モデルに依存することはまだ非常に遠いです。

例1:道路上のいくつかの未知の障害物

######

** 説明 **### △GPT4

正確な部品:3台のトラックが検出され、前車のナンバープレートの番号は基本的に正しい(漢字がある場合は無視してください)、天候と環境は正しいです、プロンプトなしで前方の未知の障害物を正確に識別。

不正確な部分:3台目のトラックの位置が左右に分割されておらず、2台目のトラックの先頭の上のテキストが盲目的に推測しています(解像度が不十分なため? ）。

それだけでは十分ではないので、少しヒントを与え続けて、このオブジェクトが何であるか、そしてそれを押すことができるかどうかを尋ねましょう。

印象的！同様のシナリオが複数でテストされており、未知の障害物のパフォーマンスは非常に素晴らしいと言えます。

例2:舗装中の水の理解

看板を自動的に認識するプロンプトはありません、これは基本的な演習であるべきです、我々はいくつかのヒントを与え続けます。

再びショックを受けました... トラックの後ろの霧を自動的に伝えることができ、水たまりについても率先して言及しましたが、もう一度左の方向を言いました... GPT出力をより適切に配置および方向付けるには、エンジニアリングが必要かもしれないように感じます。

例3:車両が向きを変えてガードレールにぶつかった

タイミング情報がないため、最初のフレームが入力されますが、右側のトラックは停止していると見なされます。だからここに別のフレームがあります:

この車はガードレールを突破して道路の端に浮かんでいたとすでに自動的に言うことができます、素晴らしい..。しかし、それどころか、より簡単な道路標識が間違っているようです... これは大きなモデルだとしか言えません、それは常にあなたに衝撃を与え、いつあなたを愚かに泣くかは決してわかりません... もう1つのフレーム: