Với kỳ vọng cao, GPT4 cuối cùng đã thúc đẩy các chức năng liên quan đến thị lực.
Chiều nay, tôi đã nhanh chóng kiểm tra khả năng nhận biết hình ảnh của GPT với bạn bè của mình, và mặc dù tôi mong đợi điều đó, tôi vẫn khiến chúng tôi bị sốc rất nhiều.
Ý tưởng cốt lõi:
** Tôi nghĩ rằng các vấn đề liên quan đến ngữ nghĩa trong lái xe tự trị lẽ ra phải được giải quyết tốt bởi mô hình lớn, nhưng độ tin cậy và nhận thức không gian của mô hình lớn vẫn chưa thỏa đáng. **
Nó là quá đủ để giải quyết một số trường hợp được gọi là góc cua liên quan đến hiệu quả, nhưng vẫn còn rất xa so với việc dựa vào các mô hình lớn để hoàn thành việc lái xe độc lập để đảm bảo an toàn.
Ví dụ1: Một số chướng ngại vật không xác định trên đường
######
** Mô tả về **###### △GPT4
Phần chính xác: phát hiện 3 xe tải, biển số của xe phía trước về cơ bản là chính xác (bỏ qua nếu có ký tự Trung Quốc), thời tiết và môi trường chính xác, ** Xác định chính xác các chướng ngại vật không xác định phía trước mà không cần nhắc nhở **.
Phần không chính xác: vị trí của chiếc xe tải thứ ba không được chia trái và phải, và văn bản trên đỉnh đầu của chiếc xe tải thứ hai đoán một cách mù quáng (vì không đủ độ phân giải?). )。
Điều đó là không đủ, chúng ta hãy tiếp tục đưa ra một gợi ý nhỏ và hỏi đối tượng này là gì và liệu nó có thể được ấn qua.
Ấn tượng! Các kịch bản tương tự đã được thử nghiệm nhiều lần, và hiệu suất của các chướng ngại vật chưa biết có thể nói là rất tuyệt vời.
**Ví dụ 2: Hiểu biết về nước trong vỉa hè **
Không có lời nhắc để tự động nhận ra các biển báo, đây phải là bài tập cơ bản, chúng tôi tiếp tục đưa ra một số gợi ý.
Lại sốc... Có thể tự động phân biệt sương mù phía sau xe tải, cũng chủ động nhắc đến vũng nước, nhưng lại một lần nữa nói hướng bên trái... Có cảm giác như một số kỹ thuật có thể cần thiết để định vị và định hướng đầu ra GPT tốt hơn.
Ví dụ3: Một chiếc xe quay đầu và đâm vào lan can
Khung đầu tiên được nhập, vì không có thông tin thời gian, nhưng xe tải bên phải được coi là dừng lại. Vì vậy, đây là một khung khác:
Có thể tự động nói rằng chiếc xe này đã vượt qua lan can và lơ lửng ở mép đường, thật tuyệt vời... Nhưng ngược lại, có vẻ như các biển báo đường dễ dàng hơn đã đi sai... Tôi chỉ có thể nói rằng đây là một mô hình lớn, nó sẽ luôn gây sốc cho bạn và không bao giờ biết khi nào nó sẽ khóc ngớ ngẩn bạn ... Một khung hình nữa:
Lần này, tôi nói trực tiếp về các mảnh vỡ trên mặt đường, và tôi lại ngạc nhiên ... Chỉ là một lần tôi nói sai mũi tên trên đường... Nhìn chung, thông tin cần đặc biệt chú ý trong cảnh này được đề cập, và vấn đề biển báo đường bộ không bị che giấu.
**Ví dụ4: Hãy vui vẻ **
Chỉ có thể nói là rất đúng chỗ, so với vụ án tưởng chừng vô cùng khó khăn trước đây, ví dụ như "có người vẫy tay với bạn", giống như nhi khoa thì vụ án góc ngữ nghĩa có thể giải quyết được.
Ví dụ5 Đến với một cảnh nổi tiếng... Xe giao hàng đi lạc vào đường mới
Lúc đầu, nó bảo thủ, và không trực tiếp đoán lý do, đưa ra nhiều phỏng đoán, điều này cũng phù hợp với mục tiêu liên kết.
Sau khi sử dụng CoT, vấn đề được tìm thấy là không hiểu rằng chiếc xe là một chiếc xe tự trị, vì vậy bằng cách cung cấp thông tin này, nó có thể cung cấp thông tin chính xác hơn.
Cuối cùng, thông qua một bó, có thể đưa ra kết luận rằng nhựa đường mới được đặt không phù hợp để lái xe. Kết quả cuối cùng vẫn ổn, nhưng quá trình này quanh co hơn, và cần nhiều kỹ thuật hơn, và cần phải thiết kế tốt.
Lý do này cũng có thể là do nó không phải là hình ảnh xem đầu tiên và chỉ có thể được suy đoán thông qua quan điểm điểm thứ ba. Vì vậy, ví dụ này không chính xác lắm.
Tóm tắt
Một số nỗ lực nhanh chóng đã chứng minh đầy đủ sức mạnh và hiệu suất khái quát hóa của GPT4V, và thích hợp sẽ có thể phát huy đầy đủ sức mạnh của GPT4V.
Giải quyết trường hợp góc ngữ nghĩa nên rất mong muốn, nhưng vấn đề ảo giác vẫn sẽ gây khó khăn cho một số ứng dụng trong các tình huống liên quan đến an toàn.
Rất thú vị, cá nhân tôi nghĩ rằng việc sử dụng hợp lý một mô hình lớn như vậy có thể thúc đẩy đáng kể sự phát triển của lái xe tự động L4 và thậm chí L5, nhưng LLM có nhất thiết phải lái xe trực tiếp không? Đặc biệt, lái xe từ đầu đến cuối vẫn là một vấn đề gây tranh cãi.
Liên kết tham khảo:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
"Cú sốc lớn" của một CTO: Lái xe tự động GPT-4V năm lần thử nghiệm liên tiếp
Nguồn gốc: Qubits
Với kỳ vọng cao, GPT4 cuối cùng đã thúc đẩy các chức năng liên quan đến thị lực.
Chiều nay, tôi đã nhanh chóng kiểm tra khả năng nhận biết hình ảnh của GPT với bạn bè của mình, và mặc dù tôi mong đợi điều đó, tôi vẫn khiến chúng tôi bị sốc rất nhiều.
Ý tưởng cốt lõi:
Nó là quá đủ để giải quyết một số trường hợp được gọi là góc cua liên quan đến hiệu quả, nhưng vẫn còn rất xa so với việc dựa vào các mô hình lớn để hoàn thành việc lái xe độc lập để đảm bảo an toàn.
Ví dụ1: Một số chướng ngại vật không xác định trên đường
**
Mô tả về **###### △GPT4
Phần chính xác: phát hiện 3 xe tải, biển số của xe phía trước về cơ bản là chính xác (bỏ qua nếu có ký tự Trung Quốc), thời tiết và môi trường chính xác, ** Xác định chính xác các chướng ngại vật không xác định phía trước mà không cần nhắc nhở **.
Phần không chính xác: vị trí của chiếc xe tải thứ ba không được chia trái và phải, và văn bản trên đỉnh đầu của chiếc xe tải thứ hai đoán một cách mù quáng (vì không đủ độ phân giải?). )。
Điều đó là không đủ, chúng ta hãy tiếp tục đưa ra một gợi ý nhỏ và hỏi đối tượng này là gì và liệu nó có thể được ấn qua.
**Ví dụ 2: Hiểu biết về nước trong vỉa hè **
Ví dụ3: Một chiếc xe quay đầu và đâm vào lan can
**Ví dụ4: Hãy vui vẻ **
Ví dụ5 Đến với một cảnh nổi tiếng... Xe giao hàng đi lạc vào đường mới
Sau khi sử dụng CoT, vấn đề được tìm thấy là không hiểu rằng chiếc xe là một chiếc xe tự trị, vì vậy bằng cách cung cấp thông tin này, nó có thể cung cấp thông tin chính xác hơn.
Cuối cùng, thông qua một bó, có thể đưa ra kết luận rằng nhựa đường mới được đặt không phù hợp để lái xe. Kết quả cuối cùng vẫn ổn, nhưng quá trình này quanh co hơn, và cần nhiều kỹ thuật hơn, và cần phải thiết kế tốt.
Lý do này cũng có thể là do nó không phải là hình ảnh xem đầu tiên và chỉ có thể được suy đoán thông qua quan điểm điểm thứ ba. Vì vậy, ví dụ này không chính xác lắm.
Tóm tắt
Một số nỗ lực nhanh chóng đã chứng minh đầy đủ sức mạnh và hiệu suất khái quát hóa của GPT4V, và thích hợp sẽ có thể phát huy đầy đủ sức mạnh của GPT4V.
Giải quyết trường hợp góc ngữ nghĩa nên rất mong muốn, nhưng vấn đề ảo giác vẫn sẽ gây khó khăn cho một số ứng dụng trong các tình huống liên quan đến an toàn.
Rất thú vị, cá nhân tôi nghĩ rằng việc sử dụng hợp lý một mô hình lớn như vậy có thể thúc đẩy đáng kể sự phát triển của lái xe tự động L4 và thậm chí L5, nhưng LLM có nhất thiết phải lái xe trực tiếp không? Đặc biệt, lái xe từ đầu đến cuối vẫn là một vấn đề gây tranh cãi.
Liên kết tham khảo: