Sin ningún tipo de entrenamiento, GPT-4V puede interactuar directamente con un teléfono inteligente como un humano y completar una variedad de comandos específicos.
Por ejemplo, pídale que compre una herramienta para espumar leche con un presupuesto de $50-$100.
Puede completar la selección del programa de compras (Amazon) paso a paso y abrirlo, hacer clic en la barra de búsqueda para ingresar "espumador de leche", buscar la función de filtro, seleccionar el rango de presupuesto, hacer clic en el producto y completar el pedido, un total de 9 acciones.
Según las pruebas, GPT-4V tiene una tasa de éxito del 75% en completar tareas similares en el iPhone.
Por lo tanto, algunas personas lamentan que con él, Siri sea gradualmente inútil (entiende el iPhone mejor que Siri)
Quién sabía que alguien agitó la mano directamente:
Siri no era tan fuerte en primer lugar. (Cabeza de perro)
Algunas personas también exclamaron:
La era de la interacción inteligente por voz ha comenzado. Es posible que nuestros teléfonos estén a punto de convertirse en dispositivos de visualización pura.
🐂🍺 ¿Realmente?
GPT-4V Operación de Muestra Cero iPhone
El estudio provino de la Universidad de California, San Diego, Microsoft y otros.
En sí es el desarrollo de un MM-Navigator, que es un agente basado en GPT-4V, que se utiliza para llevar a cabo tareas de navegación en la interfaz de usuario de los teléfonos inteligentes.
Configuración experimental
En cada paso de tiempo, MM-Navigator obtiene una captura de pantalla.
Como modelo multimodal, GPT-4V acepta imágenes y texto como entrada y produce salida de texto.
Aquí, se trata de leer la información de la captura de pantalla paso a paso y generar los pasos a operar.
Ahora la pregunta es:
Cómo hacer que el modelo calcule razonablemente las coordenadas de ubicación exactas en las que se debe hacer clic en una pantalla determinada (GPT-4V solo puede dar una ubicación aproximada).
La solución dada por los autores es muy sencilla, utilizando la herramienta OCR e IconNet para detectar los elementos de la interfaz de usuario en cada pantalla dada y marcarlos con números diferentes.
De esta forma, GPT-4V solo necesita enfrentarse a una captura de pantalla para indicar qué número señalar.
Dos pruebas de aptitud
Las pruebas se llevaron a cabo por primera vez en el iPhone.
Para manipular con éxito un teléfono móvil, se requiere GPT-4V para comprender los diferentes tipos de pantallas:
Uno es el razonamiento semántico, que implica comprender la entrada en pantalla y articular las acciones necesarias para completar una instrucción determinada.
Una es la capacidad de indicar la ubicación precisa (es decir, qué número en ese momento) debe realizarse cada acción.
Por lo tanto, los autores desarrollaron dos conjuntos de pruebas para distinguirlos.
1. Descripción de la acción esperada
Solo muestra lo que se debe hacer, no coordenadas específicas.
En esta tarea, GPT-4V entiende las instrucciones y da pasos operativos con una precisión del 90,9%.
Por ejemplo, en la captura de pantalla a continuación del navegador Safari, el usuario quiere abrir una nueva pestaña, pero el signo + en la esquina inferior izquierda está atenuado, ¿qué debo hacer?
Respuesta de GPT-4V:
Normalmente, esto está bien, pero a juzgar por las capturas de pantalla, parece que ha alcanzado el límite de 500 pestañas, y para abrir una nueva, deberá cerrar algunas de las pestañas existentes y ver si se puede hacer clic en el signo +.
Mirando la comprensión de la imagen, es muy buena ~ Para obtener más ejemplos, puede hojear el papel.
2. Ejecución de acciones localizadas
Cuando se le pidió a GPT-4V que convirtiera todas estas "palabras sobre el papel" en acciones concretas (es decir, la segunda misión de prueba), su tasa de precisión cayó al 74,5%.
Nuevamente, en el ejemplo anterior, puede seguir sus propias instrucciones y dar el número de operación correcto, como hacer clic en el número 9 para cerrar una pestaña.
Pero como se muestra en la imagen a continuación, cuando se le pide que busque una aplicación que pueda reconocer edificios, puede señalar con precisión el uso de ChatGPT, pero da el número incorrecto "15" (que debería ser "5").
También hay errores porque la captura de pantalla en sí no está marcada con la posición correspondiente.
Por ejemplo, deje que encienda el modo sigiloso de la imagen a continuación,Directamente dar el wifi está en "11"La posición,No es una coincidencia en absoluto。
Además, además de esta sencilla tarea de un solo paso, la prueba también descubrió que GPT-4V puede manejar instrucciones complejas como "comprar un aireador" sin formación.
En este proceso, podemos ver que GPT-4V enumera en detalle qué hacer en cada paso, así como las coordenadas numéricas correspondientes.
Por último, está la prueba en Android.
En general, funciona significativamente mejor que otros modelos como Llama 2, PaLM 2 y ChatGPT.
La puntuación de rendimiento general más alta para realizar tareas como la instalación y la compra fue del 52,96 %, y la puntuación más alta para estos modelos de referencia fue del 39,6 %.
Para todo el experimento, su mayor importancia es demostrar que los modelos multimodales como GPT-4V pueden transferir directamente capacidades a escenas invisibles, mostrando un gran potencial para la interacción con teléfonos móviles.
Vale la pena mencionar que después de leer este estudio, los internautas también plantearon dos puntos:
La primera es cómo definimos el éxito de la ejecución de tareas.
Por ejemplo, si queremos que compre recargas de desinfectante de manos, y solo queremos una bolsa, pero compra seis bolsas más, ¿tiene éxito?
En segundo lugar, no todo el mundo puede emocionarse demasiado pronto, y todavía hay mucho margen de progreso si se quiere comercializar realmente esta tecnología.
Porque Siri, que tiene una tasa de precisión de hasta el 95%, a menudo se queja de ser muy pobre.
Presentación del equipo
Hay 12 autores en este estudio, la mayoría de los cuales son de Microsoft.
Uno por dos.
Se trata de An Yan, estudiante de doctorado en la Universidad de California en San Diego, y Zhengyuan Yang, investigador sénior de Microsoft, que recibió su licenciatura de la Universidad de Ciencia y Tecnología de China y su doctorado de la Universidad de Rochester.
Enlaces de referencia:
[1]
[2]
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
GPT-4V puede "operar" el teléfono para completar cualquier comando sin entrenamiento
Fuente original: Quantum Dimension
Un estudio encontró que:
Sin ningún tipo de entrenamiento, GPT-4V puede interactuar directamente con un teléfono inteligente como un humano y completar una variedad de comandos específicos.
Por ejemplo, pídale que compre una herramienta para espumar leche con un presupuesto de $50-$100.
Puede completar la selección del programa de compras (Amazon) paso a paso y abrirlo, hacer clic en la barra de búsqueda para ingresar "espumador de leche", buscar la función de filtro, seleccionar el rango de presupuesto, hacer clic en el producto y completar el pedido, un total de 9 acciones.
Por lo tanto, algunas personas lamentan que con él, Siri sea gradualmente inútil (entiende el iPhone mejor que Siri)
Siri no era tan fuerte en primer lugar. (Cabeza de perro)
GPT-4V Operación de Muestra Cero iPhone
El estudio provino de la Universidad de California, San Diego, Microsoft y otros.
En sí es el desarrollo de un MM-Navigator, que es un agente basado en GPT-4V, que se utiliza para llevar a cabo tareas de navegación en la interfaz de usuario de los teléfonos inteligentes.
Configuración experimental
En cada paso de tiempo, MM-Navigator obtiene una captura de pantalla.
Como modelo multimodal, GPT-4V acepta imágenes y texto como entrada y produce salida de texto.
Aquí, se trata de leer la información de la captura de pantalla paso a paso y generar los pasos a operar.
Ahora la pregunta es:
Cómo hacer que el modelo calcule razonablemente las coordenadas de ubicación exactas en las que se debe hacer clic en una pantalla determinada (GPT-4V solo puede dar una ubicación aproximada).
La solución dada por los autores es muy sencilla, utilizando la herramienta OCR e IconNet para detectar los elementos de la interfaz de usuario en cada pantalla dada y marcarlos con números diferentes.
Dos pruebas de aptitud
Las pruebas se llevaron a cabo por primera vez en el iPhone.
Para manipular con éxito un teléfono móvil, se requiere GPT-4V para comprender los diferentes tipos de pantallas:
Uno es el razonamiento semántico, que implica comprender la entrada en pantalla y articular las acciones necesarias para completar una instrucción determinada.
Una es la capacidad de indicar la ubicación precisa (es decir, qué número en ese momento) debe realizarse cada acción.
Por lo tanto, los autores desarrollaron dos conjuntos de pruebas para distinguirlos.
1. Descripción de la acción esperada
Solo muestra lo que se debe hacer, no coordenadas específicas.
En esta tarea, GPT-4V entiende las instrucciones y da pasos operativos con una precisión del 90,9%.
Por ejemplo, en la captura de pantalla a continuación del navegador Safari, el usuario quiere abrir una nueva pestaña, pero el signo + en la esquina inferior izquierda está atenuado, ¿qué debo hacer?
Mirando la comprensión de la imagen, es muy buena ~ Para obtener más ejemplos, puede hojear el papel.
2. Ejecución de acciones localizadas
Cuando se le pidió a GPT-4V que convirtiera todas estas "palabras sobre el papel" en acciones concretas (es decir, la segunda misión de prueba), su tasa de precisión cayó al 74,5%.
Nuevamente, en el ejemplo anterior, puede seguir sus propias instrucciones y dar el número de operación correcto, como hacer clic en el número 9 para cerrar una pestaña.
Por ejemplo, deje que encienda el modo sigiloso de la imagen a continuación,Directamente dar el wifi está en "11"La posición,No es una coincidencia en absoluto。
En este proceso, podemos ver que GPT-4V enumera en detalle qué hacer en cada paso, así como las coordenadas numéricas correspondientes.
En general, funciona significativamente mejor que otros modelos como Llama 2, PaLM 2 y ChatGPT.
La puntuación de rendimiento general más alta para realizar tareas como la instalación y la compra fue del 52,96 %, y la puntuación más alta para estos modelos de referencia fue del 39,6 %.
Vale la pena mencionar que después de leer este estudio, los internautas también plantearon dos puntos:
La primera es cómo definimos el éxito de la ejecución de tareas.
Por ejemplo, si queremos que compre recargas de desinfectante de manos, y solo queremos una bolsa, pero compra seis bolsas más, ¿tiene éxito?
Porque Siri, que tiene una tasa de precisión de hasta el 95%, a menudo se queja de ser muy pobre.
Presentación del equipo
Hay 12 autores en este estudio, la mayoría de los cuales son de Microsoft.
Se trata de An Yan, estudiante de doctorado en la Universidad de California en San Diego, y Zhengyuan Yang, investigador sénior de Microsoft, que recibió su licenciatura de la Universidad de Ciencia y Tecnología de China y su doctorado de la Universidad de Rochester.
Enlaces de referencia:
[1]
[2]