Sem qualquer treinamento, o GPT-4V pode interagir diretamente com um smartphone como um humano e completar uma variedade de comandos especificados.
Por exemplo, peça-lhe para comprar uma ferramenta de espuma de leite dentro de um orçamento de $50-$100.
Ele pode completar a seleção do programa de compras (Amazon) passo a passo e abri-lo, clique na barra de pesquisa para digitar "milk frother", encontre a função de filtro, selecione a faixa de orçamento, clique no produto e conclua o pedido, um total de 9 ações.
De acordo com testes, o GPT-4V tem uma taxa de sucesso de 75% na conclusão de tarefas semelhantes no iPhone.
Portanto, algumas pessoas lamentam que, com ele, a Siri seja gradualmente inútil (ela entende o iPhone melhor do que a Siri)
Quem diria que alguém acenou diretamente com a mão:
Siri não era tão forte em primeiro lugar. (Cabeça de cão)
Algumas pessoas também exclamaram:
A era da interação inteligente por voz começou. Nossos telefones podem estar prestes a se tornar puros dispositivos de exibição.
🐂🍺 Sério?
GPT-4V Operação de amostra zero iPhone
O estudo veio da Universidade da Califórnia, San Diego, Microsoft e outros.
Ele próprio é o desenvolvimento de um MM-Navigator, que é um agente baseado em GPT-4V, que é usado para realizar tarefas de navegação na interface de usuário de smartphones.
Configuração Experimental
Em cada passo de tempo, MM-Navigator recebe uma captura de tela.
Como um modelo multimodal, o GPT-4V aceita imagens e texto como entrada e produz saída de texto.
Aqui, é ler as informações da captura de tela passo a passo e saída as etapas a serem operadas.
Agora a questão é:
Como fazer o modelo calcular razoavelmente as coordenadas de localização exatas que devem ser clicadas em uma determinada tela (GPT-4V só pode dar uma localização aproximada).
A solução dada pelos autores é muito simples, usando a ferramenta OCR e IconNet para detetar os elementos UI em cada tela dada e marcá-los com números diferentes.
Desta forma, o GPT-4V só precisa enfrentar uma captura de tela para indicar qual número apontar.
Dois Testes de Aptidão
Os testes foram realizados pela primeira vez no iPhone.
Para manipular com sucesso um telefone celular, GPT-4V é necessário para entender os diferentes tipos de telas:
Um deles é o raciocínio semântico, que envolve compreender a entrada na tela e articular as ações necessárias para completar uma determinada instrução.
Uma é a capacidade de indicar a localização precisa (ou seja, qual número naquele ponto) cada ação deve ser executada.
Portanto, os autores desenvolveram dois conjuntos de testes para distingui-los.
1. Descrição da ação esperada
Apenas saída o que deve ser feito, não coordenadas específicas.
Nesta tarefa, o GPT-4V compreende as instruções e dá passos operacionais com uma precisão de 90,9%.
Por exemplo, na captura de tela abaixo do navegador Safari, o usuário deseja abrir uma nova guia, mas o sinal + no canto inferior esquerdo está acinzentado, o que devo fazer?
Resposta GPT-4V:
Normalmente, isso é OK, mas a julgar pelas capturas de tela, parece que você atingiu o limite de 500 guias e, para abrir uma nova, você precisará fechar algumas das guias existentes e ver se o sinal + pode ser clicado.
Olhando para a compreensão da imagem, é muito bom ~ Para mais exemplos, você pode folhear o papel.
2. Execução de Ação Localizada
Quando o GPT-4V foi solicitado a transformar todas essas "palavras no papel" em ações concretas (ou seja, a segunda missão de teste), sua taxa de precisão caiu para 74,5%.
Novamente, no exemplo acima, ele pode seguir suas próprias instruções e dar o número de operação correto, como clicar no número 9 para fechar uma guia.
Mas, como mostrado na imagem abaixo, quando solicitado a encontrar um aplicativo que possa reconhecer edifícios, ele pode apontar com precisão o uso do ChatGPT, mas dá o número errado "15" (que deveria ser "5").
Também há erros porque a captura de tela em si não está marcada com a posição correspondente.
Por exemplo, deixe-o ligar o modo furtivo da imagem abaixo,Diretamente dar o wifi está em"11"A posição,Não é uma partida em tudo。
Além disso, além desta tarefa simples de etapa única, o teste também descobriu que o GPT-4V pode lidar com instruções complexas, como "comprar um arejador" sem treinamento.
Neste processo, podemos ver que o GPT-4V lista detalhadamente o que fazer em cada etapa, bem como as coordenadas numéricas correspondentes.
Por fim, há o teste no Android.
No geral, ele tem um desempenho significativamente melhor do que outros modelos, como Llama 2, PaLM 2 e ChatGPT.
A maior pontuação geral de desempenho para a execução de tarefas como instalação e compras foi de 52,96%, e a pontuação mais alta para esses modelos de linha de base foi de 39,6%.
Para todo o experimento, seu maior significado é provar que modelos multimodais como GPT-4V podem transferir recursos diretamente para cenas invisíveis, mostrando grande potencial para interação com telefones celulares.
Vale ressaltar que após a leitura deste estudo, os internautas também apresentaram dois pontos:
A primeira é como definimos o sucesso da execução de tarefas.
Por exemplo, se queremos que compre recargas de desinfetante para as mãos, e só queremos um saco, mas compra mais seis sacos, será que é bem sucedido?
Em segundo lugar, todo mundo não pode se empolgar muito cedo, e ainda há muito espaço para progresso se você quiser realmente comercializar essa tecnologia.
Porque, a Siri, que tem uma taxa de precisão de até 95%, é frequentemente reclamada de ser muito pobre.
Apresentação da Equipa
Há 12 autores neste estudo, a maioria dos quais são da Microsoft.
Um para dois.
São eles An Yan, estudante de doutoramento na Universidade da Califórnia, em San Diego, e Zhengyuan Yang, investigador sénior da Microsoft, que recebeu o seu grau de bacharel pela Universidade de Ciência e Tecnologia da China e o seu doutoramento pela Universidade de Rochester.
Links de referência:
[1]
[2]
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
GPT-4V pode "operar" o telefone para completar quaisquer comandos sem treinamento
Fonte original: Quantum Dimension
Um estudo concluiu que:
Sem qualquer treinamento, o GPT-4V pode interagir diretamente com um smartphone como um humano e completar uma variedade de comandos especificados.
Por exemplo, peça-lhe para comprar uma ferramenta de espuma de leite dentro de um orçamento de $50-$100.
Ele pode completar a seleção do programa de compras (Amazon) passo a passo e abri-lo, clique na barra de pesquisa para digitar "milk frother", encontre a função de filtro, selecione a faixa de orçamento, clique no produto e conclua o pedido, um total de 9 ações.
Portanto, algumas pessoas lamentam que, com ele, a Siri seja gradualmente inútil (ela entende o iPhone melhor do que a Siri)
Siri não era tão forte em primeiro lugar. (Cabeça de cão)
GPT-4V Operação de amostra zero iPhone
O estudo veio da Universidade da Califórnia, San Diego, Microsoft e outros.
Ele próprio é o desenvolvimento de um MM-Navigator, que é um agente baseado em GPT-4V, que é usado para realizar tarefas de navegação na interface de usuário de smartphones.
Configuração Experimental
Em cada passo de tempo, MM-Navigator recebe uma captura de tela.
Como um modelo multimodal, o GPT-4V aceita imagens e texto como entrada e produz saída de texto.
Aqui, é ler as informações da captura de tela passo a passo e saída as etapas a serem operadas.
Agora a questão é:
Como fazer o modelo calcular razoavelmente as coordenadas de localização exatas que devem ser clicadas em uma determinada tela (GPT-4V só pode dar uma localização aproximada).
A solução dada pelos autores é muito simples, usando a ferramenta OCR e IconNet para detetar os elementos UI em cada tela dada e marcá-los com números diferentes.
Dois Testes de Aptidão
Os testes foram realizados pela primeira vez no iPhone.
Para manipular com sucesso um telefone celular, GPT-4V é necessário para entender os diferentes tipos de telas:
Um deles é o raciocínio semântico, que envolve compreender a entrada na tela e articular as ações necessárias para completar uma determinada instrução.
Uma é a capacidade de indicar a localização precisa (ou seja, qual número naquele ponto) cada ação deve ser executada.
Portanto, os autores desenvolveram dois conjuntos de testes para distingui-los.
1. Descrição da ação esperada
Apenas saída o que deve ser feito, não coordenadas específicas.
Nesta tarefa, o GPT-4V compreende as instruções e dá passos operacionais com uma precisão de 90,9%.
Por exemplo, na captura de tela abaixo do navegador Safari, o usuário deseja abrir uma nova guia, mas o sinal + no canto inferior esquerdo está acinzentado, o que devo fazer?
Olhando para a compreensão da imagem, é muito bom ~ Para mais exemplos, você pode folhear o papel.
2. Execução de Ação Localizada
Quando o GPT-4V foi solicitado a transformar todas essas "palavras no papel" em ações concretas (ou seja, a segunda missão de teste), sua taxa de precisão caiu para 74,5%.
Novamente, no exemplo acima, ele pode seguir suas próprias instruções e dar o número de operação correto, como clicar no número 9 para fechar uma guia.
Por exemplo, deixe-o ligar o modo furtivo da imagem abaixo,Diretamente dar o wifi está em"11"A posição,Não é uma partida em tudo。
Neste processo, podemos ver que o GPT-4V lista detalhadamente o que fazer em cada etapa, bem como as coordenadas numéricas correspondentes.
No geral, ele tem um desempenho significativamente melhor do que outros modelos, como Llama 2, PaLM 2 e ChatGPT.
A maior pontuação geral de desempenho para a execução de tarefas como instalação e compras foi de 52,96%, e a pontuação mais alta para esses modelos de linha de base foi de 39,6%.
Vale ressaltar que após a leitura deste estudo, os internautas também apresentaram dois pontos:
A primeira é como definimos o sucesso da execução de tarefas.
Por exemplo, se queremos que compre recargas de desinfetante para as mãos, e só queremos um saco, mas compra mais seis sacos, será que é bem sucedido?
Porque, a Siri, que tem uma taxa de precisão de até 95%, é frequentemente reclamada de ser muito pobre.
Apresentação da Equipa
Há 12 autores neste estudo, a maioria dos quais são da Microsoft.
São eles An Yan, estudante de doutoramento na Universidade da Califórnia, em San Diego, e Zhengyuan Yang, investigador sénior da Microsoft, que recebeu o seu grau de bacharel pela Universidade de Ciência e Tecnologia da China e o seu doutoramento pela Universidade de Rochester.
Links de referência:
[1]
[2]