GPT-4V может «управлять» телефоном для выполнения любых команд без обучения

Первоисточник: Quantum Dimension

GPT-4V — это начало конца Siri.

Источник изображения: Generated by Unbounded AI

Одно исследование показало, что:

Без какой-либо подготовки GPT-4V может напрямую взаимодействовать со смартфоном, как человек, и выполнять множество заданных команд.

Например, попросите его купить инструмент для вспенивания молока в рамках бюджета $50-$100.

Он может шаг за шагом завершить выбор программы покупок (Amazon) и открыть ее, нажать на строку поиска, чтобы ввести «вспениватель молока», найти функцию фильтра, выбрать бюджетный диапазон, нажать на товар и завершить заказ, всего 9 действий.

Согласно тестам, GPT-4V имеет 75% успешности в выполнении аналогичных задач на iPhone.

Поэтому некоторые сетуют на то, что с ней Siri постепенно становится бесполезной (она понимает iPhone лучше, чем Siri)

Кто бы мог подумать, что кто-то прямо махнул рукой:

С самого начала Siri была не так сильна. (Собачья голова)

Некоторые люди также восклицали:

Началась эра интеллектуального голосового взаимодействия. Наши телефоны, возможно, вот-вот станут чисто дисплейными устройствами.

🐂🍺 Действительно?

GPT-4V Операция с нулевой выборкой iPhone

Исследование было проведено Калифорнийским университетом в Сан-Диего, Microsoft и другими.

Сам по себе он является разработкой MM-Navigator, который представляет собой агент на базе GPT-4V, который используется для выполнения навигационных задач в пользовательском интерфейсе смартфонов.

Экспериментальная установка

На каждом временном шаге MM-Navigator получает скриншот.

Будучи мультимодальной моделью, GPT-4V принимает изображения и текст в качестве входных данных и производит текстовый вывод.

Здесь он заключается в том, чтобы шаг за шагом прочитать информацию о скриншоте и вывести шаги, с которыми нужно работать.

Теперь вопрос:

Как сделать так, чтобы модель разумно вычислила точные координаты местоположения, на которые следует нажать на данном экране (GPT-4V может дать только приблизительное местоположение).

Решение, предложенное авторами, очень простое: с помощью инструмента OCR и IconNet можно обнаружить элементы пользовательского интерфейса на каждом экране и пометить их разными номерами.

Таким образом, GPT-4V нужно только посмотреть на скриншот, чтобы указать, какой номер указать.

Два теста на профпригодность

Сначала тестирование проводилось на iPhone.

Чтобы успешно манипулировать мобильным телефоном, GPT-4V должен понимать различные типы экранов:

Одним из них является семантическое мышление, которое включает в себя понимание вводимых на экране данных и формулирование действий, необходимых для выполнения данной инструкции.

Одним из них является возможность указать точное место (т.е. номер в этой точке) каждого действия, которое должно быть выполнено.

Поэтому авторы разработали два набора тестов для их различения.

1. Описание ожидаемого действия

Выводить только то, что должно быть сделано, а не конкретные координаты.

В этой задаче GPT-4V понимает инструкции и выдает операционные шаги с точностью 90,9%.

Например, на скриншоте ниже браузера Safari пользователь хочет открыть новую вкладку, но знак + в левом нижнем углу неактивен, что делать?

Ответ GPT-4V:

Обычно это нормально, но, судя по скриншотам, похоже, что вы достигли лимита в 500 вкладок, и чтобы открыть новую, вам нужно будет закрыть некоторые из существующих вкладок и посмотреть, можно ли нажать знак +.

Глядя на понимание картинки, это очень хорошо~ Чтобы увидеть больше примеров, вы можете пролистать бумагу.

2. Локализованное выполнение действий

Когда GPT-4V попросили превратить все эти «слова на бумаге» в конкретные действия (т.е. во вторую тестовую миссию), его точность упала до 74,5%.

Опять же, в приведенном выше примере он может следовать своим собственным инструкциям и выдавать правильный номер операции, например, нажимая на число 9, чтобы закрыть вкладку.

Но, как показано на изображении ниже, когда его просят найти приложение, которое может распознавать здания, оно может точно указать на использование ChatGPT, но выдает неправильное число «15» (которое должно быть «5»).

Также есть ошибки из-за того, что сам скриншот не помечен соответствующей позицией.

Например, пусть он включит скрытый режим с картинки ниже,Напрямую дайте Wi-Fi в"11"Положение,Это совсем не совпадение。

Кроме того, в дополнение к этой простой одношаговой задаче, тест также показал, что GPT-4V может обрабатывать сложные инструкции, такие как «покупка аэратора», без обучения.

В этом процессе мы видим, что GPT-4V подробно перечисляет, что нужно делать на каждом шаге, а также соответствующие числовые координаты.

Наконец, есть тест на Android.

В целом, он работает значительно лучше, чем другие модели, такие как Llama 2, PaLM 2 и ChatGPT.

Самый высокий общий балл производительности для выполнения таких задач, как установка и покупка, составил 52,96 %, а самый высокий балл для этих базовых моделей — 39,6 %.

Для всего эксперимента его самое большое значение состоит в том, чтобы доказать, что мультимодальные модели, такие как GPT-4V, могут напрямую передавать возможности невидимым сценам, демонстрируя большой потенциал для взаимодействия с мобильными телефонами.

Стоит отметить, что после прочтения этого исследования пользователи сети также выдвинули два тезиса:

Во-первых, это то, как мы определяем успешность выполнения задачи.

Например, если мы хотим, чтобы он покупал дезинфицирующее средство для рук, и нам нужен только один пакет, но он покупает еще шесть пакетов, будет ли он успешным?

Во-вторых, не все могут радоваться слишком рано, и есть еще много возможностей для прогресса, если вы хотите действительно коммерциализировать эту технологию.

Потому что Siri, точность которой достигает 95%, часто жалуются на то, что она очень плохая.

Представление команды

В этом исследовании участвуют 12 авторов, большинство из которых работают в Microsoft.

Один на двоих.

Это Ань Янь, аспирант Калифорнийского университета в Сан-Диего, и Чжэнъюань Ян, старший научный сотрудник Microsoft, получивший степень бакалавра в Университете науки и технологий Китая и степень доктора философии в Университете Рочестера.

Ссылки:
[1]
[2]

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить