Без будь-якої підготовки GPT-4V може безпосередньо взаємодіяти зі смартфоном, як людина, і виконувати різноманітні задані команди.
Наприклад, попросіть його купити інструмент для спінювання молока в межах бюджету 50-100 доларів.
Він може завершити вибір програми для покупок (Amazon) крок за кроком і відкрити її, натиснути на рядок пошуку, щоб ввести «піноутворювач молока», знайти функцію фільтра, вибрати бюджетний діапазон, натиснути на товар і завершити замовлення, всього 9 дій.
Згідно з тестами, GPT-4V має 75% успіху у виконанні аналогічних завдань на iPhone.
Тому деякі люди нарікають, що з нею Siri поступово марна (вона розуміє iPhone краще, ніж Siri)
Хто ж знав, що хтось прямо махнув рукою:
Спочатку Siri була не такою вже й сильною. (Собача голова)
Деякі люди також вигукували:
Почалася ера інтелектуальної голосової взаємодії. Наші телефони, можливо, скоро стануть чистими пристроями відображення.
🐂🍺 Справді?
GPT-4V Операція з нульовою вибіркою iPhone
Дослідження було проведено Каліфорнійським університетом, Сан-Дієго, Microsoft та іншими.
Він сам по собі є розробкою MM-Navigator, який є агентом на базі GPT-4V, який використовується для виконання навігаційних завдань в інтерфейсі користувача смартфонів.
Експериментальна установка
На кожному кроці MM-Navigator отримує скріншот.
Як мультимодальна модель, GPT-4V приймає зображення та текст як вхідні дані та виробляє вихід тексту.
Тут потрібно крок за кроком прочитати інформацію про скріншот і вивести кроки, які потрібно виконати.
Тепер питання:
Як змусити модель обґрунтовано обчислити точні координати розташування, які слід натиснути на заданому екрані (GPT-4V може дати лише приблизне місце розташування).
Рішення, запропоноване авторами, дуже просте, використовуючи інструмент оптичного розпізнавання символів та IconNet для виявлення елементів UI на кожному екрані та позначення їх різними номерами.
Таким чином, GPT-4V потрібно лише зіткнутися зі скріншотом, щоб вказати, яке число вказати.
Два тести на здібності
Тестування вперше було проведено на iPhone.
Щоб успішно маніпулювати мобільним телефоном, GPT-4V потрібно розбиратися в різних типах екранів:
Одним з них є семантичні міркування, які передбачають розуміння вхідних даних на екрані та формулювання дій, необхідних для виконання даної інструкції.
Одним з них є можливість вказати точне місце (тобто яке число в цій точці) має бути виконано кожну дію.
Тому автори розробили два набори тестів, щоб їх розрізняти.
1. Опис очікуваної дії
Виводьте тільки те, що має бути зроблено, а не конкретні координати.
У цьому завданні GPT-4V розуміє інструкції та видає оперативні кроки з точністю до 90,9%.
Наприклад, на скріншоті нижче браузера Safari користувач хоче відкрити нову вкладку, але знак + в лівому нижньому кутку неактивний, що робити?
Відповідь GPT-4V:
Зазвичай це нормально, але, судячи зі скріншотів, схоже, що ви досягли ліміту вкладок у 500, і щоб відкрити нову, вам потрібно буде закрити деякі з існуючих вкладок і подивитися, чи можна натиснути знак +.
Дивлячись на розуміння картинки, це дуже добре ~ Щоб отримати більше прикладів, ви можете погортати папір.
2. Локалізоване виконання дій
Коли GPT-4V попросили перетворити всі ці «слова на папері» на конкретні дії (тобто другу тестову місію), його точність впала до 74,5%.
Знову ж таки, у наведеному вище прикладі він може слідувати власним інструкціям і вказувати правильний номер операції, наприклад, натискання на цифру 9, щоб закрити вкладку.
Але, як показано на зображенні нижче, коли його просять знайти програму, яка може розпізнавати будівлі, вона може точно вказати на використання ChatGPT, але видає неправильне число «15» (яке має бути «5»).
Також бувають помилки, тому що на самому скріншоті не позначена відповідна позиція.
Наприклад, нехай він увімкне прихований режим із малюнка нижче,Безпосередньо дайте Wi-Fi знаходиться в"11"Позиція,Це зовсім не збіг。
Крім того, крім цього простого одноетапного завдання, тест також показав, що GPT-4V може впоратися зі складними інструкціями, такими як «покупка аератора» без навчання.
У цьому процесі ми можемо побачити, що GPT-4V детально перераховує, що робити на кожному кроці, а також відповідні числові координати.
Нарешті, тест на Android.
Загалом він працює значно краще, ніж інші моделі, такі як Llama 2, PaLM 2 і ChatGPT.
Найвищий загальний показник продуктивності для виконання таких завдань, як встановлення та придбання, становив 52,96%, а найвищий бал для цих базових моделей становив 39,6%.
Для всього експерименту його найбільше значення полягає в тому, щоб довести, що мультимодальні моделі, такі як GPT-4V, можуть безпосередньо передавати можливості на невидимі сцени, демонструючи великий потенціал для взаємодії з мобільним телефоном.
Варто згадати, що після прочитання цього дослідження користувачі мережі також висувають два моменти:
По-перше, це те, як ми визначаємо успішність виконання завдання.
Наприклад, якщо ми хочемо, щоб він купив наповнювачі для дезінфікуючого засобу для рук, і ми хочемо лише один пакетик, але він купує ще шість пакетів, чи це успішно?
По-друге, всі не можуть захоплюватися занадто рано, і є ще багато можливостей для прогресу, якщо ви хочете дійсно комерціалізувати цю технологію.
Тому що Siri, яка має точність до 95%, часто скаржаться на те, що вона дуже погана.
Знайомство з командою
У цьому дослідженні беруть участь 12 авторів, більшість з яких з Microsoft.
Один на двох.
Це Ань Янь, аспірант Каліфорнійського університету в Сан-Дієго, і Чжен'юань Ян, старший науковий співробітник Microsoft, який отримав ступінь бакалавра в Університеті науки і технологій Китаю та ступінь доктора філософії в Університеті Рочестера.
Посилання на джерела:
[1]
[2]
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
GPT-4V може «керувати» телефоном для виконання будь-яких команд без навчання
Першоджерело: Quantum Dimension
Одне дослідження показало, що:
Без будь-якої підготовки GPT-4V може безпосередньо взаємодіяти зі смартфоном, як людина, і виконувати різноманітні задані команди.
Наприклад, попросіть його купити інструмент для спінювання молока в межах бюджету 50-100 доларів.
Він може завершити вибір програми для покупок (Amazon) крок за кроком і відкрити її, натиснути на рядок пошуку, щоб ввести «піноутворювач молока», знайти функцію фільтра, вибрати бюджетний діапазон, натиснути на товар і завершити замовлення, всього 9 дій.
Тому деякі люди нарікають, що з нею Siri поступово марна (вона розуміє iPhone краще, ніж Siri)
Спочатку Siri була не такою вже й сильною. (Собача голова)
GPT-4V Операція з нульовою вибіркою iPhone
Дослідження було проведено Каліфорнійським університетом, Сан-Дієго, Microsoft та іншими.
Він сам по собі є розробкою MM-Navigator, який є агентом на базі GPT-4V, який використовується для виконання навігаційних завдань в інтерфейсі користувача смартфонів.
Експериментальна установка
На кожному кроці MM-Navigator отримує скріншот.
Як мультимодальна модель, GPT-4V приймає зображення та текст як вхідні дані та виробляє вихід тексту.
Тут потрібно крок за кроком прочитати інформацію про скріншот і вивести кроки, які потрібно виконати.
Тепер питання:
Як змусити модель обґрунтовано обчислити точні координати розташування, які слід натиснути на заданому екрані (GPT-4V може дати лише приблизне місце розташування).
Рішення, запропоноване авторами, дуже просте, використовуючи інструмент оптичного розпізнавання символів та IconNet для виявлення елементів UI на кожному екрані та позначення їх різними номерами.
Два тести на здібності
Тестування вперше було проведено на iPhone.
Щоб успішно маніпулювати мобільним телефоном, GPT-4V потрібно розбиратися в різних типах екранів:
Одним з них є семантичні міркування, які передбачають розуміння вхідних даних на екрані та формулювання дій, необхідних для виконання даної інструкції.
Одним з них є можливість вказати точне місце (тобто яке число в цій точці) має бути виконано кожну дію.
Тому автори розробили два набори тестів, щоб їх розрізняти.
1. Опис очікуваної дії
Виводьте тільки те, що має бути зроблено, а не конкретні координати.
У цьому завданні GPT-4V розуміє інструкції та видає оперативні кроки з точністю до 90,9%.
Наприклад, на скріншоті нижче браузера Safari користувач хоче відкрити нову вкладку, але знак + в лівому нижньому кутку неактивний, що робити?
Дивлячись на розуміння картинки, це дуже добре ~ Щоб отримати більше прикладів, ви можете погортати папір.
2. Локалізоване виконання дій
Коли GPT-4V попросили перетворити всі ці «слова на папері» на конкретні дії (тобто другу тестову місію), його точність впала до 74,5%.
Знову ж таки, у наведеному вище прикладі він може слідувати власним інструкціям і вказувати правильний номер операції, наприклад, натискання на цифру 9, щоб закрити вкладку.
Наприклад, нехай він увімкне прихований режим із малюнка нижче,Безпосередньо дайте Wi-Fi знаходиться в"11"Позиція,Це зовсім не збіг。
У цьому процесі ми можемо побачити, що GPT-4V детально перераховує, що робити на кожному кроці, а також відповідні числові координати.
Загалом він працює значно краще, ніж інші моделі, такі як Llama 2, PaLM 2 і ChatGPT.
Найвищий загальний показник продуктивності для виконання таких завдань, як встановлення та придбання, становив 52,96%, а найвищий бал для цих базових моделей становив 39,6%.
Варто згадати, що після прочитання цього дослідження користувачі мережі також висувають два моменти:
По-перше, це те, як ми визначаємо успішність виконання завдання.
Наприклад, якщо ми хочемо, щоб він купив наповнювачі для дезінфікуючого засобу для рук, і ми хочемо лише один пакетик, але він купує ще шість пакетів, чи це успішно?
Тому що Siri, яка має точність до 95%, часто скаржаться на те, що вона дуже погана.
Знайомство з командою
У цьому дослідженні беруть участь 12 авторів, більшість з яких з Microsoft.
Це Ань Янь, аспірант Каліфорнійського університету в Сан-Дієго, і Чжен'юань Ян, старший науковий співробітник Microsoft, який отримав ступінь бакалавра в Університеті науки і технологій Китаю та ступінь доктора філософії в Університеті Рочестера.
Посилання на джерела:
[1]
[2]