Велика модель насправді оснащена автономним водінням, і ШІ пояснить, як вона їздить!

Джерело: Xinzhiyuan

LINGO-1, запущений компанією Wayve, наповнює автономне водіння! Як керувати цією машиною, вона сама собі пояснює, велика мовна модель, це вже не чорний ящик.

З моменту винаходу найбільше тривоги в автономному водінні полягає в тому, що люди не можуть знати, що відбувається в його голові.

Відсьогодні він може «висловлювати» свої думки?

Нещодавно Wayve запустила LINGO-1, велику модель взаємодії автономного водіння, засновану на великих моделях візуальної мови (VLAM), яка глибоко інтегрує великі мовні моделі та автономне водіння.

Зокрема, LINGO-1 навчив мовну модель відео, яка, можна сказати, досить персоналізована - вона може коментувати сцену, що відбувається перед нею!

-Що ти робиш? – Переходжу обережно, тому що дорожня обстановка зараз складна. -Що ти збираєшся робити далі? -Я збираюся повернути ліворуч. -Які потенційні ризики в цьому сценарії? - світлофор, велосипедисти, пішоходи, що переходять дорогу

Це чітко пояснить вам усі ваші сумніви щодо системи інтелектуального водіння.

З: Чому це зупинилося? Відповідь: Тому що зараз горить червоне світло.

Після навчання на різноманітних візуальних і мовних даних LINGO-1 може не тільки виконувати завдання візуальної відповіді на питання (VQA), такі як сприйняття, протиправні факти, планування, міркування та увагу, але також описувати поведінку та міркування за кермом.

Іншими словами, ми можемо зрозуміти фактори, які впливають на рішення щодо водіння, ставлячи запитання LINGO-1.

Користувачі мережі скаржилися: «Таким чином було відкрито наскрізну чорну скриньку. Це просто диво в епоху GPT. Система автономного водіння зробила великий крок вперед від взаємодії з реальним фізичним світом».

Цілком можливо, що коли ми розширюємо межі втіленого штучного інтелекту, модель бачення-мовлення-дії матиме величезний вплив, тому що мова забезпечує нову парадигму для вдосконалення способу інтерпретації та навчання моделей самостійного керування.

**Комплімент у безпілотному автомобілі? **

Унікальною особливістю LINGO-1 є введення експерта-людини для навчання на словесних коментарях до сцен водіння, що дозволяє моделі поєднувати сприйняття навколишнього середовища, прийняття рішень щодо дії та інтерпретацію сцени, подібної до людини.

Таким чином, він може інтерпретувати рішення та дії системи автономного водіння через взаємодію природної мови.

Джим Фан, старший науковий співробітник NVIDIA зі штучного інтелекту, схвильовано прокоментував: «Це найцікавіша робота в галузі автономного водіння, яку я читав останнім часом!

У минулому автоматичне водіння було «сприйняття -> операція водіння», але в майбутньому автоматичне водіння додало етап міркування, який є «сприйняття -> вербальне міркування -> дія».

Які переваги цього нового кроку чіткого міркування? Джим Фан пояснює наступне——

  • Можливість інтерпретації: керівна модель більше не є таємничим чорним ящиком.
  • Контрфактичні сценарії: він здатний уявити сценарії, яких немає в навчальних даних, і міркувати про те, як правильно з ними поводитися.
  • Програмування з довгим хвостом: існує велика кількість граничних сценаріїв водіння, і неможливо забезпечити належне охоплення даних для всіх сценаріїв. Замість того, щоб збирати тисячі прикладів, щоб «нейропрограмувати» випадок, люди-експерти можуть писати підказки (), щоб пояснити невелику кількість прикладів, тим самим керуючи системою, як обробляти конкретні або складні сценарії.

Крім того, LINGO-1 також тісно пов’язаний з деякими дослідженнями в галузі штучного інтелекту в іграх, такими як MineDojo та Thought Cloning, які є агентами ШІ.

Перший може вивчити модель винагороди, яка пов’язує текст огляду з пікселями відео Minecraft. Останній може реалізувати повний набір посилань «піксель->мова->цикл дій».

LINGO-1——Оповідач у відкритому циклі

Моє власне пояснення

На що модель звертає увагу? робити те, що? Тепер це вже не таємниця.

LINGO-1 чітко пояснить вам, що він робить на кожному кроці.

Наприклад, якщо він хоче обігнати припаркований на узбіччі автомобіль -

LINGO-1: Я обганяю через повільний рух. LINGO-1: Я проїжджаю повз припарковану машину. LINGO-1: Я прискорююсь, тому що дорога попереду вільна.

Коли наближаєшся до зебри——

LINGO-1: Я тримаю швидкість, дорога ще вільна. LINGO-1: Гальмуйте та сповільнюйте. ЛІНГО-1: Зупиніться біля зебри. LINGO-1: Я прискорююся з того місця, де зупинився. ЛІНГО-1: Я мчу швидкість, бо дорога вільна.

При повороті ліворуч на перехресті——

LINGO-1: Я стояв на місці, тому що машина попереду також зупинилася. ЛІНГО-1: Я прискорююсь, бо машина попереду від’їхала. ЛІНГО-1: Я гальмую, щоб зупинитися на перехресті. ЛІНГО-1: Я рухаюся вперед, бо смуга вільна. LINGO-1: завершіть поворот ліворуч і йдіть по маршруту.

### Візуальна відповідь на питання (VQA)

Окрім пояснень, LINGO-1 також може відповісти на ваші запитання, дозволяючи нам оцінити його можливості розуміння сцени та аргументації.

Наприклад, якщо ви запитаєте LINGO-1, на що варто звернути увагу на цьому перехресті?

Там написано: «Я маю звернути увагу на світло попереду, велосипедиста попереду та пішохода, який переходить дорогу».

Запитайте в ЛІНГО-1, яка зараз погода? Як це вплине на водіння?

На ньому буде написано: «Зараз дощовий день, і мені потрібно бути надзвичайно обережним за кермом, оскільки дорога слизька, а в дощові дні видимість погіршується».

LINGO-1, як безпечно їздити пліч-о-пліч з велосипедом?

На ньому буде написано: «Я повинен тримати дистанцію від велосипедистів і зупинятися, коли це необхідно. Це потенційна небезпека. Крім того, я повинен звертати увагу на припарковані на узбіччі машини».

### Ключ: набір даних коментарів щодо водіння

Ключем до розробки LINGO-1 було створення масштабованого та різноманітного набору даних. Цей набір даних містить коментарі професійних водіїв під час водіння Великобританією, включаючи зображення, дані про мову та дії.

Це нагадує нам сцену, коли ми вчилися водити у інструкторів в автошколі - час від часу вони робили коментарі та пояснення, подібні до наступного, щоб пояснити, чому вони так поводилися під час водіння, щоб учні могли зробити висновки .

  • Транспортний засіб/світлофор попереду змінився, будь ласка, пригальмуйте - Час перестроюватися - Ви можете прискорюватися, будьте обережні, не перевищуйте максимальну швидкість - Увага! Інші транспортні засоби виїхали на дорогу/зупинилися на перехресті - Зверніть увагу на кругову розв'язку та дайте дорогу попереду - Попереду припарковані транспортні засоби/світлофори/школи - Транспортний засіб поруч з вами змінює смугу руху/проїжджає припаркований автомобіль - Велосипедисти/ пішоходи чекають на зебрі

Коли наведені вище речення, сенсорні образи та базові дії водіння синхронізуються в часі, дослідники отримають багатий набір даних візуальної мови та дій, який можна використовувати для навчання моделей для виконання різних завдань.

Модель візуальної мови (VLAM)

Після появи LLM багато моделей візуальної мови (VLM) поєднують можливості міркування LLM із зображеннями та відео.

Далі Wayve запустила модель Vision-Language-Action Model (VLAM), яка містить три типи інформаційних зображень, керівних даних і мови.

У минулому природна мова рідко використовувалась у навчанні роботів (особливо у сфері автономного водіння).

Якщо додати природну мову, це дозволить нам ефективніше інтерпретувати та тренувати основні моделі водіння. Ця нова модель матиме величезний вплив.

Використовуючи мову для пояснення різних причинних факторів у сценаріях водіння, швидкість навчання моделі можна прискорити та розширити до нових сценаріїв.

А оскільки ми можемо задавати моделі питання, ми можемо знати, що модель розуміє і наскільки добре вона може міркувати та приймати рішення.

Система автономного водіння більше не є таємничою чорною скринькою. Ми можемо час від часу запитувати її під час водіння: про що ти думаєш?

Це, безсумнівно, підвищить довіру громадськості до автономного водіння.

Крім того, хоча існує лише невелика кількість навчальних зразків, здатність швидкого навчання природної мови дозволяє моделі швидко й ефективно вивчати нові завдання та адаптуватися до нових сценаріїв.

Наприклад, поки ми використовуємо природну мову, щоб сказати моделі «така поведінка неправильна», ми можемо виправити неправильну поведінку системи автономного водіння.

Відтепер, можливо, лише природна мова потрібна для створення базової моделі наскрізного автономного водіння!

Точність 60%

Протягом цього часу команда вдосконалювала архітектуру моделі та навчальний набір даних.

З малюнка неважко побачити, що продуктивність LINGO-1 зросла вдвічі порівняно з початком.

В даний час точність LINGO-1 досягла 60% від людського рівня.

Очевидно, що впровадження природної мови може революціонізувати технологію автономного водіння в багатьох аспектах.

Покращення інтерпретації наскрізних моделей

Відсутність інтерпретації моделей машинного навчання завжди була в центрі уваги досліджень.

Завдяки створенню інтерактивного інтерфейсу, заснованого на природній мові, користувачі можуть безпосередньо задавати запитання та дозволяти штучному інтелекту відповідати на них, таким чином отримуючи глибоке розуміння розуміння моделлю сцени та того, як вона приймає рішення.

Цей унікальний діалог між пасажирами та безпілотними автомобілями може підвищити прозорість і полегшити розуміння цих систем і довіру до них.

У той же час природна мова також покращує здатність моделі адаптуватися до відгуків людини та вчитися на них.

Подібно до інструктора, який супроводжує учня за кермом, коригувальні інструкції та відгуки користувачів з часом покращують розуміння моделі та процес прийняття рішень.

Краще планування та міркування, покращені характеристики водіння

Є два основні фактори, які впливають на продуктивність автономного водіння:

  1. Здатність мовних моделей точно інтерпретувати різні сценарії режиму введення

  2. Вміння моделі перетворювати міркування середнього рівня в ефективне планування низького рівня

У зв’язку з цим команда намагається покращити модель водіння із замкнутим циклом за допомогою природної мови, можливостей міркування та планування LINGO.

Модель Wayve LINGO-1 із замкнутим циклом автономного водіння

Ефективне вивчення нових сценаріїв або сценаріїв з довгим хвостом

Зазвичай зображення варте тисячі слів.

Але при навчанні моделі фрагмент тексту вартий тисячі картинок.

Тепер замість того, щоб мати тисячі прикладів автомобілів, які сповільнюються заради пішоходів, нам потрібно лише кілька прикладів разом із коротким текстовим описом, щоб навчити модель сповільнювати швидкість і дізнатися, як вона повинна діяти в цій ситуації.

Ви знаєте, однією з найважливіших частин автономного водіння є причинно-наслідкові міркування, які дозволяють системі зрозуміти зв’язок між елементами та поведінкою в сцені.

Хороша продуктивність VLAM дозволяє системі з’єднувати пішоходів, які чекають на переходах «зебра», із сигналами світлофора «Не переходь». Це надзвичайно важливо в складних сценаріях з обмеженими даними.

Крім того, LLM вже має великий обсяг знань про людську поведінку з наборів даних Інтернету, тому він може розуміти такі концепції, як ідентифікація об’єктів, правила дорожнього руху та операції водіння, наприклад між деревами, магазинами, будинками, собаками, що ганяються за м’ячем, і автобуси припарковані перед школами різниця.

Завдяки ширшому інформаційному кодуванню графічних даних VLAM автономне водіння стане досконалішим і безпечнішим.

Обмеження

Звичайно, LINGO-1 також має певні обмеження.

Узагальнення

LINGO-1 навчається водінню в центрі Лондона та тексту в масштабі Інтернету.

Хоча я дізнався про культуру водіння в усьому світі, зараз я найкраще вмію тлумачити британські правила дорожнього руху.

Це також вимагає вивчення досвіду водіння в інших країнах.

Галюцинація

Галюцинації є загальновідомою проблемою великих мовних моделей, і LINGO-1 не є винятком.

Однак порівняно зі звичайним LLM LINGO-1 має перевагу: оскільки він базується на баченні, мові та дії, він має більше джерел спостереження, що дозволяє йому краще розуміти світ.

Контекст

Поглиблене навчання відео є складним, оскільки відеодані зазвичай на порядки більші, ніж набори даних зображень або тексту.

Мультимодальні мовні моделі на основі відео особливо вимагають великої довжини контексту, щоб мати можливість вбудовувати багато відеокадрів для міркування про складні динамічні сценарії водіння.

Міркування в замкнутому циклі

Наразі Wayve працює над інтерпретацією моделі, але зрештою їх здатність міркувати в LLM зможе справді вплинути на керування автомобілем.

Дослідники розробляють архітектуру замкнутого циклу, яка в майбутньому зможе запускати LINGO-1 на автономних транспортних засобах.

Обговорення користувачів мережі

Користувачі мережі також знайшли це дуже захоплюючим.

«Цікаво, що я вважаю, що мовна модель інтерпретує прогнози кермування, гальмування та дросельної заслінки моделі керування водінням словами, а не впливає на саме водіння, оскільки природна мова втратить необхідну точність».

«Завдяки такому підходу ми дуже наближаємось до AGI».

«Ви можете думати про це як про додавання мови до світової моделі. Я ніколи не розумію, чому це ніколи не пробували раніше, тому що ідея навчити агента спілкуватися, здається, є чимось, що може прийти в голову кожному».

"Цей перехід від чистої перцептивної дії до додавання текстових міркувань змінює правила гри! На мій погляд, це відсутня частина автономного водіння, оскільки вона робить можливим інтерпретацію нетехнічним способом".

В даний час інтеграція навчання роботів і природної мови все ще знаходиться на початковій стадії.

LINGO-1 офіційно зробив важливий крок у використанні природної мови для покращення вивчення та інтерпретації основних моделей водіння.

Уявіть собі, у майбутньому нам потрібно буде лише використовувати прості текстові підказки, щоб попросити штучний інтелект розповісти про дорожні умови попереду або дозволити штучному інтелекту вивчати правила дорожнього руху в різних регіонах. Ця сцена така захоплююча!

Тому природна мова має великий потенціал для розробки безпечніших і надійніших самокерованих автомобілів.

Література:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити