Тянь Юаньдун облив холодною водою таємничий проєкт Q* від OpenAI: синтетичні дані не є рятівником AGI, а можливості обмежуються простими математичними завданнями

Джерело: Новий Чжиюань

Джерело зображення: Створено Unbounded AI

Обговорення гіпотези Q триває, і сьогодні гуру штучного інтелекту Тянь Юаньдун публічно заявив, що Q* може розв'язувати лише математичні задачі початкового рівня, а AGI також, ймовірно, не вдасться досягти за допомогою синтетичних даних.

Гіпотеза Q* продовжує залишатися популярною в спільноті штучного інтелекту.

Всі розмірковують, чи є Q* "Q-learning + A*".

Гуру штучного інтелекту Фучіто Тянь також детально проаналізував, наскільки ймовірна гіпотеза «Q*=Q-навчання+A*».

У той же час все більше людей судять про те, що синтетичні дані - це майбутнє LLM.

Однак Тянь Юаньдун облив цю заяву холодною водою.

Я частково не згоден з твердженням, що AGI можна вирішити, просто збільшивши масштаб синтетичних даних.
Пошук є потужним, оскільки, якщо середовище спроектоване належним чином, воно створить нескінченну кількість нових шаблонів, які моделі можуть вивчати та адаптувати до них.
Однак питання про те, чи потрібні мільярди даних для вивчення такої нової моделі, залишається відкритим питанням, яке може вказувати на деякі фундаментальні недоліки нашої парадигми архітектури/навчання.
На противагу цьому, людям часто легше відкривати нові парадигми через момент «ага».

Джим Фан, старший науковий співробітник NVIDIA, погоджується, що синтетичні дані відіграватимуть важливу роль, але простого сліпого масштабування буде недостатньо для досягнення AGI.

Q*=Q-навчання+A, наскільки це ймовірно

Тянь Юаньдун сказав, що, виходячи з його минулого досвіду роботи з OpenGo (репродукцією AlphaZero), A* можна розглядати як детерміновану версію MCTS лише зі значенням (тобто евристичною) функцією Q.

А* добре підходить для завдань, де стан легко оцінити після заданої дії, але дію важко передбачити після заданого стану. Яскравим прикладом цього є математична задача.

Го, навпаки, зовсім інша історія: наступного кандидата відносно легко передбачити (просто перевіривши місцеву форму), але набагато складніше оцінити ситуацію на дошці.

Ось чому у нас також є досить потужні боти Go, але вони використовують лише стратегічні мережі.

Для LLM використання Q(s,a) може мати додаткову перевагу, оскільки оцінка Q(s,a) може вимагати лише попередньої популяції, тоді як прогнозна стратегія a = pi(s) вимагає авторегресійної вибірки, яка є набагато повільнішою. Крім того, у разі використання лише декодера, кеш KV s може бути спільним для кількох операцій.

Легендарний Q*, який вже зробив серйозний стрибок у розв'язанні математичних задач, наскільки це ймовірно?

Тянь Юаньдун сказав, що його припущення полягає в тому, що функцію значень має бути відносно легко налаштувати через розв'язувану математичну задачу початкового рівня (наприклад, її можна передбачити за цільовою специфікацією у вигляді природної мови).

Якщо ви хочете розв'язати складну математичну задачу і не знаєте, як це зробити, такого підходу може бути недостатньо.

Лекун ретвітнув дискусію Тіана і погодився з його точкою зору: «Він пояснив різницю в застосовності між A* (пошук найкоротшого шляху в графі) і MCTS (пошук в експоненціально зростаючому дереві). 」

Щодо ретвіту Лекуна, Тянь Юаньдун сказав, що він робив багато різних речей, включаючи планування, розуміння трансформаторів/LLM та ефективних методів оптимізації, сподіваючись об'єднати ці технології.

Деякі користувачі мережі висловили скептицизм, сказавши: «Для того, щоб A* була дійсною, потрібна доказова, прийнятна та послідовна евристична функція. Але я дуже сумніваюся, що хтось зможе придумати таку функцію, тому що визначити значення підпослідовності непросто. 」

Навіть якщо ви розв'яжете задачу з математики в початковій школі, Q* очікується високим

Кожен, хто хоч трохи знає про великі моделі, знає, що здатність розв'язувати базові математичні задачі означає, що здатність моделі робити це є серйозним стрибком уперед.

Це пов'язано з тим, що великим моделям важко узагальнити поза навченими даними.

Чарльз Хіггінс, співзасновник стартапу з навчання штучному інтелекту Tromero, сказав, що ключова проблема, яка зараз переслідує великі моделі, полягає в тому, як логічно міркувати про абстрактні поняття, і якщо цей крок буде досягнуто, це, безсумнівно, буде серйозним стрибком.

Математика вивчає символічні міркування, наприклад, якщо X більше Y, а Y більше Z, то X більше Z.

Якщо Q* справді є Q-learning+A*, це показує, що нова модель OpenAI може поєднувати технологію глибокого навчання з підтримкою ChatGPT із правилами людського програмування. І цей метод може допомогти вирішити галюцинаторну головоломку LLM.

За словами співавторки Tromero Софії Калановської, це має дуже важливе символічне значення, але на практичному рівні навряд чи покладе край світу.

Так чому ж ходять чутки, що "Q* вже з'явився в прототипі AGI"?

Калановська стверджує, що, згідно з сучасними твердженнями, Q* здатний поєднувати дві сторони мозку і розуміти речі з досвіду, розмірковуючи про факти.

Очевидно, що це на крок ближче до нашого визнаного інтелекту, адже Q*, швидше за все, дасть нові ідеї великим моделям, чого не може зробити ChatGPT.

Найбільшим обмеженням існуючих моделей є те, що вони можуть лише відригувати інформацію з навчальних даних, але не можуть міркувати та розробляти нові ідеї.

Вирішення невидимої проблеми є ключовим кроком у створенні AGI.

Ендрю Рогойскі, директор Інституту штучного інтелекту в Центрі людства Суррея, сказав, що великі моделі, які існують сьогодні, можуть виконувати математичні завдання рівня бакалаврату, але коли справа доходить до більш просунутих математичних задач, всі вони зазнають невдачі.

Але якщо LLM дійсно здатні розв'язувати нові, невидимі задачі, це велика справа, навіть якщо математичні задачі відносно прості.

Синтетичні дані – ключ до майбутнього LLM?

Отже, чи є синтетичні дані королем?

Вибух Q* викликав багато спекуляцій серед великих гравців, і вони припускають, що, за чутками, «величезні обчислювальні ресурси, які дозволяють новій моделі вирішувати певні математичні проблеми», можуть бути RLAIF (навчання з підкріпленням на основі зворотного зв'язку ШІ).

RLAIF — це технологія, яка замінює уподобання щодо тегування людиною з готових LLM, роблячи операції вирівнювання з LLM більш масштабованими за рахунок автоматизації зворотного зв'язку з людьми.

RLHF (Reinforcement Learning Based on Human Feedback), який раніше блищав у навчанні LLM, може ефективно узгоджувати великі мовні моделі з уподобаннями людини, але збір високоякісних ярликів людських уподобань є ключовим вузьким місцем.

В результаті такі компанії, як Anthropic і Google, спробували звернутися до RLAIF, використовуючи штучний інтелект для заміни людей в процесі навчання зворотного зв'язку.

Це означає, що синтетичні дані є головними, і використання деревоподібної структури дає все більше і більше можливостей для того, щоб потім прийти до правильної відповіді.

Не так давно Джим Фан написав у Твіттері, що синтетичні дані забезпечать наступний трильйон високоякісних навчальних даних.

«Б'юся об заклад, що більшість серйозних груп LLM знають про це. Ключове питання – як зберегти якість і уникнути передчасного застою. 」

Джим Фан також цитує статтю Річарда С. Саттона «Гіркий урок», щоб проілюструвати, що існує лише дві парадигми розвитку штучного інтелекту, які можна нескінченно масштабувати за допомогою обчислень: навчання та пошук.

«Це було правдою в 2019 році на момент написання цієї статті, і це правда сьогодні, я б'юся об заклад, до того дня, коли ми розв'яжемо AGI. 」

Річард С. Саттон є членом Королівського товариства Канади та Королівського товариства, і він вважається одним із засновників сучасного навчання з обчислювальним підкріпленням, зробивши кілька значних внесків у цю галузь, включаючи навчання різниці в часі та методи стратегічного градієнта.

У цій статті Саттон наголошує на таких моментах:

Загальний підхід, який використовує обчислення, в кінцевому підсумку є найбільш ефективним і результативним. Але причиною цього є закон Мура, а точніше через безперервне експоненціальне зниження вартості одиниці обчислень.

Спочатку дослідники працювали над тим, щоб уникнути пошуку, використовуючи людські знання або спеціальні функції гри, які здавалися б неактуальними, коли пошук був ефективно застосований у великих масштабах.

В черговий раз статистичні методи здобули перемогу над методами, заснованими на людських знаннях, що призвело до значних змін у всій області обробки природної мови, де статистика і обчислення поступово стали домінуючими протягом десятиліть.

Дослідники штучного інтелекту часто намагаються вбудувати знання в системи, що може бути корисним у короткостроковій перспективі, але може перешкодити подальшому прогресу в довгостроковій перспективі.

Прориви в кінцевому підсумку будуть досягнуті за допомогою підходу, заснованого на пошуку та навчанні.

Фактичний зміст розуму надзвичайно складний, і ми повинні припинити спроби знайти прості способи представлення думок, а замість цього ми повинні будувати тільки мета-методи, які можуть знайти і зафіксувати цю довільну складність.

  • Таким чином, схоже, що Q* зрозумів суть проблеми (пошук і навчання), і синтетичні дані дозволять йому в подальшому прорватися через обмеження минулого і зробити власний стрибок.

Щодо синтетичних даних, Маск також сказав, що люди справді не можуть перемогти машини.

«Ви можете помістити текст кожної книги, написаної людиною, на жорсткий диск (зітхання), і синтетичні дані будуть набагато більшими. 」

У зв'язку з цим Джим Фан поспілкувався з Маском і сказав:

«Якщо ми зможемо змоделювати їх у великих масштабах, багато синтетичних даних надходитиме від втілених агентів, таких як Tesla Optimus. 」

Джим Фан вважає, що RLAIF, або RLAIF від groundtruth feedback, матиме велике значення, якщо його правильно масштабувати. Крім того, синтетичні дані включають симулятори, які в принципі можуть допомогти LLM розробляти світові моделі.

"В ідеалі вона нескінченна. Але занепокоєння полягає в тому, що якщо цикл самовдосконалення недостатньо ефективний, він ризикує зупинитися. 」

З приводу співу і гармонії цих двох Лекун сказав, що йому є що сказати:

Лекун вважає, що тварини і люди швидко стають дуже розумними з дуже малою кількістю даних про навчання.

Таким чином, використання більшої кількості даних (синтетичних або несинтетичних) є тимчасовим заходом, просто тому, що наш нинішній підхід має обмеження.

У зв'язку з цим користувачі мережі, які підтримують "фракцію великих даних", висловили своє невдоволення:

«Хіба мільйони років еволюційної адаптації не повинні нагадувати попереднє навчання, а наш життєвий досвід — безперервне доопрацювання?»

Потім Лекун навів приклад, щоб пояснити, що єдиним засобом, який використовується людьми для продовження результатів мільйонів років еволюції, є гени, а обсяг даних у геномі людини дуже малий, всього 800 МБ.

Навіть невеликий 7B LLM вимагає 14 ГБ пам'яті, що насправді не так вже й багато даних у геномі людини.

Крім того, різниця між геномами шимпанзе та людини становить близько 1% (8 МБ). Цієї невеликої різниці зовсім недостатньо, щоб пояснити різницю в здібностях між людьми і шимпанзе.

Коли справа доходить до обсягу вивчених даних, 2-річна дитина бачить дуже невелику кількість візуальних даних, з приблизно 32 мільйонами секунд (2x365x12x3600) всього свого навчального часу.

У людини 2 мільйони оптичних нервових волокон, і кожне нервове волокно передає близько 10 байт в секунду. - Це загалом 6E14 байт.

На противагу цьому, навчання LLM зазвичай має обсяг даних 1E13 tokens, що становить близько 2E13 байт. Таким чином, 2-річна дитина отримує всього в 30 разів більше даних, ніж LLM.

Незалежно від аргументів великих хлопців, великі технологічні компанії, такі як Google, Anthropic, Cohere тощо, використовують нагляд за процесами або методи, подібні до RLAIF, для створення попередньо навчених наборів даних, які коштують величезних ресурсів.

Таким чином, всім зрозуміло, що синтетичні дані – це найкоротший шлях до розширення набору даних. У короткостроковій перспективі ми, очевидно, можемо використовувати його для створення деяких корисних даних.

Але чи це шлях у майбутнє? Доведеться дочекатися відповіді.

Ресурси:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити