Тянь Юаньдун (Tian Yuandong) вылил холодную воду на таинственный проект OpenAI Q*: синтетические данные не являются спасителем AGI, а его возможности ограничены простыми математическими задачами
Обсуждение Q-гипотезы продолжается, и сегодня гуру искусственного интеллекта Тянь Юаньдун публично заявил, что Q* может решать только математические задачи начального уровня, а AGI также, вероятно, не может быть достигнут с помощью синтетических данных.
Гипотеза Q* продолжает оставаться популярной в сообществе ИИ.
Все рассуждают о том, является ли Q* «Q-learning + A*».
В то же время все больше и больше людей считают, что синтетические данные — это будущее LLM.
Однако Тянь Юаньдун опроверг это заявление.
Я частично не согласен с утверждением, что ОИИ можно решить, просто увеличив масштаб синтетических данных.
Поиск является мощным инструментом, поскольку, если среда спроектирована правильно, он будет создавать бесконечное количество новых шаблонов, которые модели будут изучать и адаптировать к ним.
Тем не менее, вопрос о том, нужны ли миллиарды данных для обучения такой новой модели, остается открытым, что может указывать на некоторые фундаментальные недостатки в нашей парадигме архитектуры/обучения.
Напротив, людям часто легче открывать новые парадигмы через момент «ага».
Джим Фан (Jim Fan), старший научный сотрудник NVIDIA, согласен с тем, что синтетические данные будут играть важную роль, но простого слепого масштабирования их будет недостаточно для достижения AGI.
Q*=Q-обучение+A, насколько это вероятно
Тянь Юаньдун (Tian Yuandong) сказал, что, основываясь на своем прошлом опыте работы с OpenGo (воспроизведение AlphaZero), A* можно рассматривать как детерминированную версию MCTS только со значением (т.е. эвристической) функцией Q.
A* хорошо подходит для задач, где состояние легко оценить после данного действия, но действие трудно предсказать после заданного состояния. Ярким примером этого является математическая задача.
Го, напротив, совсем другая история: следующего кандидата относительно легко предсказать (просто проверив местную форму), но гораздо сложнее оценить ситуацию на доске.
Вот почему у нас также есть довольно мощные боты для Го, но они используют только стратегические сети.
Для LLM может быть дополнительное преимущество использования Q(s,a), поскольку для оценки Q(s,a) может потребоваться только предварительная выборка, в то время как прогностическая стратегия a = pi(s) требует авторегрессионной выборки, которая работает намного медленнее. Кроме того, в случае использования только декодера, кэш KV s может быть разделен между несколькими операциями.
Легендарный Q*, который уже сделал большой скачок вперед в решении математических задач, насколько это вероятно?
Тянь Юаньдун сказал, что, по его мнению, функция значения должна быть относительно проста в настройке из-за решаемой математической задачи начального уровня (например, она может быть предсказана на основе целевой спецификации в форме естественного языка).
Если вы хотите решить сложную математическую задачу и не знаете, как это сделать, этого подхода может быть недостаточно.
Лекун ретвитнул дискуссию Тяня и согласился с его точкой зрения: «Он объяснил разницу в применимости между A* (поиск кратчайшего пути в графе) и MCTS (поиск в экспоненциально растущем дереве). 」
Что касается ретвита Лекуна, Тянь Юаньдун сказал, что он делал много разных вещей, включая планирование, понимание трансформеров/LLM и эффективные методы оптимизации, надеясь объединить эти технологии.
Некоторые пользователи сети выразили скептицизм, заявив: «Для того, чтобы A была валидной, необходима доказуемая, приемлемая и последовательная эвристическая функция. Но я очень сомневаюсь, что кто-то сможет придумать такую функцию, потому что определить значение подпоследовательности непросто. 」
Даже если вы решаете математическую задачу в начальной школе, ожидается, что Q* будет высоким
Любой, кто хоть немного знаком с большими моделями, знает, что способность решать базовые математические задачи означает, что способность модели делать это является большим скачком вперед.
Это связано с тем, что большим моделям трудно обобщать за пределами обученных данных.
Чарльз Хиггинс, соучредитель стартапа по обучению искусственному интеллекту Tromero, сказал, что ключевая проблема, которая сейчас преследует большие модели, заключается в том, как логически рассуждать об абстрактных концепциях, и если этот шаг будет достигнут, это, несомненно, станет большим скачком.
Математика изучает символическое мышление, например, если X больше Y и Y больше Z, то X больше Z.
Если Q* действительно Q-learning+A*, это показывает, что новая модель OpenAI может сочетать технологию глубокого обучения с поддержкой ChatGPT с правилами программирования человеком. И этот метод может помочь решить галлюцинаторную головоломку LLM.
По словам соавтора Tromero Софии Калановской, это имеет очень важное символическое значение, но на практическом уровне это вряд ли приведет к концу света.
Так почему же ходят слухи, что "Q* уже появился в прототипе AGI"?
Калановская утверждает, что, согласно современным утверждениям, Q* способен объединять два полушария мозга и понимать вещи на основе опыта, рассуждая о фактах.
Очевидно, что это на один шаг ближе к нашему признанному интеллекту, потому что Q*, вероятно, даст новые идеи большим моделям, чего не может сделать ChatGPT.
Самым большим ограничением существующих моделей является то, что они могут только отрыгивать информацию из обучающих данных, но не могут рассуждать и развивать новые идеи.
Решение невидимой проблемы является ключевым шагом в создании AGI.
Эндрю Рогойски, директор Института искусственного интеллекта в Суррейском центре гуманитарных наук, сказал, что большие модели, которые существуют сегодня, могут решать математические задачи на уровне бакалавриата, но когда дело доходит до более сложных математических задач, все они терпят неудачу.
Но если магистры права действительно способны решать новые, невидимые задачи, это большое дело, даже если математические задачи относительно просты.
Синтетические данные — ключ к будущему LLM?
Итак, являются ли синтетические данные королем?
Взрыв Q* вызвал много спекуляций среди влиятельных людей, и они предполагают, что слухи об «огромных вычислительных ресурсах, которые позволяют новой модели решать определенные математические задачи», могут быть RLAIF (обучение с подкреплением на основе обратной связи ИИ).
RLAIF — это технология, которая заменяет предпочтения по маркировке человеком из готовых LLM, делая операции выравнивания с LLM более масштабируемыми за счет автоматизации обратной связи с человеком.
RLHF (Reinforcement Learning Based on Human Feedback), который ранее блистал в обучении LLM, может эффективно согласовывать большие языковые модели с предпочтениями человека, но сбор высококачественных меток человеческих предпочтений является ключевым узким местом.
В результате такие компании, как Anthropic и Google, попытались обратиться к RLAIF, используя ИИ для замены людей в процессе обучения обратной связи.
Это означает, что синтетические данные являются королем, и использование древовидной структуры предоставляет все больше и больше возможностей для получения правильного ответа.
Не так давно Джим Фан написал в Твиттере, что синтетические данные обеспечат следующий триллион высококачественных обучающих данных.
«Держу пари, что большинство серьезных групп LLM знают об этом. Ключевой вопрос – как сохранить качество и избежать преждевременной стагнации. 」
Джим Фан также цитирует статью Ричарда С. Саттона «Горький урок», чтобы проиллюстрировать, что в развитии ИИ есть только две парадигмы, которые можно бесконечно масштабировать с помощью вычислений: обучение и поиск.
«Это было верно в 2019 году, когда я писал эту статью, и это верно сегодня, держу пари, до того дня, когда мы решим проблему AGI. 」
Ричард С. Саттон является членом Королевского общества Канады и Королевского общества, и он считается одним из основателей современного вычислительного обучения с подкреплением, внеся несколько значительных вкладов в эту область, включая обучение с разницей во времени и методы стратегического градиента.
В этой статье Саттон обращает внимание на следующее:
Общий подход, использующий вычислительные ресурсы, в конечном итоге является наиболее эффективным и действенным. Но причиной тому является закон Мура, а точнее из-за непрерывного экспоненциального снижения стоимости единицы вычислительной техники.
Первоначально исследователи работали над тем, чтобы избежать поиска, используя человеческие знания или особые возможности игры, которые казались бы несущественными, если бы поиск был эффективно применен в больших масштабах.
В очередной раз статистические методы одержали победу над методами, основанными на человеческих знаниях, что привело к значительным изменениям во всей области обработки естественного языка, где статистика и вычисления постепенно стали доминирующими на протяжении десятилетий.
Исследователи ИИ часто пытаются встроить знания в системы, что может быть полезно в краткосрочной перспективе, но может препятствовать дальнейшему прогрессу в долгосрочной перспективе.
Прорывы, в конечном счете, будут достигнуты благодаря подходу, основанному на поиске и обучении.
Реальное содержание ума чрезвычайно сложно, и мы должны перестать пытаться найти простые способы представления мыслей, а вместо этого мы должны создавать только мета-методы, которые могут найти и уловить эту произвольную сложность.
Таким образом, похоже, что Q* понял суть проблемы (поиск и обучение), и синтетические данные позволят ему в дальнейшем преодолеть ограничения прошлого и совершить свой собственный скачок.
Что касается синтетических данных, Маск также сказал, что люди действительно не могут победить машины.
«Вы можете поместить текст каждой книги, написанной человеком, на жесткий диск (вздох), и синтетические данные будут намного больше. 」
В связи с этим Джим Фан пообщался с Маском и сказал:
«Если мы сможем смоделировать их в больших масштабах, многие синтетические данные будут получены от воплощенных агентов, таких как Tesla Optimus. 」
Джим Фан (Jim Fan) считает, что RLAIF, или RLAIF из отзывов groundtruth, будет иметь большое значение при правильном масштабировании. Кроме того, синтетические данные включают в себя симуляторы, которые в принципе могут помочь магистрам права разрабатывать мировые модели.
«В идеале она бесконечна. Но проблема заключается в том, что если цикл самосовершенствования недостаточно эффективен, он рискует застопориться. 」
Что касается пения и гармонии этих двоих, Лекун сказал, что ему есть что сказать:
Лекун считает, что животные и люди быстро становятся очень умными при очень малом количестве обучающих данных.
Таким образом, использование большего количества данных (синтетических или несинтетических) является временной мерой, просто потому, что наш текущий подход имеет ограничения.
В связи с этим пользователи сети, поддерживающие «фракцию больших данных», выразили свое недовольство:
«Разве миллионы лет эволюционной адаптации не должны напоминать предварительную тренировку, а наш жизненный опыт — непрерывную тонкую настройку?»
Затем Лекун привел пример, объясняющий, что единственным средством, используемым людьми для сохранения результатов миллионов лет эволюции, являются гены, а количество данных в геноме человека очень мало, всего 800 МБ.
Даже небольшой 7B LLM требует 14 ГБ памяти, что на самом деле не так много данных в геноме человека.
Кроме того, разница между геномами шимпанзе и человека составляет около 1% (8MB). Этого небольшого различия совсем не достаточно, чтобы объяснить разницу в способностях между людьми и шимпанзе.
Когда дело доходит до объема усвоенных данных, двухлетний ребенок видит очень небольшое количество визуальных данных, на которое уходит около 32 миллионов секунд (2x365x12x3600) всего времени обучения.
У человека 2 миллиона оптических нервных волокон, и каждое нервное волокно передает около 10 байт в секунду. - Итого 6E14 байт.
В отличие от этого, при обучении LLM объем данных обычно составляет 1E13 токенов, что составляет около 2E13 байт. Таким образом, двухлетний ребенок получает в 30 раз больше данных, чем магистр права.
Независимо от аргументов крупных компаний, крупные технологические компании, такие как Google, Anthropic, Cohere и т.д., используют контроль процессов или методы, подобные RLAIF, для создания предварительно обученных наборов данных, которые стоят огромных ресурсов.
Таким образом, всем ясно, что синтетические данные — это кратчайший путь к расширению набора данных. Очевидно, что в краткосрочной перспективе мы можем использовать его для создания некоторых полезных данных.
Но разве это путь в будущее? Придется подождать ответа.
Ресурсы:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Тянь Юаньдун (Tian Yuandong) вылил холодную воду на таинственный проект OpenAI Q*: синтетические данные не являются спасителем AGI, а его возможности ограничены простыми математическими задачами
Источник: New Zhiyuan
Гипотеза Q* продолжает оставаться популярной в сообществе ИИ.
Все рассуждают о том, является ли Q* «Q-learning + A*».
Гуру искусственного интеллекта Фучито Тянь также подробно проанализировал, насколько вероятна гипотеза «Q*=Q-обучение+A*».
В то же время все больше и больше людей считают, что синтетические данные — это будущее LLM.
Однако Тянь Юаньдун опроверг это заявление.
Q*=Q-обучение+A, насколько это вероятно
Тянь Юаньдун (Tian Yuandong) сказал, что, основываясь на своем прошлом опыте работы с OpenGo (воспроизведение AlphaZero), A* можно рассматривать как детерминированную версию MCTS только со значением (т.е. эвристической) функцией Q.
Го, напротив, совсем другая история: следующего кандидата относительно легко предсказать (просто проверив местную форму), но гораздо сложнее оценить ситуацию на доске.
Вот почему у нас также есть довольно мощные боты для Го, но они используют только стратегические сети.
Легендарный Q*, который уже сделал большой скачок вперед в решении математических задач, насколько это вероятно?
Тянь Юаньдун сказал, что, по его мнению, функция значения должна быть относительно проста в настройке из-за решаемой математической задачи начального уровня (например, она может быть предсказана на основе целевой спецификации в форме естественного языка).
Если вы хотите решить сложную математическую задачу и не знаете, как это сделать, этого подхода может быть недостаточно.
Некоторые пользователи сети выразили скептицизм, заявив: «Для того, чтобы A была валидной, необходима доказуемая, приемлемая и последовательная эвристическая функция. Но я очень сомневаюсь, что кто-то сможет придумать такую функцию, потому что определить значение подпоследовательности непросто. 」
Даже если вы решаете математическую задачу в начальной школе, ожидается, что Q* будет высоким
Любой, кто хоть немного знаком с большими моделями, знает, что способность решать базовые математические задачи означает, что способность модели делать это является большим скачком вперед.
Это связано с тем, что большим моделям трудно обобщать за пределами обученных данных.
Чарльз Хиггинс, соучредитель стартапа по обучению искусственному интеллекту Tromero, сказал, что ключевая проблема, которая сейчас преследует большие модели, заключается в том, как логически рассуждать об абстрактных концепциях, и если этот шаг будет достигнут, это, несомненно, станет большим скачком.
Математика изучает символическое мышление, например, если X больше Y и Y больше Z, то X больше Z.
По словам соавтора Tromero Софии Калановской, это имеет очень важное символическое значение, но на практическом уровне это вряд ли приведет к концу света.
Так почему же ходят слухи, что "Q* уже появился в прототипе AGI"?
Калановская утверждает, что, согласно современным утверждениям, Q* способен объединять два полушария мозга и понимать вещи на основе опыта, рассуждая о фактах.
Самым большим ограничением существующих моделей является то, что они могут только отрыгивать информацию из обучающих данных, но не могут рассуждать и развивать новые идеи.
Решение невидимой проблемы является ключевым шагом в создании AGI.
Но если магистры права действительно способны решать новые, невидимые задачи, это большое дело, даже если математические задачи относительно просты.
Синтетические данные — ключ к будущему LLM?
Итак, являются ли синтетические данные королем?
Взрыв Q* вызвал много спекуляций среди влиятельных людей, и они предполагают, что слухи об «огромных вычислительных ресурсах, которые позволяют новой модели решать определенные математические задачи», могут быть RLAIF (обучение с подкреплением на основе обратной связи ИИ).
RLAIF — это технология, которая заменяет предпочтения по маркировке человеком из готовых LLM, делая операции выравнивания с LLM более масштабируемыми за счет автоматизации обратной связи с человеком.
Это означает, что синтетические данные являются королем, и использование древовидной структуры предоставляет все больше и больше возможностей для получения правильного ответа.
Не так давно Джим Фан написал в Твиттере, что синтетические данные обеспечат следующий триллион высококачественных обучающих данных.
Джим Фан также цитирует статью Ричарда С. Саттона «Горький урок», чтобы проиллюстрировать, что в развитии ИИ есть только две парадигмы, которые можно бесконечно масштабировать с помощью вычислений: обучение и поиск.
«Это было верно в 2019 году, когда я писал эту статью, и это верно сегодня, держу пари, до того дня, когда мы решим проблему AGI. 」
Ричард С. Саттон является членом Королевского общества Канады и Королевского общества, и он считается одним из основателей современного вычислительного обучения с подкреплением, внеся несколько значительных вкладов в эту область, включая обучение с разницей во времени и методы стратегического градиента.
Общий подход, использующий вычислительные ресурсы, в конечном итоге является наиболее эффективным и действенным. Но причиной тому является закон Мура, а точнее из-за непрерывного экспоненциального снижения стоимости единицы вычислительной техники.
Первоначально исследователи работали над тем, чтобы избежать поиска, используя человеческие знания или особые возможности игры, которые казались бы несущественными, если бы поиск был эффективно применен в больших масштабах.
В очередной раз статистические методы одержали победу над методами, основанными на человеческих знаниях, что привело к значительным изменениям во всей области обработки естественного языка, где статистика и вычисления постепенно стали доминирующими на протяжении десятилетий.
Исследователи ИИ часто пытаются встроить знания в системы, что может быть полезно в краткосрочной перспективе, но может препятствовать дальнейшему прогрессу в долгосрочной перспективе.
Прорывы, в конечном счете, будут достигнуты благодаря подходу, основанному на поиске и обучении.
Реальное содержание ума чрезвычайно сложно, и мы должны перестать пытаться найти простые способы представления мыслей, а вместо этого мы должны создавать только мета-методы, которые могут найти и уловить эту произвольную сложность.
Что касается синтетических данных, Маск также сказал, что люди действительно не могут победить машины.
В связи с этим Джим Фан пообщался с Маском и сказал:
Джим Фан (Jim Fan) считает, что RLAIF, или RLAIF из отзывов groundtruth, будет иметь большое значение при правильном масштабировании. Кроме того, синтетические данные включают в себя симуляторы, которые в принципе могут помочь магистрам права разрабатывать мировые модели.
Что касается пения и гармонии этих двоих, Лекун сказал, что ему есть что сказать:
Таким образом, использование большего количества данных (синтетических или несинтетических) является временной мерой, просто потому, что наш текущий подход имеет ограничения.
В связи с этим пользователи сети, поддерживающие «фракцию больших данных», выразили свое недовольство:
Затем Лекун привел пример, объясняющий, что единственным средством, используемым людьми для сохранения результатов миллионов лет эволюции, являются гены, а количество данных в геноме человека очень мало, всего 800 МБ.
Кроме того, разница между геномами шимпанзе и человека составляет около 1% (8MB). Этого небольшого различия совсем не достаточно, чтобы объяснить разницу в способностях между людьми и шимпанзе.
Когда дело доходит до объема усвоенных данных, двухлетний ребенок видит очень небольшое количество визуальных данных, на которое уходит около 32 миллионов секунд (2x365x12x3600) всего времени обучения.
У человека 2 миллиона оптических нервных волокон, и каждое нервное волокно передает около 10 байт в секунду. - Итого 6E14 байт.
В отличие от этого, при обучении LLM объем данных обычно составляет 1E13 токенов, что составляет около 2E13 байт. Таким образом, двухлетний ребенок получает в 30 раз больше данных, чем магистр права.
Независимо от аргументов крупных компаний, крупные технологические компании, такие как Google, Anthropic, Cohere и т.д., используют контроль процессов или методы, подобные RLAIF, для создания предварительно обученных наборов данных, которые стоят огромных ресурсов.
Таким образом, всем ясно, что синтетические данные — это кратчайший путь к расширению набора данных. Очевидно, что в краткосрочной перспективе мы можем использовать его для создания некоторых полезных данных.
Но разве это путь в будущее? Придется подождать ответа.
Ресурсы: