Некоторое время назад Google DeepMind предложил новый метод «Step-Backing», который непосредственно сделал технологию открытой.
Проще говоря, она заключается в том, чтобы позволить большой языковой модели абстрагироваться от проблемы, получить понятие или принцип более высокой размерности, а затем использовать абстрактное знание в качестве инструмента для рассуждения и получения ответа на проблему.
Адрес:
Результаты также были очень хорошими, так как они экспериментировали с моделью PaLM-2L и доказали, что эта новая техника очень хорошо справляется с определенными задачами и проблемами.
Например, MMLU имеет улучшение физических и химических характеристик на 7%, улучшение TimeQA на 27% и улучшение MuSiQue на 7%.
Среди них MMLU — это крупномасштабный многозадачный тестовый набор данных для понимания языка, TimeOA — чувствительный ко времени набор тестовых вопросов, а MusiQue — набор данных вопросов и ответов с несколькими переходами, содержащий 25 000 вопросов с 2-4 переходами.
Среди них многоскачковая задача относится к вопросу, на который можно ответить, только используя путь вывода с несколькими переходами, сформированный несколькими тройками.
Ниже рассмотрим, как реализована эта технология.
Отвали!
Прочитав вступление в начале, читатели могут не слишком его понять. Что значит для магистров права абстрагироваться от проблемы и получить концепцию или принцип более высокого измерения?
Возьмем конкретный пример.
Например, если пользователь хочет задать вопрос, связанный с «силой» в физике, то при ответе на такой вопрос магистр права может вернуться на уровень базового определения и принципа силы, что может быть использовано в качестве основы для дальнейших рассуждений об ответе.
Исходя из этой идеи, когда пользователь впервые заходит, это примерно так:
Теперь вы являетесь экспертом в мировом знании, умеете тщательно мыслить и шаг за шагом отвечать на вопросы с помощью стратегии обратного вопрошания.
Отступление назад — это стратегия мышления, направленная на понимание и анализ конкретной проблемы или ситуации с более макро, фундаментальной точки зрения. Таким образом, лучше отвечая на первоначальный вопрос.
Конечно, приведенный выше пример с физикой иллюстрирует только один случай. В некоторых случаях стратегия отступления может позволить магистру права попытаться определить масштаб и контекст проблемы. Какие-то проблемы отступают чуть больше, а какие-то падают меньше.
Тезис
Во-первых, исследователи отмечают, что область обработки естественного языка (NLP) произвела революцию с помощью LLM на базе Transformer.
Увеличение размера модели и увеличение предварительно обученного корпуса привело к значительному улучшению возможностей модели и эффективности выборки, а также к появлению новых возможностей, таких как многоступенчатый вывод и следование инструкциям.
На рисунке выше показана мощь обратного мышления, а метод «абстрактного рассуждения», предложенный в этой статье, значительно улучшил различные сложные задачи, требующие сложных рассуждений, таких как наука, технология, инженерия и математика, а также многоскачковые рассуждения.
Некоторые задачи были очень сложными, и поначалу PaLM-2L и GPT-4 были точны только на 40% в TimeQA и MuSiQue. После применения обратных рассуждений производительность PaLM-2L улучшилась по всем направлениям. Он улучшился на 7% и 11% по физике и химии MMLU, на 27% по TimeQA и на 7% по MuSiQue.
Кроме того, исследователи также провели анализ ошибок и обнаружили, что большинство ошибок, возникающих при применении обратных рассуждений, связаны с неотъемлемыми ограничениями способности LLM к логическому выводу и не связаны с новыми технологиями.
Абстракцию легче освоить магистрам права, поэтому она указывает путь к дальнейшему развитию обратного мышления.
Несмотря на достигнутый прогресс, сложное многоступенчатое рассуждение может оказаться сложной задачей. Это справедливо даже для самых продвинутых магистров права.
В данной работе показано, что наблюдение за процессом с функцией пошаговой верификации является эффективным средством повышения правильности промежуточных шагов рассуждения.
Они внедрили такие методы, как подсказки Chain-of-Thought, для создания последовательной последовательности промежуточных шагов вывода, повышая вероятность успешного следования правильному пути декодирования.
Говоря о происхождении этой технологии PROMP, исследователи отметили, что, сталкиваясь со сложными задачами, люди склонны делать шаг назад и абстрагироваться, чтобы получить высокоуровневые концепции и принципы, которыми можно руководствоваться в процессе рассуждений.
В верхней части рисунка выше, взяв в качестве примера физику средней школы MMLU, с помощью обратной абстракции LLM получает первый принцип закона идеального газа.
Во второй половине есть пример из TimeQA, где высокоуровневая концепция истории образования является результатом абстракции LLM, основанной на этой стратегии.
Из левой части всей диаграммы видно, что PaLM-2L не смог ответить на первоначальный вопрос. Цепочка мыслей указывает на то, что в середине шага рассуждения магистр права допустил ошибку (выделена красным цветом).
А справа ПаЛМ-2Л, с применением обратной технологии, успешно ответил на вопрос.
Среди множества когнитивных способностей абстрактное мышление повсеместно используется для способности человека обрабатывать большие объемы информации и выводить общие правила и принципы.
Например, Кеплер объединил тысячи измерений в три закона движения планет Кеплера, которые точно описывают орбиты планет вокруг Солнца.
Или, при принятии критически важных решений, люди также находят абстракцию полезной, потому что она обеспечивает более широкий взгляд на окружающую среду.
Основное внимание в этой статье уделяется тому, как магистры права могут справляться со сложными задачами, включающими множество низкоуровневых деталей, с помощью двухэтапного подхода, состоящего из абстракции и рассуждений.
Первый шаг состоит в том, чтобы научить магистров права делать шаг назад и выводить высокоуровневые, абстрактные понятия из конкретных примеров, таких как основополагающие концепции и первые принципы в предметной области.
Второй шаг заключается в том, чтобы использовать навыки рассуждения, чтобы основывать решение на высокоуровневых концепциях и первых принципах.
Исследователи использовали небольшое количество примеров на LLM для выполнения обратного вывода. Они экспериментировали с серией задач, связанных с рассуждениями в предметной области, решением проблем, требующих многоступенчатых рассуждений, основанных на здравом смысле, которые требовали фактических знаний.
Результаты показывают, что производительность PaLM-2L значительно улучшена (до 27%), что доказывает, что обратный вывод очень эффективен при решении сложных задач.
В ходе экспериментов исследователи экспериментировали со следующими различными видами задач:
(1)СТВОЛ
(2) Контроль качества знаний
(3) Многоскачковое рассуждение
Исследователи оценили применение в STEM-задачах, чтобы измерить эффективность нового подхода в рассуждении в узкоспециализированных областях. (В этой статье будут рассмотрены только такие вопросы)
Очевидно, что проблема в бенчмарке MMLU требует более глубоких рассуждений со стороны LLM. Кроме того, они требуют понимания и применения формул, которые часто являются физическими и химическими принципами и концепциями.
В этом случае исследователь сначала учит абстрагироваться от модели в виде понятий и первых принципов, таких как первый закон движения Ньютона, эффект Доплера и свободная энергия Гиббса. Здесь подразумевается вопрос: «Каковы физические или химические принципы и понятия, задействованные в решении этой задачи?»
Команда провела демонстрации, которые научили модель запоминать принципы решения задач на основе собственных знаний.
В приведенной выше таблице показана производительность модели, использующей технику обратного вывода, и LLM с новой технологией хорошо показала себя в задачах STEM, достигнув самого продвинутого уровня за пределами GPT-4.
Приведенная выше таблица является примером небольшого количества выборок и демонстрирует надежную производительность при различных размерах выборки.
Во-первых, как видно из приведенного выше графика, обратный вывод очень устойчив к небольшому числу примеров, используемых в качестве демонстраций.
В дополнение к одному примеру, то же самое будет верно и для добавления других примеров.
Это говорит о том, что задача поиска соответствующих принципов и концепций относительно проста для изучения, и достаточно демонстрационного примера.
Конечно, в ходе эксперимента все равно возникнут некоторые проблемы.
Пять типов ошибок, которые встречаются во всех работах, за исключением принципиальных ошибок, встречаются на этапе рассуждения LLM, в то время как принципиальные ошибки указывают на неудачу на этапе абстракции.
Как вы можете видеть в правой части рисунка ниже, принципиальные ошибки на самом деле составляют лишь небольшую часть ошибок модели, причем более 90% ошибок происходят на этапе вывода. Из четырех типов ошибок в процессе рассуждения ошибки рассуждений и математические ошибки являются основными местами, где находятся ошибки.
Это согласуется с выводами исследований абляции, согласно которым требуется всего несколько примеров, чтобы научить магистров права абстрагироваться. Шаг вывода по-прежнему является узким местом для обратного вывода для выполнения задач, требующих сложного вывода, таких как MMLU.
Это особенно верно для MMLU Physics, где рассуждения и математические навыки являются ключом к успешному решению задач. Это означает, что даже если магистр права правильно извлекает первые принципы, он все равно должен пройти через типичный многоступенчатый процесс рассуждения, чтобы прийти к правильному окончательному ответу, что требует от магистра права глубоких рассуждений и математических навыков.
Затем исследователи оценили модель на тестовом наборе TimeQA.
Как показано на рисунке ниже, базовые модели GPT-4 и PaLM-2L достигли 45,6% и 41,5% соответственно, что подчеркивает сложность задачи.
CoT или TDB применялись ноль раз (и один раз) к базовой модели без каких-либо улучшений.
В отличие от этого, точность базовой модели, усиленная регулярным извлечением (RAG), увеличилась до 57,4%, что подчеркивает фактоемкий характер задачи.
Результаты Step-Back + RAG показывают, что шаг LLM назад к расширенным концепциям очень эффективен в обратном выводе, что делает канал поиска LLM более надежным, и мы видим, что TimeQA имеет поразительную точность 68,7%.
Далее исследователи разделили TimeQA на два уровня сложности: легкий и сложный, предоставленный в исходном наборе данных.
Неудивительно, что все магистры права плохо справляются со сложным уровнем. В то время как RAG смог повысить точность с 42,6% до 67,8% на легком уровне, улучшение было гораздо меньшим на сложном уровне, и данные показали только увеличение с 40,4% до 46,8%.
И здесь на помощь приходит техника обратного рассуждения, поскольку она извлекает факты о концепциях более высокого уровня и закладывает основу для окончательного рассуждения.
Обратное рассуждение плюс RAG еще больше повысили точность до 62,3%, превзойдя 42,6% GPT-4.
Конечно, с этой технологией все еще есть некоторые проблемы, когда дело доходит до TimeQA.
На рисунке ниже показана точность LLM в этой части эксперимента и вероятность возникновения ошибки справа.
Ресурсы:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Точность LLM взлетает на 27%! Google DeepMind предлагает новую технологию подсказок «шаг назад»
Первоисточник: New Zhiyuan
Некоторое время назад Google DeepMind предложил новый метод «Step-Backing», который непосредственно сделал технологию открытой.
Проще говоря, она заключается в том, чтобы позволить большой языковой модели абстрагироваться от проблемы, получить понятие или принцип более высокой размерности, а затем использовать абстрактное знание в качестве инструмента для рассуждения и получения ответа на проблему.
Результаты также были очень хорошими, так как они экспериментировали с моделью PaLM-2L и доказали, что эта новая техника очень хорошо справляется с определенными задачами и проблемами.
Например, MMLU имеет улучшение физических и химических характеристик на 7%, улучшение TimeQA на 27% и улучшение MuSiQue на 7%.
Среди них MMLU — это крупномасштабный многозадачный тестовый набор данных для понимания языка, TimeOA — чувствительный ко времени набор тестовых вопросов, а MusiQue — набор данных вопросов и ответов с несколькими переходами, содержащий 25 000 вопросов с 2-4 переходами.
Среди них многоскачковая задача относится к вопросу, на который можно ответить, только используя путь вывода с несколькими переходами, сформированный несколькими тройками.
Ниже рассмотрим, как реализована эта технология.
Отвали!
Прочитав вступление в начале, читатели могут не слишком его понять. Что значит для магистров права абстрагироваться от проблемы и получить концепцию или принцип более высокого измерения?
Возьмем конкретный пример.
Например, если пользователь хочет задать вопрос, связанный с «силой» в физике, то при ответе на такой вопрос магистр права может вернуться на уровень базового определения и принципа силы, что может быть использовано в качестве основы для дальнейших рассуждений об ответе.
Исходя из этой идеи, когда пользователь впервые заходит, это примерно так:
Теперь вы являетесь экспертом в мировом знании, умеете тщательно мыслить и шаг за шагом отвечать на вопросы с помощью стратегии обратного вопрошания.
Отступление назад — это стратегия мышления, направленная на понимание и анализ конкретной проблемы или ситуации с более макро, фундаментальной точки зрения. Таким образом, лучше отвечая на первоначальный вопрос.
Конечно, приведенный выше пример с физикой иллюстрирует только один случай. В некоторых случаях стратегия отступления может позволить магистру права попытаться определить масштаб и контекст проблемы. Какие-то проблемы отступают чуть больше, а какие-то падают меньше.
Тезис
Во-первых, исследователи отмечают, что область обработки естественного языка (NLP) произвела революцию с помощью LLM на базе Transformer.
Увеличение размера модели и увеличение предварительно обученного корпуса привело к значительному улучшению возможностей модели и эффективности выборки, а также к появлению новых возможностей, таких как многоступенчатый вывод и следование инструкциям.
Некоторые задачи были очень сложными, и поначалу PaLM-2L и GPT-4 были точны только на 40% в TimeQA и MuSiQue. После применения обратных рассуждений производительность PaLM-2L улучшилась по всем направлениям. Он улучшился на 7% и 11% по физике и химии MMLU, на 27% по TimeQA и на 7% по MuSiQue.
Кроме того, исследователи также провели анализ ошибок и обнаружили, что большинство ошибок, возникающих при применении обратных рассуждений, связаны с неотъемлемыми ограничениями способности LLM к логическому выводу и не связаны с новыми технологиями.
Абстракцию легче освоить магистрам права, поэтому она указывает путь к дальнейшему развитию обратного мышления.
Несмотря на достигнутый прогресс, сложное многоступенчатое рассуждение может оказаться сложной задачей. Это справедливо даже для самых продвинутых магистров права.
В данной работе показано, что наблюдение за процессом с функцией пошаговой верификации является эффективным средством повышения правильности промежуточных шагов рассуждения.
Они внедрили такие методы, как подсказки Chain-of-Thought, для создания последовательной последовательности промежуточных шагов вывода, повышая вероятность успешного следования правильному пути декодирования.
Говоря о происхождении этой технологии PROMP, исследователи отметили, что, сталкиваясь со сложными задачами, люди склонны делать шаг назад и абстрагироваться, чтобы получить высокоуровневые концепции и принципы, которыми можно руководствоваться в процессе рассуждений.
Во второй половине есть пример из TimeQA, где высокоуровневая концепция истории образования является результатом абстракции LLM, основанной на этой стратегии.
Из левой части всей диаграммы видно, что PaLM-2L не смог ответить на первоначальный вопрос. Цепочка мыслей указывает на то, что в середине шага рассуждения магистр права допустил ошибку (выделена красным цветом).
А справа ПаЛМ-2Л, с применением обратной технологии, успешно ответил на вопрос.
Среди множества когнитивных способностей абстрактное мышление повсеместно используется для способности человека обрабатывать большие объемы информации и выводить общие правила и принципы.
Например, Кеплер объединил тысячи измерений в три закона движения планет Кеплера, которые точно описывают орбиты планет вокруг Солнца.
Или, при принятии критически важных решений, люди также находят абстракцию полезной, потому что она обеспечивает более широкий взгляд на окружающую среду.
Основное внимание в этой статье уделяется тому, как магистры права могут справляться со сложными задачами, включающими множество низкоуровневых деталей, с помощью двухэтапного подхода, состоящего из абстракции и рассуждений.
Первый шаг состоит в том, чтобы научить магистров права делать шаг назад и выводить высокоуровневые, абстрактные понятия из конкретных примеров, таких как основополагающие концепции и первые принципы в предметной области.
Второй шаг заключается в том, чтобы использовать навыки рассуждения, чтобы основывать решение на высокоуровневых концепциях и первых принципах.
Исследователи использовали небольшое количество примеров на LLM для выполнения обратного вывода. Они экспериментировали с серией задач, связанных с рассуждениями в предметной области, решением проблем, требующих многоступенчатых рассуждений, основанных на здравом смысле, которые требовали фактических знаний.
Результаты показывают, что производительность PaLM-2L значительно улучшена (до 27%), что доказывает, что обратный вывод очень эффективен при решении сложных задач.
В ходе экспериментов исследователи экспериментировали со следующими различными видами задач:
(1)СТВОЛ
(2) Контроль качества знаний
(3) Многоскачковое рассуждение
Исследователи оценили применение в STEM-задачах, чтобы измерить эффективность нового подхода в рассуждении в узкоспециализированных областях. (В этой статье будут рассмотрены только такие вопросы)
Очевидно, что проблема в бенчмарке MMLU требует более глубоких рассуждений со стороны LLM. Кроме того, они требуют понимания и применения формул, которые часто являются физическими и химическими принципами и концепциями.
В этом случае исследователь сначала учит абстрагироваться от модели в виде понятий и первых принципов, таких как первый закон движения Ньютона, эффект Доплера и свободная энергия Гиббса. Здесь подразумевается вопрос: «Каковы физические или химические принципы и понятия, задействованные в решении этой задачи?»
Команда провела демонстрации, которые научили модель запоминать принципы решения задач на основе собственных знаний.
Во-первых, как видно из приведенного выше графика, обратный вывод очень устойчив к небольшому числу примеров, используемых в качестве демонстраций.
В дополнение к одному примеру, то же самое будет верно и для добавления других примеров.
Это говорит о том, что задача поиска соответствующих принципов и концепций относительно проста для изучения, и достаточно демонстрационного примера.
Конечно, в ходе эксперимента все равно возникнут некоторые проблемы.
Пять типов ошибок, которые встречаются во всех работах, за исключением принципиальных ошибок, встречаются на этапе рассуждения LLM, в то время как принципиальные ошибки указывают на неудачу на этапе абстракции.
Как вы можете видеть в правой части рисунка ниже, принципиальные ошибки на самом деле составляют лишь небольшую часть ошибок модели, причем более 90% ошибок происходят на этапе вывода. Из четырех типов ошибок в процессе рассуждения ошибки рассуждений и математические ошибки являются основными местами, где находятся ошибки.
Это согласуется с выводами исследований абляции, согласно которым требуется всего несколько примеров, чтобы научить магистров права абстрагироваться. Шаг вывода по-прежнему является узким местом для обратного вывода для выполнения задач, требующих сложного вывода, таких как MMLU.
Это особенно верно для MMLU Physics, где рассуждения и математические навыки являются ключом к успешному решению задач. Это означает, что даже если магистр права правильно извлекает первые принципы, он все равно должен пройти через типичный многоступенчатый процесс рассуждения, чтобы прийти к правильному окончательному ответу, что требует от магистра права глубоких рассуждений и математических навыков.
Как показано на рисунке ниже, базовые модели GPT-4 и PaLM-2L достигли 45,6% и 41,5% соответственно, что подчеркивает сложность задачи.
CoT или TDB применялись ноль раз (и один раз) к базовой модели без каких-либо улучшений.
В отличие от этого, точность базовой модели, усиленная регулярным извлечением (RAG), увеличилась до 57,4%, что подчеркивает фактоемкий характер задачи.
Результаты Step-Back + RAG показывают, что шаг LLM назад к расширенным концепциям очень эффективен в обратном выводе, что делает канал поиска LLM более надежным, и мы видим, что TimeQA имеет поразительную точность 68,7%.
Далее исследователи разделили TimeQA на два уровня сложности: легкий и сложный, предоставленный в исходном наборе данных.
Неудивительно, что все магистры права плохо справляются со сложным уровнем. В то время как RAG смог повысить точность с 42,6% до 67,8% на легком уровне, улучшение было гораздо меньшим на сложном уровне, и данные показали только увеличение с 40,4% до 46,8%.
И здесь на помощь приходит техника обратного рассуждения, поскольку она извлекает факты о концепциях более высокого уровня и закладывает основу для окончательного рассуждения.
Обратное рассуждение плюс RAG еще больше повысили точность до 62,3%, превзойдя 42,6% GPT-4.
На рисунке ниже показана точность LLM в этой части эксперимента и вероятность возникновения ошибки справа.