Михаю и Фудань выпустили, с восприятием, мозгом, действием большой языковой модели «агента»

Первоисточник: AIGC Open Community

Источник изображения: Generated by Unbounded AI

Большие языковые модели, такие как ChatGPT, демонстрируют беспрецедентные творческие возможности, но они все еще далеки от AGI (General Artificial Intelligence) и лишены антропоморфных возможностей, таких как автономное принятие решений, хранение памяти и планирование.

Для того, чтобы исследовать эволюцию больших языковых моделей до AGI и эволюционировать в суперискусственный интеллект, превосходящий человеческий, Михаю и исследовательская группа Fudan NLP совместно выпустили «агентную» статью, основанную на больших языковых моделях. Поместите агентов с тремя функциями восприятия, мозга и действия в экспериментальную среду, такую как текстовые игры и игры-песочницы, чтобы они могли двигаться самостоятельно.

Результаты показывают, что эти агенты обладают антропоморфными способностями, такими как автономное восприятие, планирование, принятие решений и коммуникация, например, когда окружающая среда становится сложной и трудной, агенты автоматически корректируют свои стратегии и действия; В среде социальной симуляции агент проявляет антропоморфные эмоции, такие как эмпатия; Когда два странных агента просто общаются, они запоминают друг друга.

Эта техническая структура похожа на эксперименты по моделированию игр с ИИ-агентами, выпущенные ранее Стэнфордским университетом и Университетом Цинхуа, которые основаны на больших языковых моделях для создания более мощных роботов с искусственным интеллектом, что сыграло свою роль в содействии развитию отрасли.

Адрес доклада:

На Github:

Согласно документу, агент в основном состоит из трех модулей: восприятия, принятия решений и контроля, и исполнения, которое воспринимает окружающую среду, принимает разумные решения, а затем выполняет определенные действия.

Модуль восприятия

Модуль восприятия используется для получения различной информации из окружающей среды, эквивалентной органам чувств человека. Он может содержать множество датчиков для получения различных типов данных, например, камера получает информацию об изображении, микрофон получает голосовую информацию и т. д.

Модуль восприятия предварительно обрабатывает эти необработанные данные и преобразует их в цифровое представление, которое агент может понять для последующих модулей. К часто используемым датчикам восприятия относятся:

Датчики изображения: камеры, RGB-D камеры и т.д., используемые для получения визуальной информации.

Датчик звука: микрофон, получение звуковой информации, такой как голос и окружающий звук.

Датчики положения: GPS, INS (инерциальная навигационная система) и т.д., чтобы знать положение самого агента.

Тактильные датчики: тактильная матрица, тактильные перчатки и т. д. для получения тактильной обратной связи при соприкосновении объектов.

Датчики температуры, влажности, атмосферного давления и другие датчики окружающей среды для получения информации о параметрах окружающей среды.

Модулю восприятия необходимо предварительно обработать необработанные данные, например, шумоподавление изображения, шумоподавление, преобразование формата и т. д., чтобы сгенерировать нормализованные данные, которые могут быть использованы последующими модулями. В то же время модуль восприятия также может выполнять извлечение признаков, например, извлечение визуальных признаков, таких как края, текстуры и целевые области, из изображений.

Модуль принятия решений и управления**

Этот модуль является «мозгом» агента, обрабатывающим, анализирующим и принимающим соответствующие решения на основе данных, полученных модулем восприятия. Его можно подразделить на следующие подмодули:

База знаний/память: хранит все виды предшествующих знаний, опыта, а также наблюдений, опыта и другой информации во время выполнения.

Рассуждение/планирование: Проанализируйте текущую обстановку и разработайте план действий в соответствии с поставленной задачей. Например, планирование пути, планирование последовательности действий и т. д.

Принятие решений: принятие оптимальных решений, основанных на текущем состоянии окружающей среды, знаниях и результатах рассуждений.

Управление: преобразование результата решения в управляющие инструкции и передача команд выполнения модулю выполнения.

Проектирование модуля принятия решений и управления является ключом к агентной технологии. Раннее использование логики и основанных на правилах символьных методов, методов глубокого обучения стало мейнстримом в последние годы. Входными данными модуля являются различные типы данных, получаемых путем восприятия, а выходными данными являются управляющие инструкции модуля выполнения.

## Модуль выполнения

Модуль выполнения получает управляющие инструкции и переводит их в конкретные формы взаимодействия с окружающей средой для достижения соответствующей задачи. Она эквивалентна «конечностям» человека. Привод подключается к «эффектору» агента и приводит в действие эффектор для изменения окружающей среды в соответствии с командой управления. К основным эффекторам относятся:

Приводы движения: роботизированные манипуляторы, шасси робота и т.д., для изменения положения самого агента или выполнения операций с объектами.

Вывод речи/текста: синтезаторы речи, дисплеи и т. д. для взаимодействия с окружающей средой в речи или тексте.

Интерфейс работы с инструментом/оборудованием: управление различными устройствами и инструментами, а также расширение возможностей агента по работе в окружающей среде.

Специфика исполнения модуля связана с физической формой агента. Например, сервисному агенту нужен только текстовый или голосовой интерфейс, в то время как робот должен подключаться и точно управлять кинематикой. Точность и отказоустойчивость выполнения являются ключом к успеху миссии.

В тестовом эксперименте исследователи в основном проводили три типа экспериментов: задачи, инновации и управление жизненным циклом для наблюдения за работой агента в различных средах.

Эксперимент с заданием

Исследователи создали две симуляционные среды, текстовые игры и жизненные сценарии, чтобы проверить способность агентов выполнять повседневные задачи. Текстовые игровые среды используют естественный язык для описания виртуального мира, и агенты должны читать текстовые описания, чтобы воспринимать свое окружение и предпринимать действия.

Симуляции жизненных сцен более реалистичны и сложны, и агенты должны использовать здравый смысл, чтобы лучше понимать команды, такие как активное включение света, когда в комнате темно.

Экспериментальные результаты показывают, что агенты могут использовать свои мощные возможности генерации понимания текста для эффективной декомпозиции сложных задач, составления планов и взаимодействия с динамически изменяющимися средами в этих смоделированных средах для достижения заранее определенных целей.

Инновационный эксперимент

Исследователи изучили потенциал агентов в специализированных областях, таких как научные инновации. Из-за проблем нехватки данных и трудностей в понимании специализированных знаний в этих областях, исследователи протестировали решения, чтобы снабдить агентов различными общими или специализированными инструментами, чтобы улучшить их понимание сложных знаний предметной области.

Эксперименты показывают, что агент может использовать поисковые системы, графы знаний и другие инструменты для проведения онлайн-исследований, а также взаимодействовать с научными приборами и оборудованием для выполнения практических операций, таких как синтез материалов. Это делает его перспективным помощником для научных инноваций.

Эксперимент жизненного цикла

Исследователи использовали игру с открытым миром Minecraft, чтобы проверить способность агента постоянно учиться и выживать. Агенты начинают с самых простых действий, таких как добыча древесины и изготовление верстаков, постепенно исследуя неизведанные условия и приобретая более сложные навыки выживания.

В эксперименте интеллектуальный орган используется для высокоуровневого планирования и может постоянно корректировать стратегию в соответствии с обратной связью с окружающей средой**. Результаты показывают, что агент может развивать навыки в условиях полной автономии, постоянно адаптироваться к новым условиям и демонстрировать сильные возможности управления жизненным циклом.

Кроме того, с точки зрения социального моделирования, исследователи изучили, проявляют ли агенты личность и социальное поведение, а также протестировали различные условия окружающей среды. Результаты показывают, что агенты могут демонстрировать определенные уровни когнитивных способностей, эмоций и личностных черт. В смоделированном обществе между агентами происходит спонтанная социальная активность и групповое поведение.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить