Команда Fudan NLP випустила 80-сторінковий огляд широкомасштабних модельних агентів, у якому представлено огляд поточної ситуації та майбутнього агентів ШІ в одній статті
Нещодавно команда обробки природної мови Університету Фудань (FudanNLP) опублікувала оглядову статтю про агентів на базі LLM. Повний текст містить 86 сторінок і містить понад 600 посилань! Починаючи з історії агентів штучного інтелекту, автори всебічно відсортували поточний статус інтелектуальних агентів на основі великих мовних моделей, включаючи: передісторію, склад, сценарії застосування агентів на базі LLM і багато обговорюване суспільство агентів**. Водночас автори обговорили перспективні та відкриті питання, пов’язані з Agent, які мають велике значення для майбутніх тенденцій розвитку суміжних сфер.
* Папір посилання:
Список паперів агента на базі LLM:
**Члени команди також додадуть «резюме одним реченням» до кожного відповідного документа, ласкаво просимо на склад Star. **
Дослідження
Довгий час дослідники шукали загальний штучний інтелект (AGI), який еквівалентний або навіть перевищує людський рівень. Ще в 1950-х роках Алан Тюрінг поширив поняття «інтелекту» на штучні істоти і запропонував знаменитий тест Тюрінга. Ці об’єкти штучного інтелекту часто називають агентами. Поняття «агент» походить із філософії та описує сутність, яка має бажання, переконання, наміри та здатність діяти. У сфері штучного інтелекту цей термін отримав нове значення: інтелектуальні сутності з характеристиками автономності, реактивності, позитивності та комунікабельності.
**Немає єдиної думки щодо китайського перекладу терміна «Агент». Деякі вчені перекладають його як «агент», «актор», «агент» або «розумний агент». «Агент» і «інтелектуальний агент», які входять у цю статтю, стосуються агента. *
Відтоді розробка агентів була в центрі уваги спільноти штучного інтелекту. Однак минула робота в основному була зосереджена на вдосконаленні конкретних здібностей агентів, таких як символічне міркування або майстерність виконання конкретних завдань (шахи, Го тощо). Ці дослідження більше зосереджуються на розробці алгоритмів і стратегіях навчання, ігноруючи при цьому розвиток властивих загальних можливостей моделі, таких як пам’ять знань, довгострокове планування, ефективне узагальнення та ефективна взаємодія. Виявляється, що **розширення властивих можливостей моделі є ключовим фактором у сприянні подальшому розвитку інтелектуальних агентів. **
Поява великих мовних моделей (LLM) дає надію на подальший розвиток інтелектуальних агентів. Якщо шлях розвитку від NLP до AGI розділити на п’ять рівнів: корпус, Інтернет, сприйняття, втілення та соціальні атрибути, то поточна широкомасштабна модель мови досягла другого рівня з введенням і виведенням тексту в масштабі Інтернету. Виходячи з цього, якщо агентам, які базуються на LLM, буде надано простір сприйняття та простір дій, вони досягнуть третього та четвертого рівнів. Крім того, коли кілька агентів взаємодіють і співпрацюють для вирішення більш складних завдань або відображають соціальну поведінку в реальному світі, вони мають потенціал досягти п’ятого рівня – суспільства агентів.
*Автори уявляють собі гармонійне суспільство розумних агентів, у якому можуть брати участь і люди. Сцена взята з фестивалю морських ліхтариків у «Genshin Impact». *
Народження агента
Як би виглядав інтелектуальний агент, який підтримується великою моделлю? Натхненні законом Дарвіна про «виживання найпристосованішого», автори запропонували загальну структуру для розумних агентів на основі великих моделей. Якщо людина хоче вижити в суспільстві, вона повинна навчитися пристосовуватися до середовища, тому їй необхідно мати когнітивні здібності та вміти сприймати та реагувати на зміни зовнішнього світу. Подібним чином структура інтелектуальних агентів також складається з трьох частин: **Термінал керування (Мозок), термінал сприйняття (Perception) і термінал дії (Action). **
Контрольний термінал: зазвичай складається з LLM, він є ядром інтелектуальних агентів. Він може не тільки зберігати пам’ять і знання, але й виконувати такі незамінні функції, як обробка інформації та прийняття рішень. Він може представити процес міркування та планування та добре справлятися з невідомими завданнями, відображаючи узагальнення та можливість передачі інтелектуальних агентів.
Кінець сприйняття: розширте простір сприйняття інтелектуального агента від чистого тексту до мультимодальних полів, таких як текст, зір і слух, щоб агент міг отримувати та використовувати інформацію з навколишнього середовища більш ефективно.
Мобільний термінал: крім звичайного виведення тексту, агенту також надається можливість втілюватися та використовувати інструменти, щоб він міг краще адаптуватися до змін навколишнього середовища, взаємодіяти з середовищем через зворотний зв’язок і навіть формувати навколишнє середовище.
Концептуальна основа агента на базі LLM складається з трьох компонентів: контрольна сторона (Brain), сприйняття (Perception) і діюча частина (Action).
Автори використовують приклад, щоб проілюструвати робочий процес агента на базі LLM: коли людина запитує, чи буде дощ, кінець сприйняття (Perception) перетворює інструкцію на представлення, яке можуть зрозуміти LLM. Потім термінал керування (Brain) починає міркувати та планувати дії на основі поточної погоди та прогнозів погоди в Інтернеті. Нарешті Дія відповідає і передає парасолю людині.
Повторюючи описаний вище процес, інтелектуальний агент може постійно отримувати зворотний зв’язок і взаємодіяти з навколишнім середовищем.
Термінал керування: Brain
Як основний компонент інтелектуального агента, автори представляють його можливості з п’яти аспектів:
**Взаємодія природної мови: **Мова є засобом спілкування та містить багато інформації. Завдяки потужній генерації природної мови та можливостям розуміння LLM, інтелектуальні агенти можуть взаємодіяти із зовнішнім світом протягом кількох раундів за допомогою природної мови для досягнення своїх цілей. Зокрема, його можна розділити на два аспекти:
Генерація високоякісного тексту: Велика кількість експериментів з оцінювання показує, що магістратури можуть генерувати плавний, різноманітний, новий і контрольований текст. Незважаючи на низьку успішність з окремих мов, загалом є хороші багатомовні навички.
Розуміння змісту: окрім інтуїтивно вираженого змісту, мова також може передавати таку інформацію, як наміри та вподобання мовця. Це означає, що це допомагає агентам спілкуватися та співпрацювати ефективніше, і великі моделі вже продемонстрували потенціал у цьому відношенні.
Знання: Магістратури, які навчаються на основі великих пакетів корпусів, мають здатність зберігати величезні обсяги знань. На додаток до знання мови, знання здорового глузду та знання професійних навичок є важливими компонентами LLM-агентів.
Незважаючи на те, що самі магістри права все ще мають такі проблеми, як прострочені знання та галюцинації, деякі існуючі дослідження можуть певною мірою полегшити їх за допомогою редагування знань або виклику зовнішніх баз знань.
Пам’ять: У рамках цієї статті модуль пам’яті (Memory) зберігає минулі спостереження, думки та послідовності дій агента. За допомогою спеціальних механізмів пам’яті агенти можуть ефективно обдумувати та застосовувати попередні стратегії, що дозволяє їм спиратися на минулий досвід для адаптації до незнайомого середовища.
Для покращення пам’яті зазвичай використовують три методи:
Розширення обмеження довжини архітектури магістралі: покращення внутрішньої проблеми обмеження довжини послідовності Transformers.
Підведення підсумків: підсумуйте пам’ять, щоб покращити здатність агента витягувати ключові деталі з пам’яті.
Стиснення: ефективність пошуку пам’яті можна покращити за допомогою векторів або відповідних структур даних для стиснення пам’яті.
Крім того, важливий також метод пошуку пам’яті.Тільки шляхом отримання відповідного вмісту агент може отримати доступ до найбільш актуальної та точної інформації.
Міркування та планування: Здатність міркувати (Reasoning) є надзвичайно важливою для розумних агентів для виконання складних завдань, таких як прийняття рішень і аналіз. Специфічний для LLM, це ряд методів підказок, представлених ланцюгом думок (CoT). Планування — це стратегія, яка зазвичай використовується під час вирішення великих завдань. Це допомагає агентам організувати своє мислення, поставити цілі та визначити кроки для досягнення цих цілей. У конкретній реалізації планування може включати два етапи:
Формулювання плану: агент розбиває складні завдання на більш керовані підзадачі. Наприклад: одноразова декомпозиція, а потім послідовне виконання, поетапне планування та виконання, багатошляхове планування та вибір оптимального шляху тощо. У деяких сценаріях, які вимагають професійних знань, агентів можна інтегрувати з модулями Planner у певних сферах, щоб розширити можливості.
Рефлексія плану: після створення плану ви можете обміркувати його та оцінити його сильні та слабкі сторони. Цей вид рефлексії зазвичай відбувається з трьох аспектів: використання внутрішніх механізмів зворотного зв’язку; отримання зворотного зв’язку від взаємодії з людьми; отримання зворотного зв’язку від оточення.
**Можливість передавання та узагальнення: **Програми LLM зі знанням світу наділяють інтелектуальних агентів потужними можливостями міграції та узагальнення. Хороший агент не є статичною базою знань, але також має можливості динамічного навчання:
Узагальнення для невідомих завдань: зі збільшенням розміру моделі та навчальних даних LLM розвинули дивовижні можливості для вирішення невідомих завдань. Велика модель, налаштована за допомогою інструкцій, показала хороші результати в тесті з нульовим ударом, досягнувши таких же результатів, як і експертні моделі, у багатьох завданнях.
Навчання в контексті: великі моделі не тільки здатні навчатися за аналогією з невеликої кількості прикладів у контексті, але цю здатність також можна розширити до мультимодальних сцен поза текстом, надаючи агентам більше можливостей для застосування в реальний світ. Багато можливостей.
Безперервне навчання: головною проблемою безперервного навчання є катастрофічне забування, тобто коли модель вивчає нове завдання, вона легко втрачає знання в минулих завданнях. Розумні агенти в спеціалізованих областях повинні намагатися уникати втрати знань у загальних областях.
Кінець сприйняття: Сприйняття
Люди сприймають світ мультимодальним способом, тому дослідники мають такі самі очікування щодо агентів на базі LLM. Мультимодальне сприйняття може поглибити розуміння агентом робочого середовища та значно покращити його універсальність.
Введення тексту: Я не буду вдаватися в подробиці, тому що це найпростіша здатність магістра права.
**Візуальне введення:**Самі LLM не мають можливостей візуального сприйняття й можуть розуміти лише окремий текстовий вміст. Візуальний вхід зазвичай містить багато інформації про світ, включаючи властивості об’єктів, просторові відносини, розташування сцени тощо. Загальні методи:
Перетворення візуального введення у відповідний текстовий опис (субтитри до зображень): це може бути безпосередньо зрозуміло магістрами та має високу інтерпретацію.
Кодування та представлення візуальної інформації: модуль сприйняття складається з парадигми візуальної базової моделі + LLM, і модель може розуміти зміст різних модальностей за допомогою операцій вирівнювання, які можна навчити наскрізним способом.
Слуховий вхід: Слух також є важливою частиною людського сприйняття. Оскільки LLM мають чудові можливості виклику інструментів, інтуїтивно зрозуміла ідея полягає в тому, що агент може використовувати LLM як центр керування, викликаючи наявні набори інструментів або експертні моделі каскадним способом для сприйняття звукової інформації. Крім того, аудіо також можна візуально представити за допомогою спектрограми. Спектрограми можна використовувати як плоскі зображення для відображення 2D інформації, тому деякі методи візуальної обробки можна перенести в мовне поле.
Інші вхідні дані: Інформація в реальному світі містить набагато більше, ніж просто текст, зір і слух. Автори сподіваються, що в майбутньому інтелектуальні агенти будуть оснащені більш багатими модулями сприйняття, такими як дотик, нюх та інші органи, щоб отримати більш багаті атрибути цільових об'єктів. У той же час агенти також можуть чітко відчувати температуру, вологість і освітленість навколишнього середовища та виконувати дії, що відповідають навколишньому середовищу.
Крім того, агента також можна ознайомити зі сприйняттям ширшого загального середовища: за допомогою модулів зрілого сприйняття, таких як лідар, GPS та інерціальні вимірювальні пристрої.
Мобільний термінал: Дія
Після того, як мозок зробить аналіз і прийме рішення, агент також повинен вжити заходів для адаптації або зміни середовища:
Вивід тексту: Я не буду вдаватися в подробиці, оскільки це найпростіша здатність магістра права.
**Використання інструментів:**Хоча LLM мають чудові запаси знань і професійні здібності, коли стикаються з конкретними проблемами, може виникнути ряд проблем, таких як проблеми з надійністю та галюцинації. У той же час інструменти, як розширення можливостей користувача, можуть надати допомогу в таких аспектах, як професіоналізм, фактичність і можливість інтерпретації. Наприклад, ви можете використовувати калькулятор для вирішення математичних завдань і пошукову систему для пошуку інформації в реальному часі.
Крім того, інструменти також можуть розширити простір дій інтелектуальних агентів. Наприклад, мультимодальні дії можна отримати шляхом виклику експертних моделей, таких як генерація мови та генерація зображень. Тому дуже важливим і перспективним напрямком є те, як змусити агентів стати чудовими користувачами інструментів, тобто навчитися ефективно користуватися інструментами.
В даний час основні методи інструментального навчання включають навчання на основі демонстрацій і навчання на основі зворотного зв'язку. Крім того, метанавчання, курсове навчання тощо також можна використовувати для надання агентам можливостей узагальнення у використанні різних інструментів. Ідучи ще далі, розумні агенти можуть навчитися робити інструменти «самодостатніми», тим самим збільшуючи свою автономію та незалежність.
**Втілена дія: **Втілення відноситься до здатності агента розуміти, перетворювати середовище та оновлювати свій власний стан під час взаємодії з середовищем. Втілена дія розглядається як міст між віртуальним інтелектом і фізичною реальністю.
Традиційні агенти, засновані на навчанні з підкріпленням, мають обмеження в ефективності вибірки, узагальненні та складних міркуваннях про проблему, тоді як агенти на базі LLM впроваджують багаті внутрішні знання про великі моделі, що дозволяє втіленим агентам активно сприймати фізику та впливати на неї, як людське середовище. Залежно від ступеня автономності агента в завданні або складності Дії можуть бути наступні атомарні Дії:
Спостереження може допомогти інтелектуальним агентам знайти себе в навколишньому середовищі, сприйняти предмети та предмети та отримати іншу інформацію про навколишнє середовище;
Маніпуляція полягає у виконанні певних операцій, таких як захоплення та штовхання;
Навігація вимагає від інтелектуального агента змінити своє положення відповідно до мети завдання та оновити свій статус відповідно до інформації про навколишнє середовище.
Поєднуючи ці атомарні дії, агенти можуть виконувати більш складні завдання. Наприклад, втілені QA завдання на кшталт «Чи кавун на кухні більший за миску?» Щоб вирішити цю проблему, агент повинен піти на кухню та отримати відповідь, спостерігаючи за розміром обох.
Обмежені високою вартістю апаратного забезпечення фізичного світу та відсутністю втілених наборів даних, поточні дослідження втілених дій все ще в основному зосереджені на середовищах віртуальної пісочниці, таких як ігрова платформа «Minecraft». Тому, з одного боку, автори сподіваються на парадигму завдання та стандарт оцінки, які ближче до реальності, а з іншого боку, їм також потрібно більше досліджень щодо ефективної побудови відповідних наборів даних.
Агент на практиці: різноманітні сценарії застосування
В даний час агенти на базі LLM продемонстрували вражаючу різноманітність і потужну продуктивність. Знайомі приклади програм, такі як AutoGPT, MetaGPT, CAMEL і GPT Engineer, розвиваються з безпрецедентною швидкістю.
Перш ніж представити конкретні програми, автори обговорюють принципи розробки Agent in Practice:
Допомогти користувачам звільнитися від повсякденних завдань і повторюваної праці, зменшити робочий тиск і підвищити ефективність вирішення завдань;
Користувачам більше не потрібно видавати чіткі низькорівневі інструкції, вони можуть аналізувати, планувати та вирішувати проблеми абсолютно незалежно;
Звільнивши руки користувача, спробуйте звільнити мозок: повністю розкрийте свій потенціал у передових наукових галузях і завершіть інноваційну та дослідницьку роботу.
Виходячи з цього, застосування агентів може мати три парадигми:
*Три прикладні парадигми агента на базі LLM: один агент, багатоагент і взаємодія людини з комп’ютером. *
Сценарій з одним агентом
Інтелектуальні агенти, які можуть приймати команди природної мови людини та виконувати щоденні завдання, наразі віддають перевагу користувачам і мають високу практичну цінність. Автори спочатку детально розробили його різноманітні сценарії застосування та відповідні можливості в сценарії застосування одного інтелектуального агента.
У цій статті застосування одного інтелектуального агента поділяється на такі три рівні:
*Три рівні сценаріїв застосування з одним агентом: орієнтований на завдання, орієнтований на інновації та орієнтований на життєвий цикл. *
У розгортанні, орієнтованому на завдання, агент допомагає користувачам виконувати основні щоденні завдання. Вони повинні мати базове розуміння команд, декомпозицію завдань і здатність взаємодіяти з оточенням. Зокрема, відповідно до існуючих типів завдань фактичне застосування агентів можна розділити на змодельоване мережеве середовище та змодельоване життєве середовище.
У орієнтованому на інновації розгортанні агенти можуть продемонструвати потенціал незалежного дослідження в передових наукових галузях. Хоча притаманна складність і відсутність навчальних даних із спеціалізованих галузей перешкоджає створенню інтелектуальних агентів, уже є багато роботи, яка досягає прогресу в таких галузях, як хімія, матеріали, комп’ютери тощо.
У орієнтованому на життєвий цикл розгортанні агенти мають можливість постійно досліджувати, вивчати та використовувати нові навички у відкритому світі та виживати протягом тривалого часу. У цьому розділі автори беруть за приклад гру «Майнкрафт». Оскільки завдання на виживання в грі можна вважати мікросвітом реального світу, багато дослідників використовували його як унікальну платформу для розробки та тестування комплексних можливостей агентів.
Мультиагентний сценарій
Ще в 1986 році Марвін Мінскі зробив перспективний прогноз. У «Суспільстві розуму» він запропонував нову теорію інтелекту, стверджуючи, що інтелект виникає в результаті взаємодії багатьох дрібніших агентів, що виконують певні функції. Наприклад, деякі агенти можуть бути відповідальними за ідентифікацію шаблонів, тоді як інші можуть бути відповідальними за прийняття рішень або створення рішень.
Ця ідея була конкретно реалізована з появою розподіленого штучного інтелекту. Багатоагентні системи (Multi-Agent), як одне з основних питань дослідження, головним чином зосереджені на тому, як агенти можуть ефективно координувати та співпрацювати для вирішення проблем. Автор цієї статті поділяє взаємодію між кількома агентами на наступні дві форми:
*Дві форми взаємодії в багатоагентних прикладних сценаріях: кооперативна взаємодія та конфронтаційна взаємодія. *
Кооперативна взаємодія: як найпоширеніший тип у практичних застосуваннях, кооперативні системи агентів можуть ефективно підвищити ефективність завдань і спільно покращити прийняття рішень. Зокрема, за різними формами кооперації автори поділяють кооперативні взаємодії на невпорядковану та впорядковану кооперацію.
Коли всі агенти вільно висловлюють свої погляди та думки та співпрацюють у непослідовний спосіб, це називається невпорядкованою співпрацею.
Коли всі агенти дотримуються певних правил, наприклад, висловлюють свої думки один за одним у формі конвеєра, весь процес співпраці є впорядкованим, що називається впорядкованою співпрацею.
Супротивна взаємодія: Розумні агенти взаємодіють око за око. Завдяки конкуренції, переговорам і дебатам агенти відмовляються від своїх початкових, можливо, помилкових переконань і проводять значущі роздуми про свою власну поведінку або процес міркування, що в кінцевому підсумку призводить до покращення якості відповіді всієї системи.
Сценарій взаємодії людини з комп’ютером
Взаємодія людина-агент, як випливає з назви, — це інтелектуальний агент, який співпрацює з людьми для виконання завдань. З одного боку, здатність агента до динамічного навчання має підтримуватися комунікацією; з іншого боку, поточна агентська система все ще недостатня для інтерпретації та може мати проблеми з безпекою, законністю тощо, тому вимагає участі людини. та нагляд.
У статті автори поділяють взаємодію «людина-агент» на такі два режими:
*Два режими в сценаріях взаємодії людина-комп’ютер: режим «Інструктор-викладач» і режим «Рівного партнерства». *
Режим інструктор-викладач: люди діють як інструктори, надаючи інструкції та відгуки; агенти діють як виконавці, поступово налаштовуючи та оптимізуючи відповідно до інструкцій. Ця модель широко використовується в освіті, медицині, бізнесі та інших сферах.
Режим рівного партнерства: Деякі дослідження показали, що агенти можуть виявляти емпатію в спілкуванні з людьми або брати участь у виконанні завдань на рівних. Інтелектуальні агенти демонструють потенціал для застосування в повсякденному житті та, як очікується, будуть інтегровані в людське суспільство в майбутньому.
Суспільство агентів: від особистості до соціальності
Протягом тривалого часу дослідники мріяли побудувати «інтерактивне штучне суспільство». Від гри-пісочниці «The Sims» до «Metaverse», визначення симульованого суспільства людьми можна підсумувати як: середовище + люди, які живуть і взаємодіють у середовище .
У статті автори використовують діаграму для опису концептуальної основи агентського суспільства:
*Концептуальна основа агентського суспільства, розділеного на дві ключові частини: агентство та середовище. *
У цій структурі ми можемо побачити:
Лівий бічний розділ: На індивідуальному рівні агенти демонструють різні інтерналізовані поведінки, такі як планування, міркування та роздуми. Крім того, агенти демонструють внутрішні риси особистості, які охоплюють когнітивні, емоційні та особистісні виміри.
Середня частина: Один агент може сформувати групу з іншими окремими агентами, щоб спільно демонструвати групову поведінку, наприклад співпрацю, наприклад співпрацю.
Права частина: Середовище може бути у формі віртуальної пісочниці або реального фізичного світу. Елементи навколишнього середовища включають людей і різні доступні ресурси. Для одного агента інші агенти також є частиною середовища.
Загальна взаємодія: Агенти беруть активну участь у всьому процесі взаємодії, відчуваючи зовнішнє середовище та вживаючи дій.
Соціальна поведінка та особистість агентів
У статті розглядається дія агентів у суспільстві з точки зору зовнішньої поведінки та внутрішньої особистості:
Соціальна поведінка. З соціальної точки зору поведінку можна розділити на два рівні: індивідуальний і колективний:
Індивідуальна поведінка є основою функціонування та розвитку самого агента. Він включає вхідні дані, представлені сприйняттям, вихідні дані, представлені діями, і власну інтерналізовану поведінку агента.
Поведінка натовпу відноситься до поведінки, яка виникає, коли два або більше агентів взаємодіють спонтанно. Він включає в себе позитивну поведінку, представлену співпрацею, негативну поведінку, представлену конфліктом, і нейтральну поведінку, таку як слідування за стадом і спостереження.
Особистість: включаючи пізнання, емоції та особистість. Подібно до того, як люди поступово розвивають власні риси в процесі соціалізації, агенти також виявляють так званий «людиноподібний інтелект», який є поступовим формуванням особистості через взаємодію з групами та середовищем.
Когнітивні здібності: охоплює процес, за допомогою якого агенти набувають і розуміють знання. Дослідження показують, що агенти на основі магістра права можуть демонструвати обдуманість і інтелект, подібні до людей у деяких аспектах.
Емоційний інтелект: охоплює суб’єктивні відчуття та емоційні стани, такі як радість, гнів, смуток і радість, а також здатність виявляти симпатію та емпатію.
Характер (зображення персонажа): щоб зрозуміти й проаналізувати особистісні характеристики магістра, дослідники використали зрілі методи оцінки, такі як «Велика п’ятірка особистості» та тест MBTI, щоб дослідити різноманітність і складність особистості.
Імітація соціального середовища
Агентське суспільство не тільки складається з незалежних індивідів, але також включає середовище, з яким вони взаємодіють. Середовище впливає на те, як агенти сприймають, діють і взаємодіють. У свою чергу, агенти також змінюють стан середовища своїми діями та рішеннями. Для окремого агента середовище включає інших автономних агентів, людей і доступні ресурси.
Тут автори досліджують три типи середовища:
Текстові середовища: Оскільки LLM покладаються насамперед на мову як формат введення та виведення, текстові середовища є найбільш природною операційною платформою для агентів. Соціальні явища та взаємодії описуються словами, а текстове середовище забезпечує семантичні та фонові знання. Агенти існують у таких текстових світах і покладаються на текстові ресурси для сприйняття, міркування та дій.
Середовище віртуальної пісочниці: У сфері комп’ютерів пісочниця означає контрольоване та ізольоване середовище, яке часто використовується для тестування програмного забезпечення та аналізу вірусів. Середовище віртуальної пісочниці агентського суспільства служить платформою для моделювання соціальної взаємодії та моделювання поведінки. Його основні функції включають:
Візуалізація: ви можете використовувати прості 2D-графічні інтерфейси або навіть складне 3D-моделювання, щоб відобразити світ, зображуючи всі аспекти змодельованого суспільства інтуїтивно зрозумілим способом.
Масштабованість: різні сценарії (Інтернет, ігри тощо) можна створювати та розгортати для проведення різноманітних експериментів, надаючи агентам широкий простір для дослідження.
Реальне фізичне середовище: Фізичне середовище – це матеріальне середовище, що складається з реальних об’єктів і просторів, у яких агенти спостерігають і діють. Це середовище забезпечує багатий сенсорний вхід (зоровий, слуховий і просторовий). На відміну від віртуальних середовищ, фізичні простори висувають більше вимог до поведінки агента. Тобто агент повинен бути адаптованим у фізичному середовищі та генерувати виконуваний контроль руху.
Автор наводить приклад, щоб пояснити складність фізичного середовища: уявіть собі інтелектуального агента, який керує роботизованою рукою на фабриці. Під час роботи роботизованої руки потрібен точний контроль сили, щоб уникнути пошкодження об’єктів із різних матеріалів; крім того, Агент має бути у фізичному робочому просторі. Вчасно орієнтуйтеся та коригуйте шлях руху, щоб уникнути перешкод і оптимізувати траєкторію руху роботизованої руки.
Ці вимоги збільшують складність і ускладнюють агентів у фізичному середовищі.
**Симуляція, старт! **
У статті автори вважають, що змодельоване суспільство має бути відкритим, наполегливим, ситуативним та організованим. Відкритість дозволяє агентам входити та залишати симульоване суспільство автономно; постійність означає, що суспільство має узгоджену траєкторію, яка розвивається з часом; контекстуальність підкреслює існування та функціонування суб’єктів у конкретному середовищі; організація гарантує, що змодельоване суспільство має фізичний світ- як правила та обмеження.
Що стосується значення симуляції суспільства, то місто Генеративних агентів Стенфордського університету є яскравим прикладом для всіх - суспільство агентів можна використовувати для дослідження можливостей групового інтелекту, наприклад, агенти спільно організували вечірку до Дня святого Валентина; це також можна використовувати для прискорення соціальних наукових досліджень, таких як спостереження за явищами комунікації шляхом моделювання соціальних мереж. Крім того, існують також дослідження, спрямовані на вивчення цінностей, що стоять за агентами, шляхом моделювання етичних сценаріїв прийняття рішень, а також для сприяння прийняттю рішень шляхом моделювання впливу політики на суспільство.
Крім того, автор зазначив, що ці симуляції також можуть мати певні ризики, включаючи, але не обмежуючись: шкідливими соціальними явищами; стереотипами та упередженнями; проблемами конфіденційності та безпеки; надмірною залежністю та звиканням.
Прогнозовані відкриті запитання
Наприкінці статті автор також обговорює деякі перспективні відкриті питання та надихає читачів на роздуми:
**Як дослідження інтелектуальних агентів і великих мовних моделей можуть сприяти одне одному та розвиватися разом? **Великі моделі продемонстрували потужний потенціал у розумінні мови, прийнятті рішень і можливостях узагальнення та відіграли ключову роль у процесі побудови агентів. Розвиток агентів також висунув більш високі вимоги до великих моделей.
**Які виклики та занепокоєння викличуть агенти на базі LLM? ** Для того, щоб інтелектуальні агенти справді можна було застосувати на практиці, потрібна сувора оцінка безпеки, щоб уникнути шкоди реальному світу. Автор узагальнює більше потенційних загроз, таких як: незаконне зловживання, ризик безробіття, вплив на добробут людини тощо.
**Які можливості та виклики принесе розширення? **У симульованому суспільстві збільшення кількості осіб може значно підвищити достовірність і автентичність симуляції. Однак із збільшенням кількості агентів проблеми комунікації та розповсюдження повідомлень стануть досить складними, а спотворення інформації, нерозуміння чи галюцинації значно знизить ефективність усієї системи моделювання.
**В Інтернеті точаться дискусії щодо того, чи є агент на базі LLM відповідним шляхом до AGI. **Деякі дослідники вважають, що великі моделі, представлені GPT-4, були навчені на достатньому корпусі, і створені на цій основі агенти можуть стати ключем до відкриття дверей до AGI. Але інші дослідники вважають, що авторегресивне моделювання мови не демонструє справжнього інтелекту, оскільки вони лише реагують. Більш повний метод моделювання, такий як World Model, може призвести до AGI.
**Еволюція ройового інтелекту. Ройовий інтелект — це процес збору думок багатьох людей і перетворення їх у рішення. **Однак чи справжня «розвідка» буде створена шляхом простого збільшення кількості агентів? Крім того, як координувати окремих агентів, щоб суспільство інтелектуальних агентів могло подолати «групове мислення» та особисті когнітивні упередження?
**Агент як послуга (AaaS). **Оскільки агенти на базі LLM є складнішими, ніж сама велика модель, і малим і середнім підприємствам або окремим особам складніше створити їх локально, постачальники хмарних технологій можуть розглянути можливість впровадження інтелектуальних агентів у формі служб, тобто Agent -як-послуги. Як і інші хмарні служби, AaaS має потенціал, щоб надати користувачам високу гнучкість і самообслуговування на вимогу.
Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Команда Fudan NLP випустила 80-сторінковий огляд широкомасштабних модельних агентів, у якому представлено огляд поточної ситуації та майбутнього агентів ШІ в одній статті
Джерело: Heart of the Machine
Нещодавно команда обробки природної мови Університету Фудань (FudanNLP) опублікувала оглядову статтю про агентів на базі LLM. Повний текст містить 86 сторінок і містить понад 600 посилань! Починаючи з історії агентів штучного інтелекту, автори всебічно відсортували поточний статус інтелектуальних агентів на основі великих мовних моделей, включаючи: передісторію, склад, сценарії застосування агентів на базі LLM і багато обговорюване суспільство агентів**. Водночас автори обговорили перспективні та відкриті питання, пов’язані з Agent, які мають велике значення для майбутніх тенденцій розвитку суміжних сфер.
**Члени команди також додадуть «резюме одним реченням» до кожного відповідного документа, ласкаво просимо на склад Star. **
Дослідження
Довгий час дослідники шукали загальний штучний інтелект (AGI), який еквівалентний або навіть перевищує людський рівень. Ще в 1950-х роках Алан Тюрінг поширив поняття «інтелекту» на штучні істоти і запропонував знаменитий тест Тюрінга. Ці об’єкти штучного інтелекту часто називають агентами. Поняття «агент» походить із філософії та описує сутність, яка має бажання, переконання, наміри та здатність діяти. У сфері штучного інтелекту цей термін отримав нове значення: інтелектуальні сутності з характеристиками автономності, реактивності, позитивності та комунікабельності.
**Немає єдиної думки щодо китайського перекладу терміна «Агент». Деякі вчені перекладають його як «агент», «актор», «агент» або «розумний агент». «Агент» і «інтелектуальний агент», які входять у цю статтю, стосуються агента. *
Відтоді розробка агентів була в центрі уваги спільноти штучного інтелекту. Однак минула робота в основному була зосереджена на вдосконаленні конкретних здібностей агентів, таких як символічне міркування або майстерність виконання конкретних завдань (шахи, Го тощо). Ці дослідження більше зосереджуються на розробці алгоритмів і стратегіях навчання, ігноруючи при цьому розвиток властивих загальних можливостей моделі, таких як пам’ять знань, довгострокове планування, ефективне узагальнення та ефективна взаємодія. Виявляється, що **розширення властивих можливостей моделі є ключовим фактором у сприянні подальшому розвитку інтелектуальних агентів. **
Поява великих мовних моделей (LLM) дає надію на подальший розвиток інтелектуальних агентів. Якщо шлях розвитку від NLP до AGI розділити на п’ять рівнів: корпус, Інтернет, сприйняття, втілення та соціальні атрибути, то поточна широкомасштабна модель мови досягла другого рівня з введенням і виведенням тексту в масштабі Інтернету. Виходячи з цього, якщо агентам, які базуються на LLM, буде надано простір сприйняття та простір дій, вони досягнуть третього та четвертого рівнів. Крім того, коли кілька агентів взаємодіють і співпрацюють для вирішення більш складних завдань або відображають соціальну поведінку в реальному світі, вони мають потенціал досягти п’ятого рівня – суспільства агентів.
Народження агента
Як би виглядав інтелектуальний агент, який підтримується великою моделлю? Натхненні законом Дарвіна про «виживання найпристосованішого», автори запропонували загальну структуру для розумних агентів на основі великих моделей. Якщо людина хоче вижити в суспільстві, вона повинна навчитися пристосовуватися до середовища, тому їй необхідно мати когнітивні здібності та вміти сприймати та реагувати на зміни зовнішнього світу. Подібним чином структура інтелектуальних агентів також складається з трьох частин: **Термінал керування (Мозок), термінал сприйняття (Perception) і термінал дії (Action). **
Автори використовують приклад, щоб проілюструвати робочий процес агента на базі LLM: коли людина запитує, чи буде дощ, кінець сприйняття (Perception) перетворює інструкцію на представлення, яке можуть зрозуміти LLM. Потім термінал керування (Brain) починає міркувати та планувати дії на основі поточної погоди та прогнозів погоди в Інтернеті. Нарешті Дія відповідає і передає парасолю людині.
Повторюючи описаний вище процес, інтелектуальний агент може постійно отримувати зворотний зв’язок і взаємодіяти з навколишнім середовищем.
Термінал керування: Brain
Як основний компонент інтелектуального агента, автори представляють його можливості з п’яти аспектів:
**Взаємодія природної мови: **Мова є засобом спілкування та містить багато інформації. Завдяки потужній генерації природної мови та можливостям розуміння LLM, інтелектуальні агенти можуть взаємодіяти із зовнішнім світом протягом кількох раундів за допомогою природної мови для досягнення своїх цілей. Зокрема, його можна розділити на два аспекти:
Знання: Магістратури, які навчаються на основі великих пакетів корпусів, мають здатність зберігати величезні обсяги знань. На додаток до знання мови, знання здорового глузду та знання професійних навичок є важливими компонентами LLM-агентів.
Незважаючи на те, що самі магістри права все ще мають такі проблеми, як прострочені знання та галюцинації, деякі існуючі дослідження можуть певною мірою полегшити їх за допомогою редагування знань або виклику зовнішніх баз знань.
Пам’ять: У рамках цієї статті модуль пам’яті (Memory) зберігає минулі спостереження, думки та послідовності дій агента. За допомогою спеціальних механізмів пам’яті агенти можуть ефективно обдумувати та застосовувати попередні стратегії, що дозволяє їм спиратися на минулий досвід для адаптації до незнайомого середовища.
Для покращення пам’яті зазвичай використовують три методи:
Крім того, важливий також метод пошуку пам’яті.Тільки шляхом отримання відповідного вмісту агент може отримати доступ до найбільш актуальної та точної інформації.
Міркування та планування: Здатність міркувати (Reasoning) є надзвичайно важливою для розумних агентів для виконання складних завдань, таких як прийняття рішень і аналіз. Специфічний для LLM, це ряд методів підказок, представлених ланцюгом думок (CoT). Планування — це стратегія, яка зазвичай використовується під час вирішення великих завдань. Це допомагає агентам організувати своє мислення, поставити цілі та визначити кроки для досягнення цих цілей. У конкретній реалізації планування може включати два етапи:
**Можливість передавання та узагальнення: **Програми LLM зі знанням світу наділяють інтелектуальних агентів потужними можливостями міграції та узагальнення. Хороший агент не є статичною базою знань, але також має можливості динамічного навчання:
Кінець сприйняття: Сприйняття
Люди сприймають світ мультимодальним способом, тому дослідники мають такі самі очікування щодо агентів на базі LLM. Мультимодальне сприйняття може поглибити розуміння агентом робочого середовища та значно покращити його універсальність.
Введення тексту: Я не буду вдаватися в подробиці, тому що це найпростіша здатність магістра права.
**Візуальне введення:**Самі LLM не мають можливостей візуального сприйняття й можуть розуміти лише окремий текстовий вміст. Візуальний вхід зазвичай містить багато інформації про світ, включаючи властивості об’єктів, просторові відносини, розташування сцени тощо. Загальні методи:
Слуховий вхід: Слух також є важливою частиною людського сприйняття. Оскільки LLM мають чудові можливості виклику інструментів, інтуїтивно зрозуміла ідея полягає в тому, що агент може використовувати LLM як центр керування, викликаючи наявні набори інструментів або експертні моделі каскадним способом для сприйняття звукової інформації. Крім того, аудіо також можна візуально представити за допомогою спектрограми. Спектрограми можна використовувати як плоскі зображення для відображення 2D інформації, тому деякі методи візуальної обробки можна перенести в мовне поле.
Інші вхідні дані: Інформація в реальному світі містить набагато більше, ніж просто текст, зір і слух. Автори сподіваються, що в майбутньому інтелектуальні агенти будуть оснащені більш багатими модулями сприйняття, такими як дотик, нюх та інші органи, щоб отримати більш багаті атрибути цільових об'єктів. У той же час агенти також можуть чітко відчувати температуру, вологість і освітленість навколишнього середовища та виконувати дії, що відповідають навколишньому середовищу.
Крім того, агента також можна ознайомити зі сприйняттям ширшого загального середовища: за допомогою модулів зрілого сприйняття, таких як лідар, GPS та інерціальні вимірювальні пристрої.
Мобільний термінал: Дія
Після того, як мозок зробить аналіз і прийме рішення, агент також повинен вжити заходів для адаптації або зміни середовища:
Вивід тексту: Я не буду вдаватися в подробиці, оскільки це найпростіша здатність магістра права.
**Використання інструментів:**Хоча LLM мають чудові запаси знань і професійні здібності, коли стикаються з конкретними проблемами, може виникнути ряд проблем, таких як проблеми з надійністю та галюцинації. У той же час інструменти, як розширення можливостей користувача, можуть надати допомогу в таких аспектах, як професіоналізм, фактичність і можливість інтерпретації. Наприклад, ви можете використовувати калькулятор для вирішення математичних завдань і пошукову систему для пошуку інформації в реальному часі.
Крім того, інструменти також можуть розширити простір дій інтелектуальних агентів. Наприклад, мультимодальні дії можна отримати шляхом виклику експертних моделей, таких як генерація мови та генерація зображень. Тому дуже важливим і перспективним напрямком є те, як змусити агентів стати чудовими користувачами інструментів, тобто навчитися ефективно користуватися інструментами.
В даний час основні методи інструментального навчання включають навчання на основі демонстрацій і навчання на основі зворотного зв'язку. Крім того, метанавчання, курсове навчання тощо також можна використовувати для надання агентам можливостей узагальнення у використанні різних інструментів. Ідучи ще далі, розумні агенти можуть навчитися робити інструменти «самодостатніми», тим самим збільшуючи свою автономію та незалежність.
**Втілена дія: **Втілення відноситься до здатності агента розуміти, перетворювати середовище та оновлювати свій власний стан під час взаємодії з середовищем. Втілена дія розглядається як міст між віртуальним інтелектом і фізичною реальністю.
Традиційні агенти, засновані на навчанні з підкріпленням, мають обмеження в ефективності вибірки, узагальненні та складних міркуваннях про проблему, тоді як агенти на базі LLM впроваджують багаті внутрішні знання про великі моделі, що дозволяє втіленим агентам активно сприймати фізику та впливати на неї, як людське середовище. Залежно від ступеня автономності агента в завданні або складності Дії можуть бути наступні атомарні Дії:
Поєднуючи ці атомарні дії, агенти можуть виконувати більш складні завдання. Наприклад, втілені QA завдання на кшталт «Чи кавун на кухні більший за миску?» Щоб вирішити цю проблему, агент повинен піти на кухню та отримати відповідь, спостерігаючи за розміром обох.
Обмежені високою вартістю апаратного забезпечення фізичного світу та відсутністю втілених наборів даних, поточні дослідження втілених дій все ще в основному зосереджені на середовищах віртуальної пісочниці, таких як ігрова платформа «Minecraft». Тому, з одного боку, автори сподіваються на парадигму завдання та стандарт оцінки, які ближче до реальності, а з іншого боку, їм також потрібно більше досліджень щодо ефективної побудови відповідних наборів даних.
Агент на практиці: різноманітні сценарії застосування
В даний час агенти на базі LLM продемонстрували вражаючу різноманітність і потужну продуктивність. Знайомі приклади програм, такі як AutoGPT, MetaGPT, CAMEL і GPT Engineer, розвиваються з безпрецедентною швидкістю.
Перш ніж представити конкретні програми, автори обговорюють принципи розробки Agent in Practice:
Допомогти користувачам звільнитися від повсякденних завдань і повторюваної праці, зменшити робочий тиск і підвищити ефективність вирішення завдань;
Користувачам більше не потрібно видавати чіткі низькорівневі інструкції, вони можуть аналізувати, планувати та вирішувати проблеми абсолютно незалежно;
Звільнивши руки користувача, спробуйте звільнити мозок: повністю розкрийте свій потенціал у передових наукових галузях і завершіть інноваційну та дослідницьку роботу.
Виходячи з цього, застосування агентів може мати три парадигми:
Сценарій з одним агентом
Інтелектуальні агенти, які можуть приймати команди природної мови людини та виконувати щоденні завдання, наразі віддають перевагу користувачам і мають високу практичну цінність. Автори спочатку детально розробили його різноманітні сценарії застосування та відповідні можливості в сценарії застосування одного інтелектуального агента.
У цій статті застосування одного інтелектуального агента поділяється на такі три рівні:
Мультиагентний сценарій
Ще в 1986 році Марвін Мінскі зробив перспективний прогноз. У «Суспільстві розуму» він запропонував нову теорію інтелекту, стверджуючи, що інтелект виникає в результаті взаємодії багатьох дрібніших агентів, що виконують певні функції. Наприклад, деякі агенти можуть бути відповідальними за ідентифікацію шаблонів, тоді як інші можуть бути відповідальними за прийняття рішень або створення рішень.
Ця ідея була конкретно реалізована з появою розподіленого штучного інтелекту. Багатоагентні системи (Multi-Agent), як одне з основних питань дослідження, головним чином зосереджені на тому, як агенти можуть ефективно координувати та співпрацювати для вирішення проблем. Автор цієї статті поділяє взаємодію між кількома агентами на наступні дві форми:
Кооперативна взаємодія: як найпоширеніший тип у практичних застосуваннях, кооперативні системи агентів можуть ефективно підвищити ефективність завдань і спільно покращити прийняття рішень. Зокрема, за різними формами кооперації автори поділяють кооперативні взаємодії на невпорядковану та впорядковану кооперацію.
Супротивна взаємодія: Розумні агенти взаємодіють око за око. Завдяки конкуренції, переговорам і дебатам агенти відмовляються від своїх початкових, можливо, помилкових переконань і проводять значущі роздуми про свою власну поведінку або процес міркування, що в кінцевому підсумку призводить до покращення якості відповіді всієї системи.
Сценарій взаємодії людини з комп’ютером
Взаємодія людина-агент, як випливає з назви, — це інтелектуальний агент, який співпрацює з людьми для виконання завдань. З одного боку, здатність агента до динамічного навчання має підтримуватися комунікацією; з іншого боку, поточна агентська система все ще недостатня для інтерпретації та може мати проблеми з безпекою, законністю тощо, тому вимагає участі людини. та нагляд.
У статті автори поділяють взаємодію «людина-агент» на такі два режими:
Суспільство агентів: від особистості до соціальності
Протягом тривалого часу дослідники мріяли побудувати «інтерактивне штучне суспільство». Від гри-пісочниці «The Sims» до «Metaverse», визначення симульованого суспільства людьми можна підсумувати як: середовище + люди, які живуть і взаємодіють у середовище .
У статті автори використовують діаграму для опису концептуальної основи агентського суспільства:
У цій структурі ми можемо побачити:
Соціальна поведінка та особистість агентів
У статті розглядається дія агентів у суспільстві з точки зору зовнішньої поведінки та внутрішньої особистості:
Соціальна поведінка. З соціальної точки зору поведінку можна розділити на два рівні: індивідуальний і колективний:
Особистість: включаючи пізнання, емоції та особистість. Подібно до того, як люди поступово розвивають власні риси в процесі соціалізації, агенти також виявляють так званий «людиноподібний інтелект», який є поступовим формуванням особистості через взаємодію з групами та середовищем.
Імітація соціального середовища
Агентське суспільство не тільки складається з незалежних індивідів, але також включає середовище, з яким вони взаємодіють. Середовище впливає на те, як агенти сприймають, діють і взаємодіють. У свою чергу, агенти також змінюють стан середовища своїми діями та рішеннями. Для окремого агента середовище включає інших автономних агентів, людей і доступні ресурси.
Тут автори досліджують три типи середовища:
Текстові середовища: Оскільки LLM покладаються насамперед на мову як формат введення та виведення, текстові середовища є найбільш природною операційною платформою для агентів. Соціальні явища та взаємодії описуються словами, а текстове середовище забезпечує семантичні та фонові знання. Агенти існують у таких текстових світах і покладаються на текстові ресурси для сприйняття, міркування та дій.
Середовище віртуальної пісочниці: У сфері комп’ютерів пісочниця означає контрольоване та ізольоване середовище, яке часто використовується для тестування програмного забезпечення та аналізу вірусів. Середовище віртуальної пісочниці агентського суспільства служить платформою для моделювання соціальної взаємодії та моделювання поведінки. Його основні функції включають:
Реальне фізичне середовище: Фізичне середовище – це матеріальне середовище, що складається з реальних об’єктів і просторів, у яких агенти спостерігають і діють. Це середовище забезпечує багатий сенсорний вхід (зоровий, слуховий і просторовий). На відміну від віртуальних середовищ, фізичні простори висувають більше вимог до поведінки агента. Тобто агент повинен бути адаптованим у фізичному середовищі та генерувати виконуваний контроль руху.
Автор наводить приклад, щоб пояснити складність фізичного середовища: уявіть собі інтелектуального агента, який керує роботизованою рукою на фабриці. Під час роботи роботизованої руки потрібен точний контроль сили, щоб уникнути пошкодження об’єктів із різних матеріалів; крім того, Агент має бути у фізичному робочому просторі. Вчасно орієнтуйтеся та коригуйте шлях руху, щоб уникнути перешкод і оптимізувати траєкторію руху роботизованої руки.
Ці вимоги збільшують складність і ускладнюють агентів у фізичному середовищі.
**Симуляція, старт! **
У статті автори вважають, що змодельоване суспільство має бути відкритим, наполегливим, ситуативним та організованим. Відкритість дозволяє агентам входити та залишати симульоване суспільство автономно; постійність означає, що суспільство має узгоджену траєкторію, яка розвивається з часом; контекстуальність підкреслює існування та функціонування суб’єктів у конкретному середовищі; організація гарантує, що змодельоване суспільство має фізичний світ- як правила та обмеження.
Що стосується значення симуляції суспільства, то місто Генеративних агентів Стенфордського університету є яскравим прикладом для всіх - суспільство агентів можна використовувати для дослідження можливостей групового інтелекту, наприклад, агенти спільно організували вечірку до Дня святого Валентина; це також можна використовувати для прискорення соціальних наукових досліджень, таких як спостереження за явищами комунікації шляхом моделювання соціальних мереж. Крім того, існують також дослідження, спрямовані на вивчення цінностей, що стоять за агентами, шляхом моделювання етичних сценаріїв прийняття рішень, а також для сприяння прийняттю рішень шляхом моделювання впливу політики на суспільство.
Крім того, автор зазначив, що ці симуляції також можуть мати певні ризики, включаючи, але не обмежуючись: шкідливими соціальними явищами; стереотипами та упередженнями; проблемами конфіденційності та безпеки; надмірною залежністю та звиканням.
Прогнозовані відкриті запитання
Наприкінці статті автор також обговорює деякі перспективні відкриті питання та надихає читачів на роздуми:
**Як дослідження інтелектуальних агентів і великих мовних моделей можуть сприяти одне одному та розвиватися разом? **Великі моделі продемонстрували потужний потенціал у розумінні мови, прийнятті рішень і можливостях узагальнення та відіграли ключову роль у процесі побудови агентів. Розвиток агентів також висунув більш високі вимоги до великих моделей.
**Які виклики та занепокоєння викличуть агенти на базі LLM? ** Для того, щоб інтелектуальні агенти справді можна було застосувати на практиці, потрібна сувора оцінка безпеки, щоб уникнути шкоди реальному світу. Автор узагальнює більше потенційних загроз, таких як: незаконне зловживання, ризик безробіття, вплив на добробут людини тощо.
**Які можливості та виклики принесе розширення? **У симульованому суспільстві збільшення кількості осіб може значно підвищити достовірність і автентичність симуляції. Однак із збільшенням кількості агентів проблеми комунікації та розповсюдження повідомлень стануть досить складними, а спотворення інформації, нерозуміння чи галюцинації значно знизить ефективність усієї системи моделювання.
**В Інтернеті точаться дискусії щодо того, чи є агент на базі LLM відповідним шляхом до AGI. **Деякі дослідники вважають, що великі моделі, представлені GPT-4, були навчені на достатньому корпусі, і створені на цій основі агенти можуть стати ключем до відкриття дверей до AGI. Але інші дослідники вважають, що авторегресивне моделювання мови не демонструє справжнього інтелекту, оскільки вони лише реагують. Більш повний метод моделювання, такий як World Model, може призвести до AGI.
**Еволюція ройового інтелекту. Ройовий інтелект — це процес збору думок багатьох людей і перетворення їх у рішення. **Однак чи справжня «розвідка» буде створена шляхом простого збільшення кількості агентів? Крім того, як координувати окремих агентів, щоб суспільство інтелектуальних агентів могло подолати «групове мислення» та особисті когнітивні упередження?
**Агент як послуга (AaaS). **Оскільки агенти на базі LLM є складнішими, ніж сама велика модель, і малим і середнім підприємствам або окремим особам складніше створити їх локально, постачальники хмарних технологій можуть розглянути можливість впровадження інтелектуальних агентів у формі служб, тобто Agent -як-послуги. Як і інші хмарні служби, AaaS має потенціал, щоб надати користувачам високу гнучкість і самообслуговування на вимогу.