Mihayou et Fudan ont libéré, avec la perception, le cerveau, l’action du grand modèle de langage « agent »

Source originale : Communauté ouverte de l’AIGC

Source de l’image : Généré par Unbounded AI

Les grands modèles de langage tels que ChatGPT font preuve de capacités créatives sans précédent, mais ils sont encore loin de l’IAG (General Artificial Intelligence) et manquent de capacités anthropomorphiques telles que la prise de décision autonome, le stockage de la mémoire et la planification.

Afin d’explorer l’évolution des grands modèles de langage vers l’IAG et d’évoluer vers une super intelligence artificielle qui surpasse les humains, Mihayou et l’équipe de recherche en NLP de Fudan ont publié conjointement un article « agent » basé sur de grands modèles de langage. Placez les agents avec les trois fonctions de perception, de cerveau et d’action dans des environnements expérimentaux tels que des jeux de texte et de bac à sable pour les laisser se déplacer par eux-mêmes.

Les résultats montrent que ces agents ont des capacités anthropomorphiques telles que la perception autonome, la planification, la prise de décision et la communication, par exemple, lorsque l’environnement environnant devient difficile et ardu, les agents ajusteront automatiquement leurs stratégies et leurs actions ; Dans un environnement de simulation sociale, l’agent présente des émotions anthropomorphiques telles que l’empathie ; Lorsque deux agents étranges communiquent simplement, ils se souviennent l’un de l’autre.

Ce cadre technique est similaire aux expériences de simulation de jeu d’agent d’IA publiées par l’Université de Stanford et l’Université Tsinghua auparavant, qui sont basées sur de grands modèles de langage pour construire des robots d’IA plus puissants, ce qui a joué un rôle dans la promotion du développement de l’industrie.

Adresse papier :

Github :

Selon l’article, l’agent est principalement composé de trois modules : la perception, la prise de décision et le contrôle, et l’exécution, qui perçoit l’environnement, prend des décisions intelligentes et effectue ensuite des actions spécifiques.

Module de perception

Le module de perception est utilisé pour obtenir diverses informations de l’environnement, équivalentes aux sens humains. Il peut contenir une variété de capteurs pour obtenir différents types de données, par exemple, la caméra obtient des informations d’image, le microphone obtient des informations vocales, etc.

Le module de perception prétraite ces données brutes et les convertit en une représentation numérique que l’agent peut comprendre pour les modules suivants. Les capteurs de perception couramment utilisés sont les suivants :

Capteurs d’image : caméras, caméras RVB-D, etc., utilisées pour obtenir des informations visuelles.

Capteur de son: microphone, obtenez des informations audio telles que la voix et le son ambiant.

Capteurs de position : GPS, INS (système de navigation inertielle), etc., pour connaître la position de l’agent lui-même.

Capteurs tactiles : Haptic ARRAY, gants tactiles, etc., pour obtenir un retour tactile lorsque des objets entrent en contact.

Capteurs de température, d’humidité, de pression atmosphérique et d’autres capteurs environnementaux pour obtenir des informations sur les paramètres environnementaux.

Le module de perception doit prétraiter les données brutes, par exemple, le débruitage de l’image, la réduction du bruit sonore, la conversion de format, etc., pour générer des données normalisées qui peuvent être utilisées par les modules suivants. Dans le même temps, le module de perception peut également effectuer l’extraction de caractéristiques, telles que l’extraction de caractéristiques visuelles telles que les bords, les textures et les zones cibles à partir d’images.

Module de décision et de contrôle**

Ce module est le « cerveau » de l’agent, qui traite, analyse et prend les décisions correspondantes sur les données obtenues par le module de perception. Il peut être subdivisé en sous-modules suivants :

Base de connaissances/mémoire : stocke toutes sortes de connaissances antérieures, d’expériences, ainsi que d’observations, d’expériences et d’autres informations pendant l’exécution.

Raisonnement/planification : Analyser l’environnement actuel et élaborer un plan d’action en fonction de la tâche cible. Tels que la planification de trajectoire, la planification de séquences d’actions, etc.

Prise de décision : Prendre des décisions optimales en fonction de l’état actuel de l’environnement, des connaissances et des résultats du raisonnement.

Contrôle : Convertissez le résultat de la décision en instructions de contrôle et émettez des commandes d’exécution au module d’exécution.

La conception du module de décision et de contrôle est la clé de la technologie des agents. Utilisation précoce de méthodes logiques et symboliques basées sur des règles, les techniques d’apprentissage profond sont devenues courantes ces dernières années. L’entrée du module est constituée des différents types de données obtenues par la perception, et la sortie est l’instruction de contrôle du module d’exécution.

## Module d’exécution

Le module d’exécution reçoit des instructions de contrôle et les traduit en comportements d’interaction environnementale spécifiques pour réaliser la tâche correspondante. C’est l’équivalent des « membres » d’une personne. L’actionneur se connecte à « l’effecteur » de l’agent et entraîne l’effecteur à changer d’environnement en fonction de la commande de contrôle. Les principaux effecteurs sont les suivants :

Actionneurs de mouvement : bras robotisés, châssis de robot, etc., pour changer la position de l’agent lui-même ou effectuer des opérations sur des objets.

Sortie vocale/textuelle : synthétiseurs vocaux, écrans, etc. pour interagir avec l’environnement en parole ou en texte.

Interface de fonctionnement outil/équipement : contrôlez divers appareils et outils et étendez la capacité de fonctionnement environnemental de l’agent.

La conception spécifique du module d’exécution est liée à la forme physique de l’agent. Par exemple, un agent de service n’a besoin que d’une interface textuelle ou vocale, tandis qu’un robot doit se connecter et contrôler avec précision la cinématique. La précision et la résilience de l’exécution sont essentielles à la réussite de la mission.

Dans l’expérience test, les chercheurs ont principalement réalisé trois types d’expériences : la gestion des tâches, l’innovation et la gestion du cycle de vie pour observer les performances de l’agent dans différents environnements.

Expérience de tâche

Les chercheurs ont construit deux environnements de simulation, des jeux textuels et des scénarios de vie, pour tester la capacité des agents à accomplir des tâches quotidiennes. Les environnements de jeu textuel utilisent le langage naturel pour décrire le monde virtuel, et les agents doivent lire des descriptions textuelles pour percevoir leur environnement et prendre des mesures.

Les simulations de scènes de vie sont plus réalistes et plus complexes, et les agents doivent utiliser des connaissances de bon sens pour mieux comprendre les commandes, telles que l’allumage actif des lumières lorsque la pièce est sombre.

Les résultats expérimentaux montrent que les agents peuvent utiliser leurs puissantes capacités de génération de compréhension de texte pour décomposer efficacement des tâches complexes, élaborer des plans et interagir avec des environnements en évolution dynamique dans ces environnements simulés afin d’atteindre des objectifs prédéterminés.

Expérience innovante

Les chercheurs ont exploré le potentiel des agents dans des domaines spécialisés tels que l’innovation scientifique. En raison des défis liés à la rareté des données et à la difficulté de comprendre les connaissances spécialisées dans ces domaines, les chercheurs ont testé des solutions pour doter les agents de divers outils généraux ou spécialisés afin d’améliorer leur compréhension des connaissances complexes dans des domaines.

Des expériences montrent que l’agent peut utiliser des moteurs de recherche, des graphes de connaissances et d’autres outils pour effectuer des recherches en ligne, et s’interfacer avec des instruments et des équipements scientifiques pour effectuer des opérations pratiques telles que la synthèse de matériaux. Cela en fait un assistant prometteur à l’innovation scientifique.

Expérience sur le cycle de vie

Les chercheurs ont utilisé le jeu en monde ouvert Minecraft pour tester la capacité de l’agent à apprendre et à survivre en permanence. Les agents commencent par les activités les plus élémentaires telles que l’extraction de bois et la fabrication d’établis, explorant progressivement des environnements inconnus et acquérant des compétences de survie plus complexes.

Dans l’expérience, le corps intelligent est utilisé pour la planification de haut niveau et peut ajuster en permanence la stratégie en fonction des commentaires environnementaux**. Les résultats montrent que l’agent peut développer des compétences en toute autonomie, s’adapter en permanence à de nouveaux environnements et démontrer de fortes capacités de gestion du cycle de vie.

En outre, en termes de simulation sociale, les chercheurs ont exploré si les agents présentent une personnalité et un comportement social, et ont testé différents paramètres environnementaux. Les résultats montrent que les agents peuvent présenter certains niveaux de capacités cognitives, d’émotions et de traits de personnalité. Dans une société simulée, des activités sociales spontanées et un comportement de groupe se produisent entre les agents.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)