Avec GPT-4, le robot a appris à tourner le stylo et à plaquer des noix

Coeur de machine d’origine

Editeur : Zhang Qian, Chen Ping

Avec la combinaison de GPT-4 et de l’apprentissage par renforcement, à quoi ressemblera l’avenir de la robotique ?

Lorsqu’il s’agit d’apprendre, GPT-4 est un étudiant formidable. Après avoir digéré une grande quantité de données humaines, il a maîtrisé diverses connaissances, et a même inspiré le mathématicien Tao Zhexuan dans le chat.

Dans le même temps, il est devenu un excellent enseignant, et enseigne non seulement la connaissance des livres, mais apprend également aux robots à tourner des stylos.

Le robot, nommé Eureka, était une étude de Nvidia, de l’Université de Pennsylvanie, de l’Institut de technologie de Californie et de l’Université du Texas à Austin. Cette étude combine les résultats de grands modèles de langage et d’apprentissage par renforcement : GPT-4 est utilisé pour affiner la fonction de récompense, et l’apprentissage par renforcement est utilisé pour entraîner le contrôleur du robot.

Grâce à la capacité de GPT-4 à écrire du code, Eureka dispose d’excellentes capacités de conception de fonctions de récompense, et ses récompenses auto-générées sont supérieures à celles des experts humains dans 83 % des tâches. Cette capacité permet au robot d’effectuer de nombreuses tâches qui n’étaient pas faciles à faire auparavant, telles que tourner des stylos, ouvrir des tiroirs et des armoires, lancer des balles pour attraper et dribbler, utiliser des ciseaux, etc. Pour l’instant, cependant, tout cela se fait dans un environnement virtuel.

De plus, Eureka a mis en œuvre un nouveau type de RLHF en contexte qui intègre la rétroaction en langage naturel des opérateurs humains pour guider et aligner les fonctions de récompense. Il peut fournir aux ingénieurs en robotique de puissantes fonctions auxiliaires pour les aider à concevoir des comportements de mouvement complexes. Jim Fan, scientifique principal de l’IA chez NVIDIA et l’un des auteurs de l’article, a comparé l’étude à « Voyager dans l’espace API des simulateurs de physique ».

Il convient de mentionner que cette étude est entièrement open source, et que l’adresse open source est la suivante :

Lien vers le papier :

Lien vers le projet :

Lien de code :

Vue d’ensemble du papier

Les grands modèles de langage (LLM) excellent dans la planification sémantique de haut niveau de tâches robotiques (telles que SayCan de Google, les robots RT-2), mais la question de savoir s’ils peuvent être utilisés pour apprendre des tâches opérationnelles complexes et de bas niveau, telles que le tournage de stylos, reste ouverte. Les tentatives existantes nécessitent beaucoup d’expertise dans le domaine pour créer des invites de tâches ou n’apprendre que des compétences simples, loin de la flexibilité humaine.

Le robot RT-2 de Google

L’apprentissage par renforcement (RL), quant à lui, a obtenu des résultats impressionnants en termes de flexibilité et de nombreux autres aspects (comme le manipulateur d’OpenAI qui joue au Rubik’s Cube), mais il exige des concepteurs humains qu’ils construisent soigneusement des fonctions de récompense qui codifient avec précision et fournissent des signaux d’apprentissage pour le comportement souhaité. Étant donné que de nombreuses tâches d’apprentissage par renforcement dans le monde réel ne fournissent que des récompenses clairsemées qui sont difficiles à utiliser pour l’apprentissage, la mise en forme des récompenses est nécessaire dans la pratique pour fournir des signaux d’apprentissage progressifs. Bien que la fonction de récompense soit très importante, elle est notoirement difficile à concevoir. Une enquête récente a révélé que 92 % des chercheurs et des praticiens de l’apprentissage par renforcement interrogés ont déclaré avoir fait des essais et des erreurs humains lors de la conception des récompenses, et 89 % ont déclaré qu’ils concevaient des récompenses sous-optimales et conduiraient à un comportement inattendu.

Étant donné que la conception des récompenses est si importante, nous ne pouvons nous empêcher de nous demander s’il est possible de développer un algorithme universel de programmation des récompenses en utilisant des LLM de codage de pointe tels que GPT-4 ? Ces LLM excellent dans le codage, la génération zero-shot et l’apprentissage en contexte, et ont considérablement amélioré les performances des agents de programmation. Idéalement, cet algorithme de conception de récompenses devrait avoir des capacités de génération de récompenses de niveau humain qui peuvent s’adapter à un large éventail de tâches, automatiser les processus fastidieux d’essais et d’erreurs sans supervision humaine et être compatible avec la supervision humaine pour garantir la sécurité et la cohérence.

Cet article propose un algorithme de conception de récompense piloté par le LLM, EUREKA (Evolution-driven Universal REward Kit for Agent). L’algorithme permet d’obtenir les résultats suivants :

Les performances de la conception de la récompense atteignent le niveau humain dans 29 environnements RL open source différents, qui comprennent 10 formes différentes de robots (quadrupède, quadricoptère, bipède, manipulateur et plusieurs mains habiles, voir Figure 1). En l’absence d’invites ou de modèles de récompense spécifiques aux tâches, les récompenses auto-générées d’EUREKA ont surpassé celles des experts humains dans 83 % des tâches et ont permis d’obtenir une amélioration moyenne de la normalisation de 52 %.

2. Résolvez les tâches d’opération adroites qui ne pouvaient pas être réalisées par l’ingénierie manuelle des récompenses auparavant. Prenons le problème de rotation du stylet, par exemple, dans lequel une main avec seulement cinq doigts doit faire pivoter rapidement le stylet selon une configuration de rotation prédéfinie et faire tourner autant de cycles que possible. En combinant EUREKA avec des cours, les chercheurs ont démontré pour la première fois le fonctionnement d’un tour rapide du stylo sur une « main de l’ombre » anthropomorphe simulée (voir le bas de la figure 1).

  1. Cet article fournit une nouvelle méthode d’apprentissage contextuel sans gradient pour l’apprentissage par renforcement basé sur la rétroaction humaine (RLHF), qui peut générer des fonctions de récompense plus efficaces et alignées sur l’homme basées sur diverses formes d’entrée humaine. L’article montre qu’EUREKA peut tirer parti des fonctions de récompense humaines existantes et les améliorer. De même, les chercheurs ont démontré la capacité d’EUREKA à utiliser la rétroaction textuelle humaine pour aider à concevoir des fonctions de récompense, qui aident à saisir les préférences humaines subtiles.

Contrairement aux travaux antérieurs de L2R qui utilisaient la conception de récompenses assistée par LLM, EUREKA n’a pas d’invites spécifiques à la tâche, de modèles de récompense et d’une poignée d’exemples. Dans l’expérience, EUREKA a obtenu de bien meilleurs résultats que L2R en raison de sa capacité à générer et à affiner des programmes de récompense expressifs et de forme libre.

La polyvalence d’EUREKA est due à trois choix clés de conception d’algorithmes : le contexte en tant que contexte, la recherche évolutive et la réflexion sur les récompenses.

Tout d’abord, en utilisant le code source de l’environnement comme contexte, EUREKA peut générer des fonctions de récompense exécutables à partir de zéro échantillon dans le LLM de codage de l’épine dorsale (GPT-4). EUREKA améliore ensuite considérablement la qualité des récompenses en effectuant des recherches évolutives, en proposant de manière itérative des lots candidats aux récompenses et en affinant les récompenses les plus prometteuses dans la fenêtre contextuelle LLM. Cette amélioration du contexte est obtenue grâce à la réflexion sur les récompenses, qui est un résumé textuel de qualité récompense basé sur des statistiques d’entraînement stratégique qui permet une édition automatique et ciblée des récompenses.

LA FIGURE 3 MONTRE UN EXEMPLE DE RÉCOMPENSE EUREKA À ÉCHANTILLON ZÉRO ET LES AMÉLIORATIONS ACCUMULÉES AU COURS DE L’OPTIMISATION. Pour s’assurer qu’EUREKA est en mesure d’adapter sa recherche de récompenses à son potentiel maximal, EUREKA utilise l’apprentissage par renforcement distribué accéléré par GPU sur IsaacGym pour évaluer les récompenses intermédiaires, ce qui permet d’améliorer jusqu’à trois ordres de grandeur la vitesse d’apprentissage des politiques, ce qui fait d’EUREKA un algorithme large qui évolue naturellement à mesure que la quantité de calcul augmente.

C’est ce que montre la figure 2. Les chercheurs se sont engagés à ouvrir tous les conseils, environnements et fonctions de récompense générés afin de faciliter la recherche ultérieure sur la conception de récompenses basée sur le LLM.

Introduction à la méthode

EUREKA peut écrire l’algorithme de récompense de manière autonome, comment il est implémenté, regardons-le ensuite.

EUREKA se compose de trois composants algorithmiques : 1) en utilisant l’environnement comme contexte, ce qui permet de générer des récompenses exécutables en mode zéro ; 2) la recherche évolutive, en proposant et en affinant de manière itérative des candidats à la récompense ; 3) Récompenser la réflexion et soutenir l’amélioration fine des récompenses.

L’environnement comme contexte

Cet article recommande de fournir le code d’environnement d’origine directement en tant que contexte. Avec seulement un minimum d’instructions, EUREKA peut générer des récompenses dans différents environnements sans aucun échantillon. Un exemple de sortie EUREKA est présenté à la figure 3. EUREKA combine de manière experte les variables d’observation existantes (par exemple, la position du bout des doigts) dans le code d’environnement fourni et produit un code de récompense valide, le tout sans aucune ingénierie d’invite spécifique à l’environnement ni aucun modèle de récompense.

Cependant, lors de la première tentative, la récompense résultante n’est pas toujours exécutable, et même si elle l’est, elle peut être sous-optimale. Cela soulève la question de savoir comment surmonter efficacement la sous-optimalité de la génération de récompenses à échantillon unique.

Recherche évolutive

Ensuite, l’article décrit comment la recherche évolutionniste résout les problèmes de solutions sous-optimales mentionnés ci-dessus. Ils sont perfectionnés de telle sorte qu’à chaque itération, EUREKA échantillonne plusieurs sorties indépendantes de LLM (ligne 5 de l’algorithme 1). Étant donné que chaque itération est indépendante et homogène, la probabilité d’erreurs dans toutes les fonctions de récompense de l’itération diminue de façon exponentielle à mesure que la taille de l’échantillon augmente.

Récompenser la réflexion

Afin de fournir une analyse plus complexe et ciblée des récompenses, cet article propose de créer une rétroaction automatisée pour résumer la dynamique de la formation aux politiques dans le texte. Plus précisément, étant donné que la fonction de récompense EUREKA nécessite des composantes individuelles dans le programme de récompense (telles que la composante de récompense de la figure 3), cet article suit les valeurs scalaires de toutes les composantes de récompense aux points de contrôle intermédiaires de la politique tout au long du processus d’apprentissage.

La construction de ce processus de réflexion des récompenses est simple, mais elle est importante en raison de la dépendance de l’algorithme d’optimisation des récompenses. C’est-à-dire que le fait que la fonction de récompense soit valide ou non est affecté par le choix spécifique de l’algorithme RL, et la même récompense peut se comporter très différemment même sous le même optimiseur pour une différence d’hyperparamètre donnée. En détaillant la façon dont l’algorithme RL optimise les composantes individuelles de la récompense, la réflexion de la récompense permet à EUREKA de produire des modifications de récompense plus ciblées et de synthétiser les fonctions de récompense pour mieux fonctionner avec l’algorithme RL fixe.

Expérience

La partie expérimentale fournit une évaluation complète d’Eureka, y compris la capacité de générer des fonctions de récompense, la capacité de résoudre de nouvelles tâches et la capacité d’intégrer diverses entrées humaines.

L’environnement expérimental comprend 10 robots différents et 29 tâches, dont 29 sont mises en œuvre par le simulateur IsaacGym. L’expérience utilise 9 environnements primitifs d’IsaacGym (Isaac), couvrant une variété de formes robotiques allant du quadrupède, du bipède, du quadricoptère, du manipulateur à la main robotique adroite. De plus, cet article assure la profondeur de l’évaluation en intégrant 20 tâches du benchmark Dextérité.

Eureka peut produire une fonction de récompense de niveau surhumain. Sur 29 tâches, la fonction de récompense donnée par Eureka a obtenu de meilleurs résultats que les récompenses écrites par des experts sur 83 % des tâches, s’améliorant en moyenne de 52 %. En particulier, Eureka a obtenu de plus grands avantages dans un environnement de référence de dextérité de grande dimension.

Eureka est capable de faire évoluer la recherche de récompenses afin que les récompenses s’améliorent au fil du temps. Eureka produit progressivement de meilleures récompenses en combinant des recherches de récompenses à grande échelle et des commentaires détaillés sur la réflexion des récompenses, dépassant finalement les niveaux humains.

Eureka peut également générer de nouvelles récompenses. Cet article évalue la nouveauté des récompenses Eureka en calculant la corrélation entre les récompenses Eureka et les récompenses humaines sur toutes les tâches Isaac. Comme le montre la figure, Eureka génère principalement des fonctions de récompense faiblement corrélées, qui surpassent les fonctions de récompense humaines. En outre, l’article observe également que plus la tâche est difficile, moins la récompense Eurêka est pertinente. Dans certains cas, les récompenses Eureka sont même négativement corrélées aux récompenses humaines, mais sont nettement plus performantes que les récompenses humaines.

想要实现机器人的灵巧手能够不停的转笔,需要操作程序有尽可能多的循环。本文通过以下方式解决此任务:(1) Demandez à Eureka de générer une fonction de récompense qui redirige les stylos vers une configuration cible aléatoire, puis (2) affinez cette stratégie pré-entraînée avec Eureka Rewards pour obtenir la configuration de rotation de séquence de stylo souhaitée. Comme on peut le voir, Eureka s’est rapidement adapté à la stratégie, réussissant à faire tourner plusieurs cycles d’affilée. En revanche, ni les stratégies pré-entraînées ni apprises à partir de zéro ne peuvent compléter un spin en un seul cycle.

Cet article examine également si le fait de commencer par l’initialisation de la fonction de récompense humaine est bénéfique pour Eureka. Comme nous l’avons vu, Eureka améliore et bénéficie des récompenses humaines, quelle que soit la qualité des récompenses humaines.

Eureka a également mis en œuvre RLHF, qui peut modifier les récompenses en fonction des commentaires humains pour guider les agents étape par étape vers un comportement plus sûr et plus humain. L’exemple montre comment Eureka apprend à un robot humanoïde à courir debout avec un retour humain qui remplace l’ancienne réflexion automatique de la récompense.

Un robot humanoïde apprend à courir avec Eureka

Pour plus d’informations, veuillez vous référer à l’article original.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)