Tian Yuandong a jeté de l’eau froide sur le mystérieux projet Q* d’OpenAI : les données synthétiques ne sont pas un sauveur de l’AGI, et la capacité est limitée à de simples problèmes mathématiques
La discussion sur la conjecture Q se poursuit, et aujourd’hui, le gourou de l’IA Tian Yuandong a déclaré publiquement que Q* ne peut résoudre que des problèmes mathématiques d’entrée de gamme, et que l’IAG est également susceptible de ne pas pouvoir être réalisée par des données synthétiques.
La conjecture Q* continue d’être populaire dans la communauté de l’IA.
Tout le monde spécule sur le fait que Q* est « Q-learning + A* ».
Le gourou de l’IA Fuchito Tian a également analysé en détail la probabilité de l’hypothèse « Q*=Q-learning+A* ».
Dans le même temps, de plus en plus de gens jugent que les données synthétiques sont l’avenir des LLM.
Cependant, Tian Yuandong a jeté de l’eau froide sur cette déclaration.
Je ne suis pas d’accord avec l’affirmation selon laquelle l’IAG peut être résolue simplement en zoomant sur des données synthétiques.
recherche est puissante car, si l’environnement est correctement conçu, il créera un nombre infini de nouveaux modèles que les modèles pourront apprendre et auxquels ils pourront s’adapter.
Cependant, la question de savoir si des milliards de données sont nécessaires pour apprendre un tel nouveau modèle reste une question ouverte, ce qui peut indiquer des failles fondamentales dans notre paradigme d’architecture/apprentissage.
En revanche, il est souvent plus facile pour les humains de découvrir de nouveaux paradigmes à travers le moment « aha ».
Jim Fan, scientifique principal chez NVIDIA, convient que les données synthétiques joueront un rôle important, mais qu’il ne suffira pas de les mettre à l’échelle à l’aveugle pour atteindre l’AGI.
Q*=Q-learning+A, quelle est la probabilité que ce soit
Tian Yuandong a déclaré que, sur la base de son expérience passée avec OpenGo (une reproduction d’AlphaZero), A* peut être considéré comme une version déterministe des SCTM avec seulement la fonction de valeur (c’est-à-dire heuristique) Q.
A* est bien adapté aux tâches où l’état est facile à évaluer après une action donnée, mais l’action est difficile à prédire après un état donné. Un problème mathématique en est un excellent exemple.
Go, en revanche, est une autre histoire : le prochain candidat est relativement facile à prédire (juste en vérifiant la forme locale), mais il est beaucoup plus délicat d’évaluer la situation sur le tableau.
C’est pourquoi nous avons également des bots Go assez puissants, mais ils n’utilisent que des réseaux de stratégie.
Pour les LLM, il peut y avoir un avantage supplémentaire à utiliser Q(s,a), car l’évaluation de Q(s,a) peut ne nécessiter qu’un pré-remplissage, tandis que la stratégie prédictive a = pi(s) nécessite un échantillonnage autorégressif, qui est beaucoup plus lent. De plus, dans le cas de l’utilisation du décodeur uniquement, le cache KV de s peut être partagé entre plusieurs opérations.
Le légendaire Q*, qui a déjà fait un grand pas en avant dans la résolution de problèmes mathématiques, quelle est la probabilité que cela se produise ?
Tian Yuandong a déclaré qu’il pensait que la fonction de valeur devrait être relativement facile à configurer en raison de la résolution du problème mathématique d’entrée de gamme (par exemple, elle peut être prédite à partir de la spécification cible sous la forme d’un langage naturel).
Si vous voulez résoudre un problème mathématique difficile et que vous ne savez pas comment le faire, cette approche peut ne pas suffire.
LeCun a retweeté la discussion de Tian et était d’accord avec son point de vue - « Il a expliqué la différence d’applicabilité entre A* (recherche du chemin le plus court dans un graphique) et MCTS (recherche dans un arbre à croissance exponentielle). 」
En ce qui concerne le retweet de LeCun, Tian Yuandong a déclaré qu’il avait fait beaucoup de choses différentes, y compris la planification, la compréhension des Transformers/LLM et des techniques d’optimisation efficaces, dans l’espoir de combiner ces technologies.
Certains internautes ont exprimé leur scepticisme : « Pour que A* soit valide, une fonction heuristique prouvable, acceptable et cohérente est nécessaire. Mais je doute fort que quelqu’un puisse trouver une telle fonction, car il n’est pas facile de déterminer la valeur d’une sous-suite. 」
Même si vous faites un problème de mathématiques à l’école primaire, Q* est censé être élevé
Quiconque connaît un tant soit peu les grands modèles sait que la capacité de résoudre des problèmes mathématiques de base signifie que la capacité d’un modèle à le faire est un grand pas en avant.
Cela s’explique par le fait qu’il est difficile pour les grands modèles de généraliser en dehors des données entraînées.
Charles Higgins, cofondateur de la start-up de formation à l’IA Tromero, a déclaré que le principal problème qui afflige les grands modèles est maintenant de savoir comment raisonner logiquement sur des concepts abstraits, et si cette étape est franchie, ce sera sans aucun doute un saut majeur.
Les mathématiques sont l’étude du raisonnement symbolique, par exemple, si X est plus grand que Y et Y est plus grand que Z, alors X est plus grand que Z.
Si Q* est bien Q-learning+A*, cela montre que le nouveau modèle d’OpenAI peut combiner la technologie d’apprentissage profond compatible ChatGPT avec les règles de la programmation humaine. Et cette méthode peut aider à résoudre l’énigme hallucinatoire du LLM.
Selon la co-créatrice de Tromero, Sophia Kalanovska, cela a une signification symbolique très importante, mais sur le plan pratique, il est peu probable que cela mette fin au monde.
Alors pourquoi y a-t-il une rumeur selon laquelle « Q* est déjà apparu dans le prototype d’AGI » ?
Kalanovska soutient que, selon les affirmations actuelles, Q* est capable de combiner les deux côtés du cerveau et de comprendre les choses par expérience tout en raisonnant sur des faits.
De toute évidence, c’est un pas de plus vers notre intelligence reconnue, car Q* est susceptible de donner de nouvelles idées aux grands modèles, ce que ChatGPT ne peut pas faire.
La plus grande limitation des modèles existants est qu’ils ne peuvent que régurgiter des informations à partir des données d’entraînement, mais ne peuvent pas raisonner et développer de nouvelles idées.
La résolution du problème invisible est une étape clé dans la création d’AGI.
Andrew Rogoyski, directeur de l’Institut d’IA du Surrey Centre for Humanity, a déclaré que les grands modèles qui existent aujourd’hui peuvent résoudre des problèmes mathématiques de premier cycle, mais lorsqu’il s’agit de problèmes mathématiques plus avancés, ils échouent tous.
Mais si les LLM sont vraiment capables de résoudre de nouveaux problèmes invisibles, c’est un gros problème, même si les problèmes mathématiques créés sont relativement simples.
Les données synthétiques sont la clé de l’avenir des LLM ?
Alors, les données synthétiques sont-elles reines ?
L’explosion de Q* a provoqué beaucoup de spéculations parmi les gros bonnets, et les gros bonnets spéculent que les rumeurs selon lesquelles « les énormes ressources informatiques qui permettent au nouveau modèle de résoudre certains problèmes mathématiques » pourraient être RLAIF (apprentissage par renforcement à partir de la rétroaction de l’IA).
RLAIF est une technologie qui remplace les préférences de marquage humain des LLM prêts à l’emploi, ce qui rend les opérations d’alignement par rapport aux LLM plus évolutives en automatisant le retour d’information humain.
Le RLHF (Reinforcement Learning Based on Human Feedback), qui a déjà brillé dans la formation LLM, peut aligner efficacement de grands modèles de langage sur les préférences humaines, mais la collecte d’étiquettes de préférence humaine de haute qualité est un goulot d’étranglement clé.
En conséquence, des entreprises telles qu’Anthropic et Google ont tenté de se tourner vers RLAIF, en utilisant l’IA pour remplacer les humains dans le processus de formation au feedback.
Cela signifie que les données synthétiques sont reines, et que l’utilisation d’une arborescence offre de plus en plus d’options pour plus tard, afin d’arriver à la bonne réponse.
Il n’y a pas si longtemps, Jim Fan a tweeté que les données synthétiques fourniraient le prochain billion de données d’entraînement de haute qualité.
« Je parie que la plupart des groupes de LLM sérieux le savent. La question clé est de savoir comment maintenir la qualité et éviter une stagnation prématurée. 」
Jim Fan cite également l’article de Richard S. Sutton « The Bitter Lesson » pour illustrer qu’il n’y a que deux paradigmes dans le développement de l’IA qui peuvent être mis à l’échelle à l’infini par le calcul : l’apprentissage et la recherche.
« C’était vrai en 2019 au moment de la rédaction de cet article, et c’est vrai aujourd’hui, je parie jusqu’au jour où nous résoudrons l’AGI. 」
Richard S. Sutton est membre de la Société royale du Canada et de la Royal Society, et il est considéré comme l’un des fondateurs de l’apprentissage par renforcement informatique moderne, apportant plusieurs contributions importantes au domaine, notamment l’apprentissage par différence de temps et les méthodes de gradient stratégique.
Dans cet article, Sutton fait les points suivants :
Une approche générique qui tire parti de l’informatique est en fin de compte la plus efficace et la plus efficiente. Mais la raison en est la loi de Moore, ou plus précisément en raison de la baisse exponentielle continue du coût par unité de calcul.
Initialement, les chercheurs se sont efforcés d’éviter la recherche en exploitant les connaissances humaines ou les caractéristiques spéciales du jeu, qui ne sembleraient pas pertinentes une fois que la recherche serait effectivement appliquée à grande échelle.
Une fois de plus, les méthodes statistiques ont triomphé des méthodes basées sur la connaissance humaine, ce qui a conduit à des changements significatifs dans l’ensemble du domaine du traitement du langage naturel, où les statistiques et le calcul sont progressivement devenus dominants pendant des décennies.
Les chercheurs en IA tentent souvent d’intégrer des connaissances dans des systèmes, ce qui peut être utile à court terme, mais peut entraver les progrès futurs à long terme.
Des percées seront éventuellement réalisées grâce à une approche basée sur la recherche et l’apprentissage.
Le contenu réel de l’esprit est extrêmement complexe, et nous devrions cesser d’essayer de trouver des moyens simples de représenter les pensées, et au lieu de cela, nous ne devrions construire que des méta-méthodes capables de trouver et de capturer cette complexité arbitraire.
Il semble donc que Q* ait saisi le nœud du problème (chercher et apprendre), et les données synthétiques lui permettront de dépasser les limites du passé et de faire son propre saut.
En ce qui concerne les données synthétiques, Musk a également déclaré que les humains ne peuvent vraiment pas battre les machines.
« Vous pourriez mettre le texte de chaque livre qu’un humain écrit sur un disque dur (soupir), et les données synthétiques seraient bien plus que cela. 」
À cet égard, Jim Fan a interagi avec Musk et a déclaré :
« Si nous pouvons les simuler à grande échelle, beaucoup de données synthétiques proviendront d’agents incarnés, tels que Tesla Optimus. 」
Jim Fan pense que RLAIF, ou RLAIF d’après la rétroaction de la vérité terrain, ira très loin s’il est mis à l’échelle correctement. En outre, les données synthétiques comprennent des simulateurs, qui peuvent en principe aider les LLM à développer des modèles mondiaux.
« Idéalement, c’est infini. Mais le souci est que si le cycle d’auto-amélioration n’est pas assez efficace, il risque de s’enliser. 」
En ce qui concerne le chant et l’harmonie des deux, LeCun a dit qu’il avait quelque chose à dire :
LeCun pense que les animaux et les humains deviennent rapidement très intelligents avec très peu de données d’entraînement.
Ainsi, l’utilisation d’un plus grand nombre de données (synthétiques ou non synthétiques) est une mesure provisoire temporaire, tout simplement parce que notre approche actuelle a des limites.
À cet égard, les internautes qui soutiennent la « faction du big data » ont exprimé leur mécontentement :
« Des millions d’années d’adaptation évolutive ne devraient-elles pas ressembler à un pré-entraînement, et notre expérience de vie ne ressemblerait-elle pas à un réglage fin continu ? »
LeCun a ensuite donné un exemple pour expliquer que le seul moyen utilisé par les humains pour transmettre les résultats de millions d’années d’évolution est les gènes, et que la quantité de données dans le génome humain est très faible, seulement 800 Mo.
Même un petit LLM 7B nécessite 14 Go de stockage, ce qui ne représente vraiment pas beaucoup de données dans le génome humain.
De plus, la différence entre le génome du chimpanzé et celui de l’homme est d’environ 1 % (8 Mo). Cette petite différence n’est pas du tout suffisante pour expliquer la différence de capacités entre les humains et les chimpanzés.
En ce qui concerne la quantité de données apprises, un enfant de 2 ans voit une très petite quantité de données visuelles, avec environ 32 millions de secondes (2x365x12x3600) de tout son temps d’apprentissage.
Les humains ont 2 millions de fibres nerveuses optiques, et chaque fibre nerveuse transmet environ 10 octets par seconde. - Soit un total de 6E14 octets.
En revanche, l’entraînement LLM a généralement un volume de données de 1E13 jetons, soit environ 2E13 octets. Ainsi, un enfant de 2 ans ne reçoit que 30 fois plus de données que le LLM.
Quels que soient les arguments des grands acteurs, les grandes entreprises technologiques comme Google, Anthropic, Cohere, etc., utilisent des méthodes de supervision des processus ou de type RLAIF pour créer des ensembles de données pré-entraînés, qui coûtent d’énormes ressources.
Il est donc clair pour tout le monde que les données synthétiques sont un raccourci pour élargir votre ensemble de données. À court terme, nous pouvons évidemment l’utiliser pour créer des données utiles.
Mais est-ce la voie de l’avenir ? Nous devrons attendre la réponse.
Ressources:
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Tian Yuandong a jeté de l’eau froide sur le mystérieux projet Q* d’OpenAI : les données synthétiques ne sont pas un sauveur de l’AGI, et la capacité est limitée à de simples problèmes mathématiques
Source : Nouveau Zhiyuan
La conjecture Q* continue d’être populaire dans la communauté de l’IA.
Tout le monde spécule sur le fait que Q* est « Q-learning + A* ».
Le gourou de l’IA Fuchito Tian a également analysé en détail la probabilité de l’hypothèse « Q*=Q-learning+A* ».
Dans le même temps, de plus en plus de gens jugent que les données synthétiques sont l’avenir des LLM.
Cependant, Tian Yuandong a jeté de l’eau froide sur cette déclaration.
Q*=Q-learning+A, quelle est la probabilité que ce soit
Tian Yuandong a déclaré que, sur la base de son expérience passée avec OpenGo (une reproduction d’AlphaZero), A* peut être considéré comme une version déterministe des SCTM avec seulement la fonction de valeur (c’est-à-dire heuristique) Q.
Go, en revanche, est une autre histoire : le prochain candidat est relativement facile à prédire (juste en vérifiant la forme locale), mais il est beaucoup plus délicat d’évaluer la situation sur le tableau.
C’est pourquoi nous avons également des bots Go assez puissants, mais ils n’utilisent que des réseaux de stratégie.
Le légendaire Q*, qui a déjà fait un grand pas en avant dans la résolution de problèmes mathématiques, quelle est la probabilité que cela se produise ?
Tian Yuandong a déclaré qu’il pensait que la fonction de valeur devrait être relativement facile à configurer en raison de la résolution du problème mathématique d’entrée de gamme (par exemple, elle peut être prédite à partir de la spécification cible sous la forme d’un langage naturel).
Si vous voulez résoudre un problème mathématique difficile et que vous ne savez pas comment le faire, cette approche peut ne pas suffire.
Certains internautes ont exprimé leur scepticisme : « Pour que A* soit valide, une fonction heuristique prouvable, acceptable et cohérente est nécessaire. Mais je doute fort que quelqu’un puisse trouver une telle fonction, car il n’est pas facile de déterminer la valeur d’une sous-suite. 」
Même si vous faites un problème de mathématiques à l’école primaire, Q* est censé être élevé
Quiconque connaît un tant soit peu les grands modèles sait que la capacité de résoudre des problèmes mathématiques de base signifie que la capacité d’un modèle à le faire est un grand pas en avant.
Cela s’explique par le fait qu’il est difficile pour les grands modèles de généraliser en dehors des données entraînées.
Charles Higgins, cofondateur de la start-up de formation à l’IA Tromero, a déclaré que le principal problème qui afflige les grands modèles est maintenant de savoir comment raisonner logiquement sur des concepts abstraits, et si cette étape est franchie, ce sera sans aucun doute un saut majeur.
Les mathématiques sont l’étude du raisonnement symbolique, par exemple, si X est plus grand que Y et Y est plus grand que Z, alors X est plus grand que Z.
Selon la co-créatrice de Tromero, Sophia Kalanovska, cela a une signification symbolique très importante, mais sur le plan pratique, il est peu probable que cela mette fin au monde.
Alors pourquoi y a-t-il une rumeur selon laquelle « Q* est déjà apparu dans le prototype d’AGI » ?
Kalanovska soutient que, selon les affirmations actuelles, Q* est capable de combiner les deux côtés du cerveau et de comprendre les choses par expérience tout en raisonnant sur des faits.
La plus grande limitation des modèles existants est qu’ils ne peuvent que régurgiter des informations à partir des données d’entraînement, mais ne peuvent pas raisonner et développer de nouvelles idées.
La résolution du problème invisible est une étape clé dans la création d’AGI.
Mais si les LLM sont vraiment capables de résoudre de nouveaux problèmes invisibles, c’est un gros problème, même si les problèmes mathématiques créés sont relativement simples.
Les données synthétiques sont la clé de l’avenir des LLM ?
Alors, les données synthétiques sont-elles reines ?
L’explosion de Q* a provoqué beaucoup de spéculations parmi les gros bonnets, et les gros bonnets spéculent que les rumeurs selon lesquelles « les énormes ressources informatiques qui permettent au nouveau modèle de résoudre certains problèmes mathématiques » pourraient être RLAIF (apprentissage par renforcement à partir de la rétroaction de l’IA).
RLAIF est une technologie qui remplace les préférences de marquage humain des LLM prêts à l’emploi, ce qui rend les opérations d’alignement par rapport aux LLM plus évolutives en automatisant le retour d’information humain.
Cela signifie que les données synthétiques sont reines, et que l’utilisation d’une arborescence offre de plus en plus d’options pour plus tard, afin d’arriver à la bonne réponse.
Il n’y a pas si longtemps, Jim Fan a tweeté que les données synthétiques fourniraient le prochain billion de données d’entraînement de haute qualité.
Jim Fan cite également l’article de Richard S. Sutton « The Bitter Lesson » pour illustrer qu’il n’y a que deux paradigmes dans le développement de l’IA qui peuvent être mis à l’échelle à l’infini par le calcul : l’apprentissage et la recherche.
« C’était vrai en 2019 au moment de la rédaction de cet article, et c’est vrai aujourd’hui, je parie jusqu’au jour où nous résoudrons l’AGI. 」
Richard S. Sutton est membre de la Société royale du Canada et de la Royal Society, et il est considéré comme l’un des fondateurs de l’apprentissage par renforcement informatique moderne, apportant plusieurs contributions importantes au domaine, notamment l’apprentissage par différence de temps et les méthodes de gradient stratégique.
Une approche générique qui tire parti de l’informatique est en fin de compte la plus efficace et la plus efficiente. Mais la raison en est la loi de Moore, ou plus précisément en raison de la baisse exponentielle continue du coût par unité de calcul.
Initialement, les chercheurs se sont efforcés d’éviter la recherche en exploitant les connaissances humaines ou les caractéristiques spéciales du jeu, qui ne sembleraient pas pertinentes une fois que la recherche serait effectivement appliquée à grande échelle.
Une fois de plus, les méthodes statistiques ont triomphé des méthodes basées sur la connaissance humaine, ce qui a conduit à des changements significatifs dans l’ensemble du domaine du traitement du langage naturel, où les statistiques et le calcul sont progressivement devenus dominants pendant des décennies.
Les chercheurs en IA tentent souvent d’intégrer des connaissances dans des systèmes, ce qui peut être utile à court terme, mais peut entraver les progrès futurs à long terme.
Des percées seront éventuellement réalisées grâce à une approche basée sur la recherche et l’apprentissage.
Le contenu réel de l’esprit est extrêmement complexe, et nous devrions cesser d’essayer de trouver des moyens simples de représenter les pensées, et au lieu de cela, nous ne devrions construire que des méta-méthodes capables de trouver et de capturer cette complexité arbitraire.
En ce qui concerne les données synthétiques, Musk a également déclaré que les humains ne peuvent vraiment pas battre les machines.
À cet égard, Jim Fan a interagi avec Musk et a déclaré :
Jim Fan pense que RLAIF, ou RLAIF d’après la rétroaction de la vérité terrain, ira très loin s’il est mis à l’échelle correctement. En outre, les données synthétiques comprennent des simulateurs, qui peuvent en principe aider les LLM à développer des modèles mondiaux.
En ce qui concerne le chant et l’harmonie des deux, LeCun a dit qu’il avait quelque chose à dire :
Ainsi, l’utilisation d’un plus grand nombre de données (synthétiques ou non synthétiques) est une mesure provisoire temporaire, tout simplement parce que notre approche actuelle a des limites.
À cet égard, les internautes qui soutiennent la « faction du big data » ont exprimé leur mécontentement :
LeCun a ensuite donné un exemple pour expliquer que le seul moyen utilisé par les humains pour transmettre les résultats de millions d’années d’évolution est les gènes, et que la quantité de données dans le génome humain est très faible, seulement 800 Mo.
De plus, la différence entre le génome du chimpanzé et celui de l’homme est d’environ 1 % (8 Mo). Cette petite différence n’est pas du tout suffisante pour expliquer la différence de capacités entre les humains et les chimpanzés.
En ce qui concerne la quantité de données apprises, un enfant de 2 ans voit une très petite quantité de données visuelles, avec environ 32 millions de secondes (2x365x12x3600) de tout son temps d’apprentissage.
Les humains ont 2 millions de fibres nerveuses optiques, et chaque fibre nerveuse transmet environ 10 octets par seconde. - Soit un total de 6E14 octets.
En revanche, l’entraînement LLM a généralement un volume de données de 1E13 jetons, soit environ 2E13 octets. Ainsi, un enfant de 2 ans ne reçoit que 30 fois plus de données que le LLM.
Quels que soient les arguments des grands acteurs, les grandes entreprises technologiques comme Google, Anthropic, Cohere, etc., utilisent des méthodes de supervision des processus ou de type RLAIF pour créer des ensembles de données pré-entraînés, qui coûtent d’énormes ressources.
Il est donc clair pour tout le monde que les données synthétiques sont un raccourci pour élargir votre ensemble de données. À court terme, nous pouvons évidemment l’utiliser pour créer des données utiles.
Mais est-ce la voie de l’avenir ? Nous devrons attendre la réponse.
Ressources: