Des modèles tels que ChatGPT : d’ici 2026, les données d’entraînement de haute qualité seront épuisées

Source originale : Communauté ouverte de l’AIGC

Source de l’image : Généré par Unbounded AI

« MIT Technology Review » a publié un article sur son site officiel disant qu’avec la popularité continue des grands modèles tels que ChatGPT, la demande de données d’entraînement augmente. Un grand modèle est comme un « trou noir cybernétique » qui est constamment absorbé, ce qui conduit finalement à ne pas avoir assez de données pour l’entraînement.

Epochai, une institution de recherche bien connue dans le domaine de l’IA, a publié un article directement sur le problème de l’entraînement des données et a souligné que d’ici 2026, les grands modèles consommeront des données de haute qualité, et d’ici 2030-2050, toutes les données de mauvaise qualité seront consommées.

D’ici 2030-2060, toutes les données d’entraînement de l’image seront épuisées. (Les données ici font référence aux données natives qui n’ont pas été étiquetées ou polluées de quelque manière que ce soit.)

Adresse:

En fait, le problème des données d’entraînement est déjà apparu. OpenAI a déclaré que le manque de données d’entraînement de haute qualité sera l’un des défis importants du développement de GPT-5. C’est comme aller à l’école chez les humains, lorsque votre niveau de connaissances atteint le niveau du doctorat, puis vous montrer les connaissances du collège n’est pas utile pour l’apprentissage.

Par conséquent, afin d’améliorer les capacités générales d’apprentissage, de raisonnement et d’AGI de GPT-5, OpenAI a établi une « alliance de données », dans l’espoir de collecter des données privées et ultra-longues textuelles, vidéo, audio et autres dans une vaste zone, afin que le modèle puisse simuler et apprendre en profondeur la pensée humaine et les méthodes de travail**.

À l’heure actuelle, l’Islande, le Free Law Project et d’autres organisations ont rejoint l’alliance pour fournir à OpenAI diverses données afin de l’aider à accélérer le développement de modèles.

De plus, au fur et à mesure que le contenu de l’IA généré par ChatGPT, Midjourney, Gen-2 et d’autres modèles entrera dans le réseau public, cela polluera sérieusement le pool de données publiques construit par les humains, et il y aura des caractéristiques telles que l’homogénéité et la logique unique, accélérant le processus de consommation de données de haute qualité.

Des données d’entraînement de haute qualité sont essentielles pour le développement de modèles de grande taille

D’un point de vue technique, les grands modèles de langage peuvent être considérés comme des « machines de prédiction de langage », qui apprennent à partir d’une grande quantité de données textuelles, établissent des modèles d’association entre les mots, puis utilisent ces modèles pour prédire le mot ou la phrase suivante du texte.

Transformer est l’une des architectures les plus connues et les plus utilisées, et ChatGPT et d’autres ont emprunté à cette technologie.

Pour le dire simplement, un grand modèle de langage est une « gourde et une cuillère », et les humains peuvent dire ce qu’ils veulent. Ainsi, lorsque vous utilisez un modèle comme ChatGPT pour générer du texte, vous avez l’impression d’avoir vu le modèle narratif de ces contenus textuels.

Par conséquent, la qualité des données d’apprentissage détermine directement si la structure de l’apprentissage du grand modèle est exacte. Si les données contiennent beaucoup d’erreurs grammaticales, de mauvaises formulations, des sauts de phrase inexacts, du contenu faux, etc., alors le contenu prédit par le modèle contiendra naturellement ces problèmes.

Par exemple, si un modèle de traduction est entraîné, mais que les données utilisées sont toutes fabriquées et de qualité inférieure, le contenu traduit par l’IA sera naturellement très médiocre.

C’est l’une des principales raisons pour lesquelles nous voyons souvent de nombreux modèles avec de petits paramètres mais de meilleures performances et un meilleur rendement que des paramètres élevés, et l’une des principales raisons est l’utilisation de données d’entraînement de haute qualité.

À l’ère des grands modèles, les données sont reines

En raison de l’importance des données, les données d’entraînement de haute qualité sont devenues une ressource précieuse pour OpenAI, Baidu, Anthropic, Cohere et d’autres fournisseurs, et sont devenues le « pétrole » à l’ère des grands modèles.

Dès le mois de mars de cette année, alors que la Chine était encore en train de faire des recherches frénétiques sur de grands modèles, Baidu avait pris les devants en lançant un produit d’IA générative qui se comparait à ChatGPT - Wenxin Yiyansheng.

En plus de ses fortes capacités de R&D, les énormes données du corpus chinois de Baidu, accumulées par les moteurs de recherche depuis plus de 20 ans, ont beaucoup aidé et ont joué un rôle important dans les multiples itérations de Wenxin Yiyan, loin devant d’autres fabricants nationaux.

Les données de haute qualité comprennent généralement des livres publiés, des œuvres littéraires, des articles universitaires, des manuels scolaires, des reportages provenant de médias faisant autorité, de Wikipédia, de l’encyclopédie Baidu, etc., du texte, de la vidéo, de l’audio et d’autres données qui ont été vérifiées par le temps et les humains.

Mais les instituts de recherche ont constaté que la croissance de ce type de données de haute qualité est très lente. Par exemple, la publication de livres doit passer par des processus fastidieux tels que les études de marché, la première rédaction, l’édition et la réévaluation, et il faut des mois, voire des années, pour publier un livre, ce qui est loin derrière la croissance de la demande de données d’entraînement de modèles volumineux.

À en juger par la tendance au développement des grands modèles de langage au cours des quatre dernières années, le taux de croissance de son volume annuel de données d’entraînement a dépassé 50 %. En d’autres termes, tous les 1 an, la quantité de données nécessaires à l’entraînement du modèle doit être doublée pour obtenir des améliorations de performances et de fonctions**.

D’une part, il s’agit de protéger la vie privée des utilisateurs contre la collecte par des organisations tierces, et il y a le vol et l’utilisation abusive ;

D’autre part, afin d’éviter que des données importantes ne soient monopolisées et thésaurisées par un petit nombre d’institutions, il n’y a pas de données disponibles pendant la recherche et le développement technologiques.

D’ici 2026, nous pourrions manquer de données d’entraînement de haute qualité

Pour étudier le problème de la consommation de données d’entraînement, les chercheurs d’Epochai ont simulé la production annuelle de données de langage et d’images de 2022 à 2100, puis ont calculé la quantité totale de ces données.

Il simule également le taux de consommation de données de grands modèles tels que ChatGPT. Enfin, le taux de croissance des données et le taux de consommation sont comparés, et les conclusions importantes suivantes sont tirées :

Dans le cadre de la tendance actuelle au développement rapide des grands modèles, toutes les données de faible qualité seront épuisées d’ici 2030-2050, et les données de haute qualité seront très probablement consommées d’ici 2026.

D’ici 2030-2060, toutes les données d’entraînement d’images seront consommées, et d’ici 2040, l’itération fonctionnelle de grands modèles pourrait montrer des signes de ralentissement en raison du manque de données d’entraînement.

Les chercheurs ont utilisé deux modèles pour calculer : le premier, en utilisant des ensembles de données qui sont réellement utilisés dans les deux domaines des grands modèles de langage et d’image, et en les extrapolant à partir de statistiques historiques pour prédire quand ils atteindront leur pic et leur consommation moyenne.

Le deuxième modèle prédit la quantité de nouvelles données qui seront générées chaque année à l’échelle mondiale à l’avenir. Le modèle est basé sur trois variables, le nombre de populations mondiales, la pénétration d’Internet et la moyenne des données générées par internaute et par an.

Dans le même temps, les chercheurs ont utilisé les données des Nations Unies pour ajuster une courbe de croissance démographique, une fonction en forme de S pour s’adapter à l’utilisation d’Internet, et ont fait une hypothèse simple selon laquelle les données de production annuelle par personne sont fondamentalement les mêmes, et multipliées par trois pour estimer la quantité de nouvelles données dans le monde chaque année.

Le modèle a prédit avec précision la production mensuelle de Reddit (un forum bien connu), de sorte que le taux de précision est élevé**.

Finalement, les chercheurs ont combiné les deux modèles pour arriver aux conclusions ci-dessus.

Les chercheurs ont déclaré que bien que ces données soient simulées et estimées, il existe un certain degré d’incertitude. Cependant, il s’agit d’un signal d’alarme pour la grande communauté des modèles, et les données d’entraînement pourraient bientôt devenir un goulot d’étranglement important qui limite l’expansion et l’application des modèles d’IA.

Les fournisseurs d’IA doivent définir à l’avance des méthodes efficaces de régénération et de synthèse des données afin d’éviter une pénurie de données semblable à une falaise dans le processus de développement de grands modèles

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)