Explication détaillée de l'infrastructure AI+Web3

Intermédiaire3/29/2024, 7:41:47 PM
Les principaux projets au niveau de l'infrastructure de l'industrie AI+Web3 prennent essentiellement le réseau informatique décentralisé comme principal récit, le faible coût comme principal avantage, les incitations token comme principal moyen d'expansion du réseau, et le service aux clients AI+Web3 comme objectif principal.

Titre original transmis : AI+Web3 Future Development Path (2) : Chapitre Infrastructure

L'infrastructure est la direction de croissance déterministe du développement de l'IA

1. Demande croissante en calcul AI

Ces dernières années, la demande en puissance de calcul a connu une croissance rapide, en particulier suite à l'émergence du grand modèle LLM. Cette hausse de la demande en puissance de calcul pour l'IA a eu un impact significatif sur le marché du calcul haute performance. Les données d'OpenAI révèlent une tendance remarquable depuis 2012, avec la puissance de calcul utilisée pour former les plus grands modèles d'IA qui croît de manière exponentielle, doublant tous les 3 à 4 mois en moyenne, dépassant le taux de croissance prédit par la loi de Moore. La demande croissante pour les applications d'IA a entraîné une augmentation rapide du besoin en matériel informatique. Les projections indiquent qu'en 2025, la demande en matériel informatique entraînée par les applications d'IA devrait augmenter d'environ 10 % à 15 %.

Poussé par la demande de puissance de calcul en IA, le fabricant de matériel GPU NVIDIA a enregistré une croissance continue des revenus du centre de données. Au deuxième trimestre de 2023, les revenus du centre de données ont atteint 10,32 milliards de dollars, soit une augmentation de 141 % par rapport au premier trimestre de 2023 et une augmentation notable de 171 % par rapport à la même période de l'année précédente. Au quatrième trimestre de l'exercice 2024, le segment des centres de données représentait plus de 83 % du chiffre d'affaires total, enregistrant une croissance simultanée de 409 %, dont 40 % étaient attribuables à des scénarios d'inférence de grands modèles, indiquant une demande robuste de puissance informatique haute performance.

Simultanément, le besoin de vastes quantités de données impose des exigences importantes en matière de stockage et de mémoire matérielle. Particulièrement pendant la phase d'entraînement du modèle, des entrées de paramètres étendues et un stockage de données sont essentiels. Les puces mémoire utilisées dans les serveurs AI comprennent principalement une mémoire à bande passante élevée (HBM), DRAM et SSD. Les environnements de travail des serveurs AI doivent offrir une capacité accrue, des performances améliorées, une latence réduite et des temps de réponse plus rapides. Selon les calculs de Micron, la quantité de DRAM dans les serveurs AI dépasse celle des serveurs traditionnels de huit fois, tandis que la quantité de NAND dépasse les normes des serveurs traditionnels de trois fois.

2. Déséquilibre offre-demande augmente les coûts de la puissance de calcul

Typiquement, la puissance de calcul est principalement utilisée dans les étapes d'entraînement, de peaufinage et d'inférence des modèles d'IA, notamment pendant les phases d'entraînement et de peaufinage. En raison de l'augmentation des entrées de paramètres de données, des exigences en termes de calcul et de la demande accrue d'interconnectivité dans le calcul parallèle, il est nécessaire de disposer de matériel GPU plus puissant et interconnecté, souvent sous la forme de clusters GPU haute performance. À mesure que les grands modèles évoluent, la complexité de calcul augmente de manière linéaire, nécessitant des matériels haut de gamme supplémentaires pour répondre aux exigences de l'entraînement des modèles.

En prenant GPT-3 comme exemple, avec un scénario impliquant environ 13 millions de visites d'utilisateurs indépendants, la demande de puces correspondante dépasserait 30 000 GPU A100. Ce coût initial d'investissement atteindrait un montant stupéfiant de 800 millions de dollars, avec des coûts estimés d'inférence de modèle quotidiens totalisant environ 700 000 dollars.

Simultanément, les rapports de l'industrie indiquent qu'au quatrième trimestre de 2023, l'approvisionnement en GPU de NVIDIA était fortement restreint à l'échelle mondiale, entraînant un déséquilibre notable entre l'offre et la demande sur les marchés mondiaux. La capacité de production de NVIDIA était limitée par des facteurs tels que TSMC, HBM, l'emballage CoWos, et le "problème de pénurie grave" du GPU H100 devrait persister au moins jusqu'à la fin de 2024.

Par conséquent, la demande croissante de GPU haut de gamme et les contraintes d'approvisionnement ont fait grimper en flèche les prix des composants matériels actuels tels que les GPU. En particulier pour des entreprises comme NVIDIA qui occupent une position centrale dans la chaîne industrielle, les prix élevés sont encore augmentés par leur domination monopolistique, ce qui leur permet de récolter des dividendes de valeur supplémentaires. Par exemple, le coût matériel de la carte accélératrice IA H100 de NVIDIA est d'environ 3 000 dollars, mais son prix de vente a atteint environ 35 000 dollars mi-2023 et a même dépassé les 40 000 dollars sur eBay.

3. L'infrastructure AI stimule la croissance de la chaîne industrielle

Un rapport de Grand View Research indique que la taille du marché mondial de l'IA cloud était estimée à 62,63 milliards de dollars en 2023, avec une projection à 647,6 milliards de dollars d'ici 2030, et un taux de croissance annuel composé de 39,6%. Ces chiffres soulignent le potentiel de croissance significatif des services d'IA cloud et leur contribution substantielle à l'ensemble de la chaîne de l'industrie de l'IA.

Selon les estimations de a16z, une partie substantielle des fonds du marché de l'AIGC (IA et informatique mondiale) finit par affluer vers les entreprises d'infrastructure. En moyenne, les entreprises d'application allouent environ 20 à 40 % de leur chiffre d'affaires à l'inférence et au peaufinage pour chaque client. Ces dépenses sont généralement dirigées vers le fournisseur de cloud de l'instance de calcul ou un fournisseur de modèle tiers, qui à son tour consacre environ la moitié du chiffre d'affaires à l'infrastructure cloud. Par conséquent, il est raisonnable de supposer que 10 à 20 % du chiffre d'affaires total généré par l'AIGC est canalisé vers les fournisseurs de cloud.

De plus, une part significative de la demande en puissance de calcul est centrée sur la formation de grands modèles d'IA, y compris divers modèles LLM étendus. En particulier pour les startups de modèles, 80 à 90 % des coûts sont attribués à la puissance de calcul de l'IA. Collectivement, l'infrastructure de calcul pour l'IA, englobant le cloud computing et le matériel, est censée représenter plus de 50 % de la valeur initiale du marché.

Calcul AI décentralisé

Comme mentionné précédemment, le coût actuel de l'informatique centralisée en IA reste élevé, principalement en raison de la demande croissante d'infrastructures haute performance pour la formation en IA. Cependant, une quantité importante de puissance informatique inutilisée existe sur le marché, ce qui entraîne un déséquilibre entre l'offre et la demande. Les principaux facteurs contribuant à ce déséquilibre sont les suivants :

  • Limité par la mémoire, la complexité du modèle n'a pas une relation de croissance linéaire avec le nombre de GPU requis : les GPU actuels ont des avantages en puissance de calcul, mais l'entraînement du modèle nécessite un grand nombre de paramètres à stocker en mémoire. Pour GPT-3, par exemple, afin d'entraîner un modèle avec 175 milliards de paramètres, plus de 1 téraoctet de données doit être conservé en mémoire - plus que n'importe quel GPU disponible aujourd'hui, nécessitant ainsi plus de GPUs pour le calcul et le stockage parallèles, ce qui entraînera à son tour une puissance de calcul GPU inutilisée. Par exemple, de GPT3 à GPT4, la taille des paramètres du modèle a augmenté d'environ 10 fois, mais le nombre de GPUs requis a augmenté de 24 fois (sans tenir compte de l'augmentation du temps d'entraînement du modèle). Selon une analyse pertinente, OpenAI a utilisé environ 2,15e25 FLOPS dans l'entraînement de GPT-4, et a effectué un entraînement sur environ 25 000 GPUs A100 pendant 90 à 100 jours, avec une utilisation de la puissance de calcul d'environ 32% à 36%.

En réponse aux défis énoncés ci-dessus, la poursuite de la conception de puces hautes performances ou de puces ASIC spécialisées adaptées aux tâches d'IA est une voie importante explorée par de nombreux développeurs et grandes entreprises. Une autre approche implique l'utilisation complète des ressources informatiques existantes pour établir un réseau informatique distribué, visant à réduire les coûts de puissance de calcul grâce à la location, au partage et à une planification efficace des ressources. De plus, le marché héberge actuellement un surplus de GPU et de CPU grand public inutilisés. Bien que les unités individuelles puissent manquer de puissance de calcul robuste, elles peuvent répondre efficacement aux besoins de calcul existants dans des scénarios spécifiques ou lorsqu'elles sont intégrées à des puces hautes performances. Il est essentiel de garantir un approvisionnement suffisant, car les coûts peuvent être encore réduits grâce à une planification du réseau distribué.

Par conséquent, le passage vers une puissance informatique distribuée s'est imposé comme une direction clé dans le développement de l'infrastructure IA. En même temps, compte tenu de l'alignement conceptuel entre Web3 et les systèmes distribués, les réseaux de puissance informatique décentralisée sont devenus un axe principal dans le paysage de l'infrastructure Web3+IA. Actuellement, les plateformes de puissance informatique décentralisée sur le marché Web3 proposent généralement des prix de 80 % à 90 % inférieurs à ceux des services de cloud computing centralisés.

Alors que le stockage joue un rôle vital dans l'infrastructure de l'IA, le stockage centralisé présente des avantages distincts en termes d'échelle, d'utilisabilité et de faible latence. Cependant, en raison des efficacités de coûts notables qu'ils offrent, les réseaux informatiques distribués ont un potentiel de marché significatif et sont susceptibles de tirer des avantages substantiels de l'expansion du marché florissant de l'IA.

  • L'inférence de modèle et la formation de petit modèle représentent les scénarios fondamentaux pour la puissance informatique distribuée actuelle. La dispersion des ressources informatiques dans les systèmes distribués introduit inévitablement des défis de communication entre les GPU, pouvant entraîner une réduction des performances de calcul. Par conséquent, la puissance informatique distribuée est la plus adaptée pour les scénarios nécessitant une communication minimale et pouvant soutenir efficacement des tâches parallèles. Ces scénarios incluent la phase d'inférence de modèles d'IA étendus et de petits modèles avec relativement moins de paramètres, minimisant les impacts sur les performances. À l'avenir, à mesure que les applications d'IA évoluent, le raisonnement émerge comme une exigence critique au niveau de l'application. Étant donné que la plupart des entreprises manquent de capacité pour former de grands modèles de manière indépendante, la puissance informatique distribuée conserve un potentiel de marché significatif à long terme.
  • Il y a une augmentation des cadres d'entraînement distribués haute performance adaptés au calcul parallèle à grande échelle. Des cadres de calcul distribué innovants et open source comme PyTorch, Ray, et DeepSpeed offrent aux développeurs un support fondamental robuste pour tirer parti de la puissance de calcul distribué dans l'entraînement de modèles. Cette avancée améliore l'applicabilité de la puissance de calcul distribué sur le marché futur de l'IA, facilitant son intégration dans diverses applications d'IA.

La logique narrative des projets d'infrastructure AI+Web3

Le secteur de l'infrastructure AI distribuée présente une demande robuste et d'importantes perspectives de croissance à long terme, ce qui en fait un domaine attractif pour le capital d'investissement. Actuellement, les principaux projets au sein de la couche d'infrastructure de l'industrie AI+Web3 se concentrent principalement sur les réseaux informatiques décentralisés. Ces projets mettent en avant les faibles coûts comme avantage clé, utilisent des incitations token pour étendre leurs réseaux et donnent la priorité à la clientèle AI+Web3 comme objectif principal. Ce secteur comprend principalement deux niveaux clés :

  1. Une plateforme de partage et de location de ressources informatiques décentralisées relativement pures : Les premiers projets d'IA comme Render Network, Akash Network, entre autres, entrent dans cette catégorie.
  • Le principal avantage concurrentiel dans ce secteur réside dans les ressources de puissance de calcul, permettant l'accès à une gamme diversifiée de fournisseurs, l'établissement rapide de réseaux et des offres de produits conviviales. Les premiers participants au marché tels que les entreprises de cloud computing et les mineurs sont bien positionnés pour saisir cette opportunité.
  • Avec des seuils de produit bas et des capacités de lancement rapides, des plateformes établies comme Render Network et Akash Network ont démontré une croissance notable et détiennent un avantage concurrentiel.
  • Cependant, les nouveaux entrants sur le marché sont confrontés à des défis liés à l'homogénéité des produits. La tendance actuelle et les barrières à l'entrée faibles ont conduit à un afflux de projets axés sur la puissance de calcul partagée et la location. Bien que ces offres manquent de différenciation, il existe un besoin croissant d'avantages concurrentiels distincts.
  • Les fournisseurs ciblent généralement les clients ayant des besoins informatiques de base. Par exemple, Render Network est spécialisé dans les services de rendu, tandis qu'Akash Network propose des ressources CPU améliorées. Alors que la location de ressources informatiques simples suffit pour les tâches d'IA de base, elle ne répond pas aux besoins complets des processus d'IA complexes tels que la formation, le peaufinage et l'inférence.
  1. Offrant des services de flux de travail de calcul décentralisé et d'apprentissage automatique, de nombreux projets émergents ont récemment sécurisé un financement substantiel, notamment Gensyn, io.net, Ritual et d'autres.
  • L'informatique décentralisée élève les fondements de l'évaluation dans l'industrie. Comme la puissance de calcul est le récit décisif dans le développement de l'IA, les projets enracinés dans la puissance de calcul ont tendance à se vanter de modèles commerciaux plus robustes et à fort potentiel, ce qui conduit à des évaluations plus élevées par rapport à des projets purement intermédiaires.
  • Les services de niveau intermédiaire établissent des avantages distinctifs. Les services offerts par la couche intermédiaire servent d'avantages compétitifs pour ces infrastructures informatiques, englobant des fonctions telles que des oracles et des vérificateurs facilitant la synchronisation des calculs sur et hors chaîne sur la chaîne IA, des outils de déploiement et de gestion soutenant le flux de travail IA global, et plus encore. Le flux de travail IA se caractérise par la collaboration, le retour continu et la haute complexité, nécessitant une puissance de calcul à travers diverses étapes. Par conséquent, une couche logicielle intermédiaire conviviale, hautement collaborative et capable de répondre aux besoins complexes des développeurs IA émerge en tant qu'atout compétitif, notamment dans le domaine Web3, répondant aux exigences des développeurs Web3 pour l'IA. Ces services sont mieux adaptés aux marchés potentiels des applications IA, allant au-delà du simple support informatique.
  • Les équipes de projet possédant une expertise professionnelle dans le domaine de l'exploitation et de la maintenance de l'apprentissage automatique sont généralement essentielles. Les équipes proposant des services de niveau intermédiaire doivent posséder une compréhension globale de l'ensemble du flux de travail de l'apprentissage automatique pour répondre efficacement aux exigences du cycle de vie complet des développeurs. Bien que ces services exploitent souvent des cadres et des outils open source existants sans nécessiter d'innovation technique significative, ils exigent une équipe possédant une expérience étendue et des capacités d'ingénierie solides, ce qui constitue un avantage concurrentiel pour le projet.

Offrant des services à des prix plus compétitifs que les services de cloud computing centralisés, tout en maintenant des installations de support et des expériences utilisateur comparables, ce projet a attiré l'attention de investisseurs de renom. Cependant, la complexité technique accrue pose un défi significatif. Actuellement, le projet est dans la phase narrative et de développement, sans produit entièrement lancé à ce jour.

Projet représentatif

1.Réseau de Rendu

Render Network est une plate-forme mondiale de rendu basée sur la blockchain qui exploite des GPU distribués pour offrir aux créateurs des services de rendu 3D rentables et efficaces. À la confirmation des résultats de rendu par le créateur, le réseau blockchain envoie des récompenses en jetons aux nœuds. La plate-forme propose un réseau de planification et d'allocation de GPU distribués, attribuant des tâches en fonction de l'utilisation des nœuds, de la réputation et d'autres facteurs pour optimiser l'efficacité de calcul, minimiser les ressources inutilisées et réduire les dépenses.

Le jeton natif de la plateforme, RNDR, sert de devise de paiement au sein de l'écosystème. Les utilisateurs peuvent utiliser RNDR pour régler les frais de service de rendu, tandis que les prestataires de services gagnent des récompenses RNDR en contribuant à la puissance de calcul pour accomplir les tâches de rendu. La tarification des services de rendu est ajustée dynamiquement en réponse à l'utilisation actuelle du réseau et à d'autres mesures pertinentes.

Le rendu s'avère être un cas d'utilisation bien adapté et établi pour l'architecture de puissance informatique distribuée. La nature des tâches de rendu permet leur segmentation en plusieurs sous-tâches exécutées en parallèle, minimisant la communication et l'interaction inter-tâches. Cette approche atténue les inconvénients de l'architecture informatique distribuée tout en exploitant le vaste réseau de nœuds GPU pour générer des économies de coûts.

La demande pour le réseau Render est importante, les utilisateurs ayant rendu plus de 16 millions de trames et près de 500 000 scènes sur la plateforme depuis sa création en 2017. Le volume des tâches de rendu et des nœuds actifs ne cesse d'augmenter. De plus, au cours du premier trimestre 2023, Render Network a introduit un ensemble d'outils AI de stabilité intégré de manière native, permettant aux utilisateurs d'incorporer des opérations de diffusion stable. Cette expansion au-delà des opérations de rendu signifie un mouvement stratégique dans le domaine des applications AI.

2.Gensyn.ai

Gensyn opère en tant que cluster de supercalcul mondial spécialisé dans le calcul en profondeur, utilisant le protocole L1 de Polkadot. En 2023, la plateforme a sécurisé 43 millions de dollars de financement de série A, dirigés par a16z. Le cadre architectural de Gensyn s'étend au-delà du cluster de puissance de calcul distribué de l'infrastructure pour englober un système de vérification de couche supérieure. Ce système garantit que les calculs étendus hors chaîne sont conformes aux exigences en chaîne grâce à une vérification de la blockchain, établissant un réseau d'apprentissage automatique sans confiance.

En ce qui concerne la puissance informatique distribuée, Gensyn accueille un éventail d'appareils, des centres de données avec une capacité excédentaire aux ordinateurs portables personnels dotés de GPU potentiels. Il unit ces appareils dans un cluster virtuel unifié accessible aux développeurs pour une utilisation pair à pair à la demande. Gensyn vise à établir un marché où les prix sont dictés par les forces du marché, favorisant l'inclusivité et permettant aux coûts de calcul ML d'atteindre des niveaux équitables.

Le système de vérification constitue un concept central pour Gensyn, visant à valider l'exactitude des tâches d'apprentissage automatique telles que spécifiées. Il introduit une approche de vérification innovante comprenant une preuve d'apprentissage probabiliste, un protocole de positionnement précis basé sur un graphe et Truebit. Ces caractéristiques techniques fondamentales du jeu incitatif offrent une efficacité accrue par rapport aux méthodes traditionnelles de validation de la blockchain. Les participants du réseau comprennent les soumissionnaires, les résolveurs, les vérificateurs et les lanceurs d'alerte, facilitant collectivement le processus de vérification.

Basé sur les données de test détaillées dans le livre blanc du protocole Gensyn, les avantages notables de la plateforme incluent :

  • Réduction des coûts dans la formation de modèles AI : Le protocole Gensyn offre un calcul équivalent au NVIDIA V100 à un coût estimé d'environ 0,40 $ par heure, ce qui représente une économie de coûts de 80% par rapport au calcul à la demande sur AWS.
  • Efficacité améliorée dans le réseau de vérification sans confiance : Les résultats des tests décrits dans le livre blanc indiquent une amélioration significative du temps d'entraînement du modèle en utilisant le protocole Gensyn. Le surcoût temporel a connu une amélioration remarquable de 1 350 % par rapport à la réplication de Truebit et une amélioration extraordinaire de 2 522 477 % par rapport à Ethereum.

Cependant, en même temps, la puissance de calcul distribuée introduit une augmentation inévitable du temps d'entraînement par rapport à l'entraînement local, attribuée aux défis de communication et de réseau. Sur la base des données de test, le protocole Gensyn entraîne un surcoût de temps d'environ 46% dans l'entraînement du modèle.

3. réseau Akash

Akash Network fonctionne comme une plateforme de cloud computing distribué qui intègre divers éléments techniques pour permettre aux utilisateurs de déployer et gérer efficacement des applications au sein d'un environnement de cloud décentralisé. En essence, il offre aux utilisateurs la capacité de louer des ressources informatiques distribuées.

Au cœur d'Akash se trouve un réseau de fournisseurs de services d'infrastructure dispersés à l'échelle mondiale, offrant des ressources CPU, GPU, mémoire et stockage. Ces fournisseurs fournissent des ressources pour la location par l'utilisateur via le cluster Kubernetes supérieur. Les utilisateurs peuvent déployer des applications sous forme de conteneurs Docker pour tirer parti de services d'infrastructure rentables. De plus, Akash met en œuvre une approche d'"enchères inversées" pour faire encore baisser les prix des ressources. Selon les estimations du site officiel d'Akash, les coûts de service de la plateforme sont environ 80% inférieurs à ceux des serveurs centralisés.

4.io.net

io.net se présente comme un réseau informatique décentralisé qui relie des GPU distribués mondialement pour fournir un support computationnel pour la formation et le raisonnement des modèles d'IA. Récemment, après avoir conclu une levée de fonds de série A de 30 millions de dollars, la plateforme affiche désormais une valorisation de 1 milliard de dollars.

Distingué des plateformes comme Render et Akash, io.net émerge comme un réseau informatique décentralisé robuste et évolutif, étroitement lié à plusieurs niveaux d'outils de développement. Ses principales caractéristiques comprennent :

  • Agrégation de ressources informatiques diverses : accès aux GPU provenant de centres de données indépendants, de mineurs de crypto-monnaie et de projets tels que Filecoin et Render.
  • Support de base pour les besoins en IA : les capacités de service essentielles comprennent l'inférence par lots et le service de modèle, la formation parallèle, l'ajustement des hyperparamètres et l'apprentissage par renforcement.
  • Technologie avancée pour des flux de travail améliorés dans un environnement cloud : Englobant une gamme d'outils d'orchestration, de frameworks ML pour l'allocation des ressources de calcul, l'exécution d'algorithmes, la formation de modèles, les opérations d'inférence, les solutions de stockage de données, la surveillance des GPU et les outils de gestion.
  • Capacités de calcul parallèle : Intégration de Ray, un cadre de calcul distribué open source, tirant parti du parallélisme inhérent de Ray pour paralléliser facilement les fonctions Python pour une exécution de tâches dynamique. Son stockage en mémoire facilite le partage rapide de données entre les tâches, éliminant les retards de sérialisation. De plus, io.net s'étend au-delà de Python en intégrant d'autres cadres ML prometteurs comme PyTorch et TensorFlow, améliorant ainsi la scalabilité.

En ce qui concerne la tarification, le site officiel de io.net estime que ses tarifs seront environ 90% inférieurs à ceux des services de cloud computing centralisés.

De plus, le jeton natif de io.net, IO coin, servira principalement de mécanisme de paiement et de récompenses au sein de l'écosystème. En outre, les demandeurs peuvent adopter un modèle similaire à Helium en convertissant IO coin en la devise stable "points IOSD" pour les transactions.

Avertissement:

  1. Cet article est repris de [GateWanxiang Blockchain], le titre original est « AI+Web3 Future Development Road (2) ) : Infrastructure », le droit d’auteur appartient à l’auteur original [Blockchain Wanxiang]. If there are objections to this reprint, please contact the Gate Learn Équipe, et ils s'en occuperont rapidement.

  2. Responsabilité de non-responsabilité : Les points de vue et opinions exprimés dans cet article sont uniquement ceux de l'auteur et ne constituent pas des conseils en investissement.

  3. Les traductions de l'article dans d'autres langues sont effectuées par l'équipe Gate Learn. Sans mentionner Gate.io, l'article traduit ne peut être reproduit, distribué ou plagié.

Explication détaillée de l'infrastructure AI+Web3

Intermédiaire3/29/2024, 7:41:47 PM
Les principaux projets au niveau de l'infrastructure de l'industrie AI+Web3 prennent essentiellement le réseau informatique décentralisé comme principal récit, le faible coût comme principal avantage, les incitations token comme principal moyen d'expansion du réseau, et le service aux clients AI+Web3 comme objectif principal.

Titre original transmis : AI+Web3 Future Development Path (2) : Chapitre Infrastructure

L'infrastructure est la direction de croissance déterministe du développement de l'IA

1. Demande croissante en calcul AI

Ces dernières années, la demande en puissance de calcul a connu une croissance rapide, en particulier suite à l'émergence du grand modèle LLM. Cette hausse de la demande en puissance de calcul pour l'IA a eu un impact significatif sur le marché du calcul haute performance. Les données d'OpenAI révèlent une tendance remarquable depuis 2012, avec la puissance de calcul utilisée pour former les plus grands modèles d'IA qui croît de manière exponentielle, doublant tous les 3 à 4 mois en moyenne, dépassant le taux de croissance prédit par la loi de Moore. La demande croissante pour les applications d'IA a entraîné une augmentation rapide du besoin en matériel informatique. Les projections indiquent qu'en 2025, la demande en matériel informatique entraînée par les applications d'IA devrait augmenter d'environ 10 % à 15 %.

Poussé par la demande de puissance de calcul en IA, le fabricant de matériel GPU NVIDIA a enregistré une croissance continue des revenus du centre de données. Au deuxième trimestre de 2023, les revenus du centre de données ont atteint 10,32 milliards de dollars, soit une augmentation de 141 % par rapport au premier trimestre de 2023 et une augmentation notable de 171 % par rapport à la même période de l'année précédente. Au quatrième trimestre de l'exercice 2024, le segment des centres de données représentait plus de 83 % du chiffre d'affaires total, enregistrant une croissance simultanée de 409 %, dont 40 % étaient attribuables à des scénarios d'inférence de grands modèles, indiquant une demande robuste de puissance informatique haute performance.

Simultanément, le besoin de vastes quantités de données impose des exigences importantes en matière de stockage et de mémoire matérielle. Particulièrement pendant la phase d'entraînement du modèle, des entrées de paramètres étendues et un stockage de données sont essentiels. Les puces mémoire utilisées dans les serveurs AI comprennent principalement une mémoire à bande passante élevée (HBM), DRAM et SSD. Les environnements de travail des serveurs AI doivent offrir une capacité accrue, des performances améliorées, une latence réduite et des temps de réponse plus rapides. Selon les calculs de Micron, la quantité de DRAM dans les serveurs AI dépasse celle des serveurs traditionnels de huit fois, tandis que la quantité de NAND dépasse les normes des serveurs traditionnels de trois fois.

2. Déséquilibre offre-demande augmente les coûts de la puissance de calcul

Typiquement, la puissance de calcul est principalement utilisée dans les étapes d'entraînement, de peaufinage et d'inférence des modèles d'IA, notamment pendant les phases d'entraînement et de peaufinage. En raison de l'augmentation des entrées de paramètres de données, des exigences en termes de calcul et de la demande accrue d'interconnectivité dans le calcul parallèle, il est nécessaire de disposer de matériel GPU plus puissant et interconnecté, souvent sous la forme de clusters GPU haute performance. À mesure que les grands modèles évoluent, la complexité de calcul augmente de manière linéaire, nécessitant des matériels haut de gamme supplémentaires pour répondre aux exigences de l'entraînement des modèles.

En prenant GPT-3 comme exemple, avec un scénario impliquant environ 13 millions de visites d'utilisateurs indépendants, la demande de puces correspondante dépasserait 30 000 GPU A100. Ce coût initial d'investissement atteindrait un montant stupéfiant de 800 millions de dollars, avec des coûts estimés d'inférence de modèle quotidiens totalisant environ 700 000 dollars.

Simultanément, les rapports de l'industrie indiquent qu'au quatrième trimestre de 2023, l'approvisionnement en GPU de NVIDIA était fortement restreint à l'échelle mondiale, entraînant un déséquilibre notable entre l'offre et la demande sur les marchés mondiaux. La capacité de production de NVIDIA était limitée par des facteurs tels que TSMC, HBM, l'emballage CoWos, et le "problème de pénurie grave" du GPU H100 devrait persister au moins jusqu'à la fin de 2024.

Par conséquent, la demande croissante de GPU haut de gamme et les contraintes d'approvisionnement ont fait grimper en flèche les prix des composants matériels actuels tels que les GPU. En particulier pour des entreprises comme NVIDIA qui occupent une position centrale dans la chaîne industrielle, les prix élevés sont encore augmentés par leur domination monopolistique, ce qui leur permet de récolter des dividendes de valeur supplémentaires. Par exemple, le coût matériel de la carte accélératrice IA H100 de NVIDIA est d'environ 3 000 dollars, mais son prix de vente a atteint environ 35 000 dollars mi-2023 et a même dépassé les 40 000 dollars sur eBay.

3. L'infrastructure AI stimule la croissance de la chaîne industrielle

Un rapport de Grand View Research indique que la taille du marché mondial de l'IA cloud était estimée à 62,63 milliards de dollars en 2023, avec une projection à 647,6 milliards de dollars d'ici 2030, et un taux de croissance annuel composé de 39,6%. Ces chiffres soulignent le potentiel de croissance significatif des services d'IA cloud et leur contribution substantielle à l'ensemble de la chaîne de l'industrie de l'IA.

Selon les estimations de a16z, une partie substantielle des fonds du marché de l'AIGC (IA et informatique mondiale) finit par affluer vers les entreprises d'infrastructure. En moyenne, les entreprises d'application allouent environ 20 à 40 % de leur chiffre d'affaires à l'inférence et au peaufinage pour chaque client. Ces dépenses sont généralement dirigées vers le fournisseur de cloud de l'instance de calcul ou un fournisseur de modèle tiers, qui à son tour consacre environ la moitié du chiffre d'affaires à l'infrastructure cloud. Par conséquent, il est raisonnable de supposer que 10 à 20 % du chiffre d'affaires total généré par l'AIGC est canalisé vers les fournisseurs de cloud.

De plus, une part significative de la demande en puissance de calcul est centrée sur la formation de grands modèles d'IA, y compris divers modèles LLM étendus. En particulier pour les startups de modèles, 80 à 90 % des coûts sont attribués à la puissance de calcul de l'IA. Collectivement, l'infrastructure de calcul pour l'IA, englobant le cloud computing et le matériel, est censée représenter plus de 50 % de la valeur initiale du marché.

Calcul AI décentralisé

Comme mentionné précédemment, le coût actuel de l'informatique centralisée en IA reste élevé, principalement en raison de la demande croissante d'infrastructures haute performance pour la formation en IA. Cependant, une quantité importante de puissance informatique inutilisée existe sur le marché, ce qui entraîne un déséquilibre entre l'offre et la demande. Les principaux facteurs contribuant à ce déséquilibre sont les suivants :

  • Limité par la mémoire, la complexité du modèle n'a pas une relation de croissance linéaire avec le nombre de GPU requis : les GPU actuels ont des avantages en puissance de calcul, mais l'entraînement du modèle nécessite un grand nombre de paramètres à stocker en mémoire. Pour GPT-3, par exemple, afin d'entraîner un modèle avec 175 milliards de paramètres, plus de 1 téraoctet de données doit être conservé en mémoire - plus que n'importe quel GPU disponible aujourd'hui, nécessitant ainsi plus de GPUs pour le calcul et le stockage parallèles, ce qui entraînera à son tour une puissance de calcul GPU inutilisée. Par exemple, de GPT3 à GPT4, la taille des paramètres du modèle a augmenté d'environ 10 fois, mais le nombre de GPUs requis a augmenté de 24 fois (sans tenir compte de l'augmentation du temps d'entraînement du modèle). Selon une analyse pertinente, OpenAI a utilisé environ 2,15e25 FLOPS dans l'entraînement de GPT-4, et a effectué un entraînement sur environ 25 000 GPUs A100 pendant 90 à 100 jours, avec une utilisation de la puissance de calcul d'environ 32% à 36%.

En réponse aux défis énoncés ci-dessus, la poursuite de la conception de puces hautes performances ou de puces ASIC spécialisées adaptées aux tâches d'IA est une voie importante explorée par de nombreux développeurs et grandes entreprises. Une autre approche implique l'utilisation complète des ressources informatiques existantes pour établir un réseau informatique distribué, visant à réduire les coûts de puissance de calcul grâce à la location, au partage et à une planification efficace des ressources. De plus, le marché héberge actuellement un surplus de GPU et de CPU grand public inutilisés. Bien que les unités individuelles puissent manquer de puissance de calcul robuste, elles peuvent répondre efficacement aux besoins de calcul existants dans des scénarios spécifiques ou lorsqu'elles sont intégrées à des puces hautes performances. Il est essentiel de garantir un approvisionnement suffisant, car les coûts peuvent être encore réduits grâce à une planification du réseau distribué.

Par conséquent, le passage vers une puissance informatique distribuée s'est imposé comme une direction clé dans le développement de l'infrastructure IA. En même temps, compte tenu de l'alignement conceptuel entre Web3 et les systèmes distribués, les réseaux de puissance informatique décentralisée sont devenus un axe principal dans le paysage de l'infrastructure Web3+IA. Actuellement, les plateformes de puissance informatique décentralisée sur le marché Web3 proposent généralement des prix de 80 % à 90 % inférieurs à ceux des services de cloud computing centralisés.

Alors que le stockage joue un rôle vital dans l'infrastructure de l'IA, le stockage centralisé présente des avantages distincts en termes d'échelle, d'utilisabilité et de faible latence. Cependant, en raison des efficacités de coûts notables qu'ils offrent, les réseaux informatiques distribués ont un potentiel de marché significatif et sont susceptibles de tirer des avantages substantiels de l'expansion du marché florissant de l'IA.

  • L'inférence de modèle et la formation de petit modèle représentent les scénarios fondamentaux pour la puissance informatique distribuée actuelle. La dispersion des ressources informatiques dans les systèmes distribués introduit inévitablement des défis de communication entre les GPU, pouvant entraîner une réduction des performances de calcul. Par conséquent, la puissance informatique distribuée est la plus adaptée pour les scénarios nécessitant une communication minimale et pouvant soutenir efficacement des tâches parallèles. Ces scénarios incluent la phase d'inférence de modèles d'IA étendus et de petits modèles avec relativement moins de paramètres, minimisant les impacts sur les performances. À l'avenir, à mesure que les applications d'IA évoluent, le raisonnement émerge comme une exigence critique au niveau de l'application. Étant donné que la plupart des entreprises manquent de capacité pour former de grands modèles de manière indépendante, la puissance informatique distribuée conserve un potentiel de marché significatif à long terme.
  • Il y a une augmentation des cadres d'entraînement distribués haute performance adaptés au calcul parallèle à grande échelle. Des cadres de calcul distribué innovants et open source comme PyTorch, Ray, et DeepSpeed offrent aux développeurs un support fondamental robuste pour tirer parti de la puissance de calcul distribué dans l'entraînement de modèles. Cette avancée améliore l'applicabilité de la puissance de calcul distribué sur le marché futur de l'IA, facilitant son intégration dans diverses applications d'IA.

La logique narrative des projets d'infrastructure AI+Web3

Le secteur de l'infrastructure AI distribuée présente une demande robuste et d'importantes perspectives de croissance à long terme, ce qui en fait un domaine attractif pour le capital d'investissement. Actuellement, les principaux projets au sein de la couche d'infrastructure de l'industrie AI+Web3 se concentrent principalement sur les réseaux informatiques décentralisés. Ces projets mettent en avant les faibles coûts comme avantage clé, utilisent des incitations token pour étendre leurs réseaux et donnent la priorité à la clientèle AI+Web3 comme objectif principal. Ce secteur comprend principalement deux niveaux clés :

  1. Une plateforme de partage et de location de ressources informatiques décentralisées relativement pures : Les premiers projets d'IA comme Render Network, Akash Network, entre autres, entrent dans cette catégorie.
  • Le principal avantage concurrentiel dans ce secteur réside dans les ressources de puissance de calcul, permettant l'accès à une gamme diversifiée de fournisseurs, l'établissement rapide de réseaux et des offres de produits conviviales. Les premiers participants au marché tels que les entreprises de cloud computing et les mineurs sont bien positionnés pour saisir cette opportunité.
  • Avec des seuils de produit bas et des capacités de lancement rapides, des plateformes établies comme Render Network et Akash Network ont démontré une croissance notable et détiennent un avantage concurrentiel.
  • Cependant, les nouveaux entrants sur le marché sont confrontés à des défis liés à l'homogénéité des produits. La tendance actuelle et les barrières à l'entrée faibles ont conduit à un afflux de projets axés sur la puissance de calcul partagée et la location. Bien que ces offres manquent de différenciation, il existe un besoin croissant d'avantages concurrentiels distincts.
  • Les fournisseurs ciblent généralement les clients ayant des besoins informatiques de base. Par exemple, Render Network est spécialisé dans les services de rendu, tandis qu'Akash Network propose des ressources CPU améliorées. Alors que la location de ressources informatiques simples suffit pour les tâches d'IA de base, elle ne répond pas aux besoins complets des processus d'IA complexes tels que la formation, le peaufinage et l'inférence.
  1. Offrant des services de flux de travail de calcul décentralisé et d'apprentissage automatique, de nombreux projets émergents ont récemment sécurisé un financement substantiel, notamment Gensyn, io.net, Ritual et d'autres.
  • L'informatique décentralisée élève les fondements de l'évaluation dans l'industrie. Comme la puissance de calcul est le récit décisif dans le développement de l'IA, les projets enracinés dans la puissance de calcul ont tendance à se vanter de modèles commerciaux plus robustes et à fort potentiel, ce qui conduit à des évaluations plus élevées par rapport à des projets purement intermédiaires.
  • Les services de niveau intermédiaire établissent des avantages distinctifs. Les services offerts par la couche intermédiaire servent d'avantages compétitifs pour ces infrastructures informatiques, englobant des fonctions telles que des oracles et des vérificateurs facilitant la synchronisation des calculs sur et hors chaîne sur la chaîne IA, des outils de déploiement et de gestion soutenant le flux de travail IA global, et plus encore. Le flux de travail IA se caractérise par la collaboration, le retour continu et la haute complexité, nécessitant une puissance de calcul à travers diverses étapes. Par conséquent, une couche logicielle intermédiaire conviviale, hautement collaborative et capable de répondre aux besoins complexes des développeurs IA émerge en tant qu'atout compétitif, notamment dans le domaine Web3, répondant aux exigences des développeurs Web3 pour l'IA. Ces services sont mieux adaptés aux marchés potentiels des applications IA, allant au-delà du simple support informatique.
  • Les équipes de projet possédant une expertise professionnelle dans le domaine de l'exploitation et de la maintenance de l'apprentissage automatique sont généralement essentielles. Les équipes proposant des services de niveau intermédiaire doivent posséder une compréhension globale de l'ensemble du flux de travail de l'apprentissage automatique pour répondre efficacement aux exigences du cycle de vie complet des développeurs. Bien que ces services exploitent souvent des cadres et des outils open source existants sans nécessiter d'innovation technique significative, ils exigent une équipe possédant une expérience étendue et des capacités d'ingénierie solides, ce qui constitue un avantage concurrentiel pour le projet.

Offrant des services à des prix plus compétitifs que les services de cloud computing centralisés, tout en maintenant des installations de support et des expériences utilisateur comparables, ce projet a attiré l'attention de investisseurs de renom. Cependant, la complexité technique accrue pose un défi significatif. Actuellement, le projet est dans la phase narrative et de développement, sans produit entièrement lancé à ce jour.

Projet représentatif

1.Réseau de Rendu

Render Network est une plate-forme mondiale de rendu basée sur la blockchain qui exploite des GPU distribués pour offrir aux créateurs des services de rendu 3D rentables et efficaces. À la confirmation des résultats de rendu par le créateur, le réseau blockchain envoie des récompenses en jetons aux nœuds. La plate-forme propose un réseau de planification et d'allocation de GPU distribués, attribuant des tâches en fonction de l'utilisation des nœuds, de la réputation et d'autres facteurs pour optimiser l'efficacité de calcul, minimiser les ressources inutilisées et réduire les dépenses.

Le jeton natif de la plateforme, RNDR, sert de devise de paiement au sein de l'écosystème. Les utilisateurs peuvent utiliser RNDR pour régler les frais de service de rendu, tandis que les prestataires de services gagnent des récompenses RNDR en contribuant à la puissance de calcul pour accomplir les tâches de rendu. La tarification des services de rendu est ajustée dynamiquement en réponse à l'utilisation actuelle du réseau et à d'autres mesures pertinentes.

Le rendu s'avère être un cas d'utilisation bien adapté et établi pour l'architecture de puissance informatique distribuée. La nature des tâches de rendu permet leur segmentation en plusieurs sous-tâches exécutées en parallèle, minimisant la communication et l'interaction inter-tâches. Cette approche atténue les inconvénients de l'architecture informatique distribuée tout en exploitant le vaste réseau de nœuds GPU pour générer des économies de coûts.

La demande pour le réseau Render est importante, les utilisateurs ayant rendu plus de 16 millions de trames et près de 500 000 scènes sur la plateforme depuis sa création en 2017. Le volume des tâches de rendu et des nœuds actifs ne cesse d'augmenter. De plus, au cours du premier trimestre 2023, Render Network a introduit un ensemble d'outils AI de stabilité intégré de manière native, permettant aux utilisateurs d'incorporer des opérations de diffusion stable. Cette expansion au-delà des opérations de rendu signifie un mouvement stratégique dans le domaine des applications AI.

2.Gensyn.ai

Gensyn opère en tant que cluster de supercalcul mondial spécialisé dans le calcul en profondeur, utilisant le protocole L1 de Polkadot. En 2023, la plateforme a sécurisé 43 millions de dollars de financement de série A, dirigés par a16z. Le cadre architectural de Gensyn s'étend au-delà du cluster de puissance de calcul distribué de l'infrastructure pour englober un système de vérification de couche supérieure. Ce système garantit que les calculs étendus hors chaîne sont conformes aux exigences en chaîne grâce à une vérification de la blockchain, établissant un réseau d'apprentissage automatique sans confiance.

En ce qui concerne la puissance informatique distribuée, Gensyn accueille un éventail d'appareils, des centres de données avec une capacité excédentaire aux ordinateurs portables personnels dotés de GPU potentiels. Il unit ces appareils dans un cluster virtuel unifié accessible aux développeurs pour une utilisation pair à pair à la demande. Gensyn vise à établir un marché où les prix sont dictés par les forces du marché, favorisant l'inclusivité et permettant aux coûts de calcul ML d'atteindre des niveaux équitables.

Le système de vérification constitue un concept central pour Gensyn, visant à valider l'exactitude des tâches d'apprentissage automatique telles que spécifiées. Il introduit une approche de vérification innovante comprenant une preuve d'apprentissage probabiliste, un protocole de positionnement précis basé sur un graphe et Truebit. Ces caractéristiques techniques fondamentales du jeu incitatif offrent une efficacité accrue par rapport aux méthodes traditionnelles de validation de la blockchain. Les participants du réseau comprennent les soumissionnaires, les résolveurs, les vérificateurs et les lanceurs d'alerte, facilitant collectivement le processus de vérification.

Basé sur les données de test détaillées dans le livre blanc du protocole Gensyn, les avantages notables de la plateforme incluent :

  • Réduction des coûts dans la formation de modèles AI : Le protocole Gensyn offre un calcul équivalent au NVIDIA V100 à un coût estimé d'environ 0,40 $ par heure, ce qui représente une économie de coûts de 80% par rapport au calcul à la demande sur AWS.
  • Efficacité améliorée dans le réseau de vérification sans confiance : Les résultats des tests décrits dans le livre blanc indiquent une amélioration significative du temps d'entraînement du modèle en utilisant le protocole Gensyn. Le surcoût temporel a connu une amélioration remarquable de 1 350 % par rapport à la réplication de Truebit et une amélioration extraordinaire de 2 522 477 % par rapport à Ethereum.

Cependant, en même temps, la puissance de calcul distribuée introduit une augmentation inévitable du temps d'entraînement par rapport à l'entraînement local, attribuée aux défis de communication et de réseau. Sur la base des données de test, le protocole Gensyn entraîne un surcoût de temps d'environ 46% dans l'entraînement du modèle.

3. réseau Akash

Akash Network fonctionne comme une plateforme de cloud computing distribué qui intègre divers éléments techniques pour permettre aux utilisateurs de déployer et gérer efficacement des applications au sein d'un environnement de cloud décentralisé. En essence, il offre aux utilisateurs la capacité de louer des ressources informatiques distribuées.

Au cœur d'Akash se trouve un réseau de fournisseurs de services d'infrastructure dispersés à l'échelle mondiale, offrant des ressources CPU, GPU, mémoire et stockage. Ces fournisseurs fournissent des ressources pour la location par l'utilisateur via le cluster Kubernetes supérieur. Les utilisateurs peuvent déployer des applications sous forme de conteneurs Docker pour tirer parti de services d'infrastructure rentables. De plus, Akash met en œuvre une approche d'"enchères inversées" pour faire encore baisser les prix des ressources. Selon les estimations du site officiel d'Akash, les coûts de service de la plateforme sont environ 80% inférieurs à ceux des serveurs centralisés.

4.io.net

io.net se présente comme un réseau informatique décentralisé qui relie des GPU distribués mondialement pour fournir un support computationnel pour la formation et le raisonnement des modèles d'IA. Récemment, après avoir conclu une levée de fonds de série A de 30 millions de dollars, la plateforme affiche désormais une valorisation de 1 milliard de dollars.

Distingué des plateformes comme Render et Akash, io.net émerge comme un réseau informatique décentralisé robuste et évolutif, étroitement lié à plusieurs niveaux d'outils de développement. Ses principales caractéristiques comprennent :

  • Agrégation de ressources informatiques diverses : accès aux GPU provenant de centres de données indépendants, de mineurs de crypto-monnaie et de projets tels que Filecoin et Render.
  • Support de base pour les besoins en IA : les capacités de service essentielles comprennent l'inférence par lots et le service de modèle, la formation parallèle, l'ajustement des hyperparamètres et l'apprentissage par renforcement.
  • Technologie avancée pour des flux de travail améliorés dans un environnement cloud : Englobant une gamme d'outils d'orchestration, de frameworks ML pour l'allocation des ressources de calcul, l'exécution d'algorithmes, la formation de modèles, les opérations d'inférence, les solutions de stockage de données, la surveillance des GPU et les outils de gestion.
  • Capacités de calcul parallèle : Intégration de Ray, un cadre de calcul distribué open source, tirant parti du parallélisme inhérent de Ray pour paralléliser facilement les fonctions Python pour une exécution de tâches dynamique. Son stockage en mémoire facilite le partage rapide de données entre les tâches, éliminant les retards de sérialisation. De plus, io.net s'étend au-delà de Python en intégrant d'autres cadres ML prometteurs comme PyTorch et TensorFlow, améliorant ainsi la scalabilité.

En ce qui concerne la tarification, le site officiel de io.net estime que ses tarifs seront environ 90% inférieurs à ceux des services de cloud computing centralisés.

De plus, le jeton natif de io.net, IO coin, servira principalement de mécanisme de paiement et de récompenses au sein de l'écosystème. En outre, les demandeurs peuvent adopter un modèle similaire à Helium en convertissant IO coin en la devise stable "points IOSD" pour les transactions.

Avertissement:

  1. Cet article est repris de [GateWanxiang Blockchain], le titre original est « AI+Web3 Future Development Road (2) ) : Infrastructure », le droit d’auteur appartient à l’auteur original [Blockchain Wanxiang]. If there are objections to this reprint, please contact the Gate Learn Équipe, et ils s'en occuperont rapidement.

  2. Responsabilité de non-responsabilité : Les points de vue et opinions exprimés dans cet article sont uniquement ceux de l'auteur et ne constituent pas des conseils en investissement.

  3. Les traductions de l'article dans d'autres langues sont effectuées par l'équipe Gate Learn. Sans mentionner Gate.io, l'article traduit ne peut être reproduit, distribué ou plagié.

Lancez-vous
Inscrivez-vous et obtenez un bon de
100$
!