YBB Capital : Prospect potentiel - Marché de la puissance de calcul décentralisée (Partie I)

2023-11-04 10:31:18

Auteur original : Zeke, YBB Capital

! [YBB Capital : Aperçu de la piste potentielle - Marché de la puissance de calcul décentralisée (Partie I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-9162b2dfc1-dd1a6f-cd5cc0.webp)

Préambule

Depuis la naissance de GPT-3, l’IA générative a marqué un point d’inflexion explosif dans le domaine de l’intelligence artificielle avec ses performances étonnantes et ses vastes scénarios d’application, et les géants de la technologie ont commencé à se lancer dans la voie de l’IA en groupes. Cependant, l’exploitation de l’entraînement et de l’inférence de grands modèles de langage (LLM) nécessite beaucoup de puissance de calcul, et avec la mise à niveau itérative du modèle, la demande et le coût de puissance de calcul augmentent de manière exponentielle. Si l’on prend l’exemple de GPT-2 et GPT-3, la différence de nombre de paramètres entre GPT-2 et GPT-3 est de 1166 fois (150 millions de paramètres pour GPT-2 et 175 milliards de paramètres pour GPT-3), et le coût d’un seul entraînement de GPT-3 peut aller jusqu’à 12 millions de dollars, soit 200 fois celui de GPT-2, sur la base du modèle de prix du cloud GPU public de l’époque. Dans le processus d’utilisation réel, chaque question de l’utilisateur doit être déduite et calculée, et selon la situation de 13 millions d’utilisateurs uniques au début de cette année, la demande de puces correspondante est supérieure à 30 000 GPU A 100. Cela représente un coût d’entrée initial stupéfiant de 800 millions de dollars et environ 700 000 dollars par jour pour l’inférence du modèle.

La puissance de calcul insuffisante et les coûts élevés sont devenus un problème pour l’ensemble de l’industrie de l’IA, mais les mêmes problèmes semblent affliger l’industrie de la blockchain. D’une part, le quatrième halving de Bitcoin et le passage des ETF arrivent, et à mesure que les prix grimpent à l’avenir, la demande de matériel informatique des mineurs augmentera inévitablement de manière significative. D’autre part, la technologie « Zero-Knowledge Proof » (ZKP) est en plein essor, et Vitalik a souligné à plusieurs reprises que l’impact de ZK sur l’espace blockchain au cours de la prochaine décennie sera aussi important que la blockchain elle-même. Bien que l’avenir de cette technologie soit très attendu par l’industrie de la blockchain, ZK consomme beaucoup de puissance de calcul et de temps dans le processus de génération de preuves, tout comme l’IA, en raison du processus de calcul complexe.

Dans un avenir prévisible, une pénurie de puissance de calcul deviendra inévitable, alors le marché de la puissance de calcul décentralisée sera-t-il une bonne affaire ?

Définition du marché de l’informatique décentralisée

Le marché de la puissance de calcul décentralisée est en fait fondamentalement équivalent à la piste du cloud computing décentralisé, mais par rapport au cloud computing décentralisé, je pense personnellement que ce terme sera plus approprié pour décrire les nouveaux projets mentionnés plus tard. Le marché de l’informatique décentralisée devrait appartenir à un sous-ensemble de DePIN (réseau d’infrastructure physique décentralisé), et son objectif est de créer un marché informatique ouvert où toute personne disposant de ressources informatiques inactives peut fournir ses ressources par le biais d’incitations symboliques, principalement au service de la communauté des utilisateurs et des développeurs B-end. En ce qui concerne les projets bien connus, tels que Render Network, un réseau de solutions de rendu basées sur des GPU décentralisés, et Akash Network, une place de marché peer-to-peer distribuée pour le cloud computing, appartiennent à cette piste.

Ce qui suit commencera par les concepts de base, puis discutera des trois marchés émergents dans le cadre de cette piste : le marché de la puissance de calcul AGI, le marché de la puissance de calcul Bitcoin et le marché de la puissance de calcul AGI sur le marché de l’accélération matérielle ZK, et les deux derniers seront discutés dans « Aperçu potentiel de la piste : marché de la puissance de calcul décentralisée (partie II) ».

Vue d’ensemble du taux de hachage

L’origine du concept de puissance de calcul remonte à l’invention des ordinateurs, l’ordinateur original était un dispositif mécanique permettant d’effectuer des tâches informatiques, et la puissance de calcul fait référence à la puissance de calcul d’un dispositif mécanique. Avec le développement de la technologie informatique, le concept de puissance de calcul a également évolué, et maintenant la puissance de calcul fait généralement référence à la capacité du matériel informatique (CPU, GPU, FPGA, etc.) et des logiciels (système d’exploitation, compilateur, application, etc.) à fonctionner ensemble.

Définitions

La puissance de calcul fait référence à la quantité de données qu’un ordinateur ou un autre appareil informatique peut traiter ou au nombre de tâches informatiques qui peuvent être effectuées dans un certain laps de temps. Le taux de hachage est souvent utilisé pour décrire les performances d’un ordinateur ou d’un autre appareil informatique, et il s’agit d’une mesure importante de la puissance de traitement d’un appareil informatique.

Métriques

La puissance de calcul peut être mesurée de différentes manières, telles que la vitesse de calcul, la consommation d’énergie de calcul, la précision de calcul et le parallélisme. Dans le domaine de l’informatique, les mesures de puissance de calcul couramment utilisées comprennent les FLOPS (opérations en virgule flottante par seconde), les IPS (instructions par seconde), les TPS (transactions par seconde), etc.

FLOPS (Floating-Point Operations Per Second) fait référence à la capacité d’un ordinateur à gérer des opérations en virgule flottante (opérations mathématiques sur des nombres avec des décimales, en tenant compte de problèmes tels que la précision et les erreurs d’arrondi), et il mesure le nombre d’opérations en virgule flottante qu’un ordinateur peut effectuer par seconde. Le FLOPS est une mesure de la puissance de calcul haute performance d’un ordinateur et est couramment utilisé pour mesurer la puissance de calcul des superordinateurs, des serveurs de calcul haute performance et des unités de traitement graphique (GPU), entre autres. Par exemple, un système informatique a un FLOPS de 1 TFLOPS (1 trillion d’opérations en virgule flottante par seconde), ce qui signifie qu’il peut effectuer 1 trillion d’opérations en virgule flottante par seconde.

IPS (Instructions Per Second) fait référence à la vitesse à laquelle un ordinateur traite les instructions, et il mesure le nombre d’instructions qu’un ordinateur est capable d’exécuter par seconde. L’IPS est une mesure des performances d’un ordinateur à instruction unique et est souvent utilisé pour mesurer les performances d’une unité centrale de traitement (CPU), etc. Par exemple, un processeur avec un IPS de 3 GHz (qui peut exécuter 300 millions d’instructions par seconde) signifie qu’il peut exécuter 300 millions d’instructions par seconde.

Le TPS (Transactions Per Second) fait référence à la capacité d’un ordinateur à traiter des transactions, et il mesure le nombre de transactions qu’un ordinateur peut effectuer par seconde. Il est souvent utilisé pour mesurer les performances d’un serveur de base de données. Par exemple, un serveur de base de données avec un TPS de 1000 signifie qu’il peut traiter 1000 transactions de base de données par seconde.

En outre, il existe des indicateurs de puissance de calcul pour des scénarios d’application spécifiques, tels que la vitesse d’inférence, la vitesse de traitement d’image et la précision de la reconnaissance vocale.

Types de puissance de hachage

La puissance de calcul du GPU fait référence à la puissance de calcul d’une unité de traitement graphique. Contrairement au CPU (Central Processing Unit), le GPU est un matériel spécialement conçu pour traiter des données graphiques telles que des images et des vidéos, et il dispose d’un grand nombre d’unités de traitement et d’une puissance de calcul parallèle efficace pour effectuer un grand nombre d’opérations en virgule flottante en même temps. Étant donné que les GPU ont été utilisés à l’origine pour le traitement graphique des jeux, ils ont généralement des fréquences d’horloge plus élevées et une plus grande bande passante mémoire que les CPU pour prendre en charge des opérations graphiques complexes.

Différence entre CPU et GPU

Architecture : L’architecture informatique des CPU et des GPU est différente. Les processeurs ont généralement un ou plusieurs cœurs, chacun d’entre eux étant un processeur à usage général capable d’effectuer une variété d’opérations différentes. Les GPU, quant à eux, disposent d’un grand nombre de processeurs de flux et de shaders, qui sont dédiés à l’exécution d’opérations liées au traitement d’image.

Calcul parallèle : les GPU ont généralement des capacités de calcul parallèle plus élevées. Les processeurs ont un nombre limité de cœurs et ne peuvent exécuter qu’une seule instruction par cœur, mais les GPU peuvent avoir des milliers de processeurs de flux qui peuvent exécuter plusieurs instructions et opérations en même temps. Par conséquent, les GPU sont généralement mieux adaptés que les CPU aux tâches de calcul parallèle, telles que l’apprentissage automatique et l’apprentissage profond, qui nécessitent beaucoup de calcul parallèle.

Programmation : Les GPU sont plus complexes à programmer que les CPU, nécessitant l’utilisation de langages de programmation spécifiques tels que CUDA ou OpenCL, ainsi que l’utilisation de techniques de programmation spécifiques pour tirer parti de la puissance de calcul parallèle des GPU. En revanche, les processeurs sont plus simples à programmer et peuvent utiliser des langages de programmation et des outils de programmation courants.

L’importance de la puissance de calcul

À l’ère de la révolution industrielle, le pétrole était le sang du monde, imprégnant toutes les industries. La puissance de calcul se trouve dans la blockchain, et dans l’ère de l’IA à venir, la puissance de calcul sera le « pétrole numérique » du monde. De la ruée folle des grandes entreprises vers les puces d’IA et les milliers de milliards d’actions Nvidia, au récent blocus des puces haut de gamme en Chine par les États-Unis, en passant par la taille de la puissance de calcul, la surface des puces et même l’interdiction prévue du cloud GPU, son importance est évidente, et la puissance de calcul sera une commodité dans la prochaine ère.

! [YBB Capital : Aperçu de la piste potentielle - Marché de la puissance de calcul décentralisée (Partie I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-32b6a74c8b-dd1a6f-cd5cc0.webp)

Vue d’ensemble de l’Intelligence Artificielle Générale

L’intelligence artificielle (IA) est une nouvelle science technique qui étudie et développe des théories, des méthodes, des technologies et des systèmes d’application pour simuler, étendre et étendre l’intelligence humaine. Il est né dans les années cinquante et soixante du 20ème siècle, et après plus d’un demi-siècle d’évolution, il a connu le développement entrelacé de trois vagues de symbolisme, de connexionnisme et d’acteurs, et maintenant, en tant que technologie générale émergente, il entraîne de grands changements dans la vie sociale et dans tous les domaines de la vie. Une définition plus spécifique de l’IA générative est l’intelligence artificielle générale (AGI), un système d’IA avec une large compréhension qui peut présenter une intelligence similaire ou supérieure à celle des humains dans une variété de tâches et de domaines différents. L’IAG nécessite essentiellement trois éléments : l’apprentissage profond (DL), le big data et la puissance de calcul à grande échelle.

Apprentissage profond

L’apprentissage profond est un sous-domaine de l’apprentissage automatique (ML), et les algorithmes d’apprentissage profond sont des réseaux neuronaux calqués sur le cerveau humain. Par exemple, le cerveau humain contient des millions de neurones interconnectés qui travaillent ensemble pour apprendre et traiter l’information. De même, les réseaux neuronaux d’apprentissage profond (ou réseaux de neurones artificiels) sont constitués de plusieurs couches de neurones artificiels qui travaillent ensemble à l’intérieur d’un ordinateur. Les neurones artificiels sont des modules logiciels appelés nœuds qui utilisent des calculs mathématiques pour traiter les données. Les réseaux de neurones artificiels sont des algorithmes d’apprentissage profond qui utilisent ces nœuds pour résoudre des problèmes complexes.

! [YBB Capital : Aperçu de la piste potentielle - Marché de la puissance de calcul décentralisée (Partie I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-975a5053f4-dd1a6f-cd5cc0.webp)

Les réseaux neuronaux peuvent être divisés en couches d’entrée, couches cachées et couches de sortie, et les paramètres sont connectés entre différentes couches.

Couche d’entrée : la couche d’entrée est la première couche du réseau neuronal et est responsable de la réception des données d’entrée externes. Chaque neurone de la couche d’entrée correspond à une caractéristique des données d’entrée. Par exemple, lors du traitement des données d’image, chaque neurone peut correspondre à une valeur de pixel de l’image ;

Couches cachées : la couche d’entrée traite les données et les transmet aux couches les plus éloignées du réseau neuronal. Ces couches cachées traitent les informations à différents niveaux, ajustant leur comportement au fur et à mesure que de nouvelles informations sont reçues. Les réseaux d’apprentissage profond comportent des centaines de couches cachées qui peuvent être utilisées pour analyser les problèmes sous différents angles. Par exemple, si l’on vous donne l’image d’un animal inconnu qui doit être classé, vous pouvez la comparer à un animal que vous connaissez déjà. Par exemple, la forme des oreilles, le nombre de pattes et la taille des pupilles peuvent déterminer de quel type d’animal il s’agit. Les couches cachées dans les réseaux neuronaux profonds fonctionnent de la même manière. Si un algorithme d’apprentissage profond tente de classer une image d’animal, chacune de ses couches cachées traite les différentes caractéristiques de l’animal et tente de le classer avec précision ;

Couche de sortie : la couche de sortie est la dernière couche du réseau neuronal et est responsable de la génération de la sortie du réseau. Chaque neurone de la couche de sortie représente une classe ou une valeur de sortie possible. Par exemple, dans un problème de classification, chaque neurone de la couche de sortie peut correspondre à une catégorie, tandis que dans un problème de régression, la couche de sortie peut n’avoir qu’un seul neurone dont la valeur représente le résultat prédit ;

Paramètres : Dans un réseau neuronal, les connexions entre les différentes couches sont représentées par des paramètres de pondération et de biais, qui sont optimisés pendant l’entraînement pour permettre au réseau d’identifier avec précision les modèles et de faire des prédictions dans les données. L’augmentation des paramètres peut augmenter la capacité du modèle d’un réseau neuronal, c’est-à-dire la capacité du modèle à apprendre et à représenter des modèles complexes dans les données. Cependant, l’augmentation des paramètres augmentera la demande de puissance de calcul.

Le Big Data

Afin de s’entraîner efficacement, les réseaux de neurones nécessitent souvent une grande quantité de données, diverses, de haute qualité et de sources multiples. C’est la base de l’entraînement et de la validation des modèles d’apprentissage automatique. En analysant le Big Data, les modèles d’apprentissage automatique peuvent apprendre des modèles et des relations dans les données pour faire des prédictions ou des classifications.

Puissance de calcul à grande échelle

La structure complexe multicouche des réseaux neuronaux, un grand nombre de paramètres, la nécessité d’un traitement des données volumineuses, les méthodes d’apprentissage itératives (dans la phase d’apprentissage, le modèle doit itérer à plusieurs reprises, et la propagation vers l’avant et la propagation arrière de chaque couche doivent être calculées pendant le processus d’apprentissage, y compris le calcul de la fonction d’activation, le calcul de la fonction de perte, le calcul du gradient et la mise à jour du poids), le besoin de calcul de haute précision, la capacité de calcul parallèle, la technologie d’optimisation et de régularisation, et le processus d’évaluation et de vérification du modèle La demande de puissance de calcul à grande échelle augmente d’environ 10 fois par an. Jusqu’à présent, le dernier modèle GPT-4 contient 1,8 trillion de paramètres, coûte plus de 60 millions de dollars pour un seul entraînement et nécessite 2,15 e 25 FLOPS (21 500 trillions de calculs en virgule flottante). La demande de puissance de calcul pour le prochain entraînement de modèle continue de croître, et de nouveaux modèles sont également en augmentation.

Économie de l’informatique basée sur l’IA

Taille future du marché

Selon les estimations les plus fiables, le « Rapport d’évaluation de l’indice mondial de puissance de calcul 2022-2023 » compilé conjointement par IDC (International Data Corporation) et Inspur Information et l’Institut de recherche sur l’industrie mondiale de l’Université Tsinghua montre que le marché mondial de l’informatique basée sur l’IA passera de 19,50 milliards de dollars en 2022 à 34,66 milliards de dollars en 2026, dont le marché de l’informatique générative par IA passera de 8,2 milliards en 2022 100 millions de dollars passeront à 10,99 milliards de dollars d’ici 2026. L’informatique générative basée sur l’IA passera de 4,2 % à 31,7 % du marché global de l’intelligence artificielle.

! [YBB Capital : Aperçu de la piste potentielle - Marché de la puissance de calcul décentralisée (Partie I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-28d31faae8-dd1a6f-cd5cc0.webp)

Puissance de calcul, monopole économique

LES GPU IA SONT MONOPOLISÉS PAR NVIDA, EXTRÊMEMENT CHERS (LE DERNIER H-100 SE VEND 40 000 $ LA PUCE), ET LES GPU ONT ÉTÉ RACHETÉS PAR LES GÉANTS DE LA SILICON VALLEY DÈS LEUR MISE EN VENTE, ET CERTAINS DE CES APPAREILS SONT UTILISÉS POUR FORMER LEURS PROPRES NOUVEAUX MODÈLES. L’autre partie est louée aux développeurs d’IA par le biais de plates-formes cloud, telles que Google, Amazon et les plates-formes de cloud computing de Microsoft, qui disposent d’un grand nombre de ressources informatiques telles que des serveurs, des GPU et des TPU. La puissance de calcul est devenue une nouvelle ressource monopolisée par les géants, et un grand nombre de développeurs liés à l’IA ne peuvent même pas acheter un GPU dédié sans majoration, et afin d’utiliser les derniers équipements, les développeurs doivent louer des serveurs cloud AWS ou Microsoft. Financièrement, l’entreprise est extrêmement rentable, les services cloud d’AWS ayant une marge brute de 61 %, tandis que Microsoft a une marge brute plus élevée de 72 %.

! [YBB Capital : Aperçu de la piste potentielle - Marché de la puissance de calcul décentralisée (Partie I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-d47cc2b1ec-dd1a6f-cd5cc0.webp)

Alors, devons-nous accepter cette autorité et ce contrôle centralisés, et payer 72 % des frais de profit pour les ressources informatiques ? Les géants qui monopolisent le Web2 auront-ils le monopole de la prochaine ère ?

L’énigme de la puissance de calcul de l’AGI décentralisée

En matière d’antitrust, la décentralisation est généralement la solution optimale, et à partir des projets existants, pouvons-nous utiliser le protocole pour atteindre la puissance de calcul à grande échelle requise par l’IA par le biais de projets de stockage dans DePIN et de GPU inactifs tels que RDNR ? La réponse est non, le chemin pour tuer des dragons n’est pas si simple, les premiers projets ne sont pas spécifiquement conçus pour la puissance de calcul de l’IAG, ce n’est pas faisable, et la puissance de calcul doit faire face à au moins les cinq défis suivants sur la chaîne :

Vérification du travail : Pour construire un réseau informatique véritablement fiable et fournir des incitations financières aux participants, le réseau doit disposer d’un moyen de vérifier que le travail de calcul d’apprentissage profond est réellement effectué. Au cœur de ce problème se trouve la dépendance à l’état des modèles d’apprentissage profond ; Dans un modèle de Deep Learning, l’entrée de chaque couche dépend de la sortie de la couche précédente. Cela signifie que vous ne pouvez pas valider une seule couche de votre modèle sans prendre en compte toutes les couches qui la précèdent. Les calculs pour chaque couche sont basés sur les résultats de toutes les couches qui l’ont précédée. Par conséquent, afin de vérifier le travail effectué à un point particulier (par exemple, une couche particulière), tout le travail doit être effectué depuis le début du modèle jusqu’à ce point particulier ;
Marché : Le marché de la puissance de calcul de l’IA en tant que marché émergent est soumis à des dilemmes d’offre et de demande, tels que des problèmes de démarrage à froid, et la liquidité de l’offre et de la demande doit être à peu près adaptée dès le début pour que le marché puisse se développer avec succès. Afin de capturer l’offre potentielle de puissance de hachage, les participants doivent se voir offrir des récompenses explicites en échange de leurs ressources de hachage. Le marché a besoin d’un mécanisme pour suivre le travail de calcul effectué et payer les frais correspondants aux fournisseurs en temps opportun. Sur les marchés traditionnels, les intermédiaires s’occupent de tâches telles que la gestion et l’intégration, tout en réduisant les coûts opérationnels en fixant des paiements minimums. Cependant, cette approche est plus coûteuse lors de la mise à l’échelle du marché. Seule une petite fraction de l’offre peut être efficacement captée économiquement, ce qui conduit à un état d’équilibre seuil où le marché ne peut capter et maintenir qu’une offre limitée et ne peut pas croître davantage ;
Problème de temps d’arrêt : Le problème de temps d’arrêt est un problème fondamental de la théorie computationnelle, qui consiste à juger si une tâche de calcul donnée sera terminée dans un temps fini ou ne s’arrêtera jamais. Ce problème est insoluble, ce qui signifie qu’il n’existe pas d’algorithme universel capable de prédire si toutes les tâches de calcul s’arrêteront dans un laps de temps fini. Par exemple, sur Ethereum, l’exécution des contrats intelligents est confrontée à un temps d’arrêt similaire. c’est-à-dire qu’il est impossible de déterminer à l’avance combien de ressources informatiques seront nécessaires à l’exécution d’un contrat intelligent, ou s’il sera achevé dans un délai raisonnable ;

(Dans le contexte de l’apprentissage profond, ce problème sera plus complexe à mesure que les modèles et les cadres passeront de la construction de graphes statiques à la construction et à l’exécution dynamiques.) ）

Protection de la vie privée : La conception et le développement de la sensibilisation à la protection de la vie privée sont indispensables pour l’équipe de projet. Bien qu’une grande partie de la recherche sur l’apprentissage automatique puisse être effectuée sur des ensembles de données accessibles au public, il est souvent nécessaire d’affiner les modèles sur des données utilisateur propriétaires pour améliorer les performances des modèles et les adapter à des applications spécifiques. Ce processus d’ajustement fin peut impliquer le traitement de données à caractère personnel et doit donc prendre en compte les exigences du bouclier de protection des données ;
Parallélisation : Il s’agit d’un facteur clé de la viabilité des projets en cours, les modèles d’apprentissage profond sont souvent entraînés en parallèle sur de grands clusters matériels avec des architectures propriétaires et une très faible latence, tandis que les GPU dans les réseaux informatiques distribués nécessitent des échanges de données fréquents et sont limités par les GPU les moins performants. Dans le cas de sources de puissance de calcul peu fiables et peu fiables, la parallélisation hétérogène est un problème qui doit être résolu, et la méthode actuellement réalisable consiste à réaliser la parallélisation par le biais de modèles de transformateurs, tels que les transformateurs de commutation, qui ont maintenant les caractéristiques d’une parallélisation élevée.

Solution : Bien que la tentative actuelle sur le marché de la puissance de calcul de l’AGI décentralisée n’en soit qu’à ses débuts, il se trouve que deux projets ont initialement résolu la conception consensuelle du réseau décentralisé et le processus de mise en œuvre du réseau informatique décentralisé dans l’entraînement et l’inférence des modèles. Ce qui suit prendra Gensyn et Together comme exemples pour analyser les méthodes de conception et les problèmes du marché de la puissance de calcul AGI décentralisée.

Retrouvailles

! [YBB Capital : Aperçu de la piste potentielle - Marché de la puissance de calcul décentralisée (Partie I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-3edfcfbb39-dd1a6f-cd5cc0.webp)

Gensyn est une place de marché pour la puissance de calcul de l’IAG qui est encore en phase de construction, conçue pour résoudre les multiples défis du calcul décentralisé de l’apprentissage profond, ainsi que pour réduire le coût de l’apprentissage profond aujourd’hui. Gensyn est essentiellement un protocole de preuve d’enjeu de couche 1 basé sur le réseau Polkadot, qui récompense directement les solveurs (solveurs) par le biais de contrats intelligents en échange de leurs périphériques GPU inactifs pour le calcul, et effectue des tâches d’apprentissage automatique.

Pour en revenir à la question ci-dessus, le cœur de la construction d’un réseau informatique véritablement sans confiance consiste à valider le travail d’apprentissage automatique qui a été effectué. Il s’agit d’un problème très complexe qui nécessite de trouver un équilibre à l’intersection de la théorie de la complexité, de la théorie des jeux, de la cryptographie et de l’optimisation.

Gensyn propose une solution simple où le solveur soumet les résultats de la tâche d’apprentissage automatique qu’il a effectuée. Pour vérifier que ces résultats sont exacts, un autre validateur indépendant tente de refaire le même travail. Cette méthode peut être appelée réplication unique, car un seul validateur se réexécute. Cela signifie qu’il n’y a qu’un seul effort supplémentaire pour vérifier l’exactitude de l’œuvre originale. Cependant, si la personne qui vérifie le travail n’est pas le demandeur du travail d’origine, le problème de confiance demeure. Parce que les validateurs eux-mêmes peuvent ne pas être honnêtes et que leur travail doit être vérifié. Cela conduit à un problème potentiel : si la personne qui vérifie le travail n’est pas le demandeur du travail original, un autre validateur est nécessaire pour vérifier son travail. Mais ce nouveau validateur peut également ne pas être digne de confiance, de sorte qu’un autre validateur est nécessaire pour valider leur travail, qui peut se poursuivre indéfiniment, formant une chaîne infinie de réplication. Ici, nous devons introduire trois concepts clés et les entrelacer pour construire un système de participants à quatre rôles afin de résoudre le problème de la chaîne infinie.

Preuve d’apprentissage probabiliste : utilisez les métadonnées d’un processus d’optimisation basé sur le gradient pour construire un certificat de travail effectué. En répliquant certaines étapes, vous pouvez rapidement valider ces certificats pour vous assurer que le travail a été effectué comme prévu.

Protocole pinpoint basé sur les graphes : utilise un protocole Pinnacle multi-granularité basé sur les graphes, ainsi qu’une exécution cohérente des évaluateurs croisés. Cela permet de réexécuter les efforts de vérification et de les comparer pour assurer la cohérence, et finalement de les confirmer par la blockchain elle-même.

Jeux d’incitation de style Truebit : Utilisez le staking et le slashing pour créer des jeux d’incitation qui garantissent que chaque participant financièrement sain agira honnêtement et effectuera les tâches prévues.

Le système des contributeurs se compose de committers, de solveurs, de validateurs et de lanceurs d’alerte.

Soumissionnaires :

L’auteur de la demande est l’utilisateur final du système, fournit les tâches qui seront calculées et paie pour les unités de travail effectuées.

Solveurs (Solveurs) :

Le solveur est l’opérateur principal du système, effectuant l’entraînement du modèle et générant des preuves qui sont vérifiées par les validateurs ;

Vérificateurs:

Le vérificateur est la clé pour lier le processus d’apprentissage non déterministe au calcul linéaire déterministe, en répliquant une partie de la preuve du solveur et en comparant la distance au seuil attendu.

Lanceurs d’alerte :

Les lanceurs d’alerte sont la dernière ligne de défense, vérifiant le travail des validateurs et lançant des contestations dans l’espoir de paiements de bonus lucratifs.

Le système fonctionne

Le protocole est conçu pour fonctionner dans un système de jeu qui se composera de huit phases, couvrant quatre rôles principaux des participants, et sera utilisé pour compléter le processus complet, de la soumission de la tâche à la validation finale.

Soumission de la tâche : Une tâche se compose de trois éléments d’information spécifiques :

Métadonnées décrivant les tâches et les hyperparamètres ;
Un modèle binaire (ou schéma de base) ;
Données d’entraînement pré-traitées accessibles au public.

Afin de soumettre la tâche, l’émetteur spécifie les détails de la tâche dans un format lisible par machine et le soumet à la chaîne avec le binaire du modèle (ou schéma lisible par machine) et un emplacement accessible au public des données d’apprentissage prétraitées. Les données exposées peuvent être stockées dans un stockage d’objets simple tel qu’AWS S3 ou dans un stockage décentralisé tel que IPFS, Arweave ou Subspace.
Profilage : Le processus d’analyse établit un seuil de distance de base pour l’apprentissage afin de vérifier la preuve. Le validateur grattera périodiquement la tâche d’analyse et générera un seuil de variation pour la comparaison de preuve d’apprentissage. Pour générer des seuils, les validateurs exécutent et réexécutent de manière déterministe une partie de l’entraînement, en utilisant différentes graines aléatoires, en générant et en vérifiant leurs propres preuves. Au cours de ce processus, le validateur établit un seuil de distance global attendu qui peut être utilisé comme un effort non déterministe pour valider la solution.
Formation : Après analyse, la tâche est envoyée dans un pool de tâches public (similaire au Mempool d’Ethereum). Sélectionnez un solveur pour exécuter la tâche et supprimez-la du pool de tâches. Le solveur exécute la tâche en fonction des métadonnées soumises par l’émetteur, ainsi que du modèle et des données d’apprentissage fournis. Lors de l’exécution de la tâche d’apprentissage, le solveur génère également une preuve d’apprentissage en vérifiant et en stockant périodiquement les métadonnées (y compris les paramètres) du processus d’apprentissage afin que le vérificateur puisse reproduire les étapes d’optimisation suivantes aussi précisément que possible.
Génération de preuves : le solveur stocke périodiquement les pondérations ou les mises à jour du modèle et l’index correspondant avec le jeu de données d’apprentissage afin d’identifier les échantillons utilisés pour générer des mises à jour de poids. La fréquence des points de contrôle peut être ajustée pour offrir une plus grande assurance ou pour économiser de l’espace de stockage. La preuve peut être « empilée », ce qui signifie que la preuve peut commencer par une distribution aléatoire des poids utilisés pour initialiser les poids, ou commencer par des poids pré-entraînés générés à l’aide de leurs propres preuves. Cela permet au protocole de créer un ensemble de modèles de base éprouvés et pré-entraînés (c’est-à-dire des modèles de base) qui peuvent être affinés pour des tâches plus spécifiques.
Vérification de la preuve : Une fois la tâche terminée, le solveur enregistre la tâche auprès de la chaîne et affiche sa preuve d’apprentissage dans un emplacement accessible au public pour que le validateur puisse y accéder. Le validateur extrait la tâche de validation du pool de tâches commun et effectue un travail de calcul pour réexécuter une partie de la preuve et effectuer le calcul de la distance. La chaîne (ainsi que les seuils calculés lors de la phase d’analyse) utilise ensuite la distance résultante pour déterminer si la vérification correspond à la preuve.
Défi de repérage basé sur des graphiques : Après avoir vérifié la preuve d’apprentissage, le lanceur d’alerte peut copier le travail du vérificateur pour vérifier que la vérification elle-même est effectuée correctement. Si un lanceur d’alerte estime que la vérification a été effectuée par erreur (malveillante ou non malveillante), il peut contester le quorum contractuel pour recevoir une récompense. Cette récompense peut provenir des dépôts des solveurs et des validateurs (dans le cas d’un véritable positif), ou de la cagnotte du coffre-fort de la loterie (dans le cas d’un faux positif) et l’arbitrage est effectué en utilisant la chaîne elle-même. Les lanceurs d’alerte (dans leur cas, les validateurs) ne vérifieront et ne contesteront par la suite le travail que s’ils s’attendent à recevoir une rémunération appropriée. En pratique, cela signifie que les lanceurs d’alerte sont censés rejoindre et quitter le réseau en fonction du nombre de lanceurs d’alerte ayant d’autres activités (c’est-à-dire avec des dépôts en direct et des contestations). Par conséquent, la stratégie par défaut attendue pour tout lanceur d’alerte est de rejoindre le réseau lorsqu’il y a moins d’autres lanceurs d’alerte, de déposer un dépôt, de sélectionner au hasard une tâche active et de commencer son processus de vérification. Une fois la première tâche terminée, ils saisiront une autre tâche active aléatoire et répéteront jusqu’à ce que le nombre de lanceurs d’alerte dépasse leur seuil de paiement déterminé, puis ils quitteront le réseau (ou, plus probablement, passeront à un autre rôle dans le réseau – validateur ou solveur – en fonction de leurs capacités matérielles) jusqu’à ce que la situation s’inverse à nouveau.
Arbitrage contractuel : Lorsqu’un validateur est contesté par un lanceur d’alerte, il entame un processus avec la chaîne pour savoir où se trouve l’opération ou l’entrée contestée, et enfin la chaîne effectue l’opération de base finale et détermine si la contestation est justifiée. Afin de garder le lanceur d’alerte honnête et crédible et de surmonter le dilemme des validateurs, des erreurs forcées régulières et des paiements de jackpot sont introduits ici.
Règlement : Au cours du processus de règlement, les participants sont payés en fonction de la conclusion des vérifications de probabilité et de certitude. En fonction des résultats des vérifications et des défis précédents, il y aura des paiements différents pour différents scénarios. Si le travail est considéré comme ayant été effectué correctement et que toutes les vérifications ont réussi, le fournisseur de la solution et le validateur sont récompensés en fonction de l’action effectuée.

Bref bilan du projet

Gensyn a conçu un merveilleux système de jeu sur les couches de vérification et d’incitation pour identifier rapidement les erreurs en trouvant des divergences dans le réseau, mais il manque encore de nombreux détails dans le système actuel. Par exemple, comment définir des paramètres pour s’assurer que les récompenses et les punitions sont raisonnables sans que le seuil ne soit trop élevé ? Le jeu a-t-il pris en compte la différence entre le cas extrême et la puissance de calcul du solveur ? Il n’y a pas de description détaillée du fonctionnement parallèle hétérogène dans la version actuelle du livre blanc, et il semble que la mise en œuvre de Gensyn soit encore loin.

Together.ai

Together est une entreprise qui se concentre sur l’open source de grands modèles et qui s’engage dans des solutions informatiques d’IA décentralisées, dans l’espoir que tout le monde puisse accéder à l’IA et l’utiliser n’importe où. À proprement parler, Together n’est pas un projet de blockchain, mais le projet a initialement résolu le problème de latence dans le réseau informatique décentralisé AGI. Par conséquent, l’article suivant n’analyse que la solution de Together et n’évalue pas le projet.

Comment entraîner et inférer de grands modèles lorsqu’un réseau décentralisé est 100 fois plus lent qu’un centre de données ? **

Imaginons à quoi ressemblerait la distribution des périphériques GPU participant au réseau si la décentralisation était supprimée. Ces appareils seront distribués sur différents continents, dans différentes villes, et devront être connectés les uns aux autres, et la latence et la bande passante de la connexion varieront. Comme le montre la figure ci-dessous, un scénario distribué est simulé avec des appareils répartis en Amérique du Nord, en Europe et en Asie, avec une bande passante et une latence variables entre les appareils. Alors, que faut-il faire pour le connecter en série ?

! [YBB Capital : Aperçu de la piste potentielle - Marché de la puissance de calcul décentralisée (Partie I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-5780e9e2df-dd1a6f-cd5cc0.webp)

Modélisation computationnelle de l’entraînement distribué : la figure suivante montre l’entraînement du modèle de base sur plusieurs appareils, et il existe trois types de communication en termes de types de communication : activation directe, gradient arrière et communication latérale.

! [YBB Capital : Aperçu de la piste potentielle - Marché de la puissance de calcul décentralisée (Partie I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-3ce285b3bf-dd1a6f-cd5cc0.webp)

En combinaison avec la bande passante et la latence de communication, deux formes de parallélisme doivent être prises en compte : le parallélisme de pipeline et le parallélisme de données, correspondant aux trois types de communication dans le cas multi-appareils :

Dans le parallélisme des pipelines, toutes les couches du modèle sont divisées en étapes, où chaque dispositif traite une phase, qui est une séquence continue de couches, telles que plusieurs blocs de transformateurs ; Dans le passage vers l’avant, l’activation est passée à l’étape suivante, tandis que dans le passage vers l’arrière, le gradient de l’activation est passé à l’étape précédente.

Dans le parallélisme des données, l’appareil calcule indépendamment les gradients de différents microlots, mais communique pour synchroniser ces gradients.

Optimisation de la planification :

Dans un environnement décentralisé, le processus de formation est souvent limité par la communication. Les algorithmes de planification attribuent généralement des tâches qui nécessitent une grande quantité de communication à des appareils avec des vitesses de connexion plus rapides, et compte tenu des dépendances entre les tâches et de l’hétérogénéité du réseau, le coût d’une stratégie de planification spécifique doit d’abord être modélisé. Afin de saisir le coût de communication complexe de l’entraînement du modèle de base, Together propose une nouvelle formule et décompose le modèle de coût en deux niveaux grâce à la théorie des graphes :

La théorie des graphes est une branche des mathématiques qui étudie la nature et la structure des graphes (réseaux). Un graphe est composé de sommets (nœuds) et d’arêtes (lignes qui relient les nœuds). L’objectif principal de la théorie des graphes est d’étudier les différentes propriétés des graphes, telles que la connectivité des graphes, les couleurs des graphes, la nature des chemins et des boucles dans les graphes.
Le premier niveau est une partition de graphe équilibrée (divisant l’ensemble des sommets du graphe en plusieurs sous-ensembles de tailles égales ou à peu près égales, tout en minimisant le nombre d’arêtes entre les sous-ensembles. Dans cette segmentation, chaque sous-ensemble représente une partition, et le coût de communication est réduit en minimisant les arêtes entre les partitions, ce qui correspond au coût de communication du parallélisme des données.
Le deuxième niveau est un problème d’appariement de graphes et de voyageur de commerce (un problème d’appariement de graphes et de voyageur de commerce conjoint est un problème d’optimisation combinatoire qui combine des éléments d’appariement de graphes et de problèmes de voyageur de commerce. Le problème de l’appariement de graphes est de trouver une correspondance dans le graphe afin qu’une sorte de coût soit minimisé ou maximisé. Le problème du voyageur de commerce est de trouver le chemin le plus court vers tous les nœuds du graphe), correspondant au coût de communication du parallélisme des pipelines.

! [YBB Capital : Aperçu de la piste potentielle - Marché de la puissance de calcul décentralisée (Partie I)] (https://img-cdn.gateio.im/webp-social/moments-7f230462a9-51146865fc-dd1a6f-cd5cc0.webp) La figure ci-dessus est un diagramme schématique du processus, car le processus de mise en œuvre réel implique des formules de calcul complexes. Pour faciliter la compréhension, ce qui suit expliquera le processus dans le diagramme en termes simples, et le processus de mise en œuvre détaillé peut être consulté par vous-même dans la documentation sur le site officiel de Together.

Supposons qu’il existe un ensemble de périphériques D avec N périphériques, et que la communication entre eux a un délai (matrice A) et une bande passante (matrice B) indéterminés. Sur la base de l’ensemble de dispositifs D, nous générons d’abord une segmentation graphique équilibrée. Le nombre d’appareils dans chaque division ou groupe d’appareils est à peu près égal et ils gèrent tous les mêmes étapes de pipeline. Cela garantit que lorsque les données sont mises en parallèle, des groupes d’appareils effectuent une quantité de travail similaire. (Le parallélisme des données se produit lorsque plusieurs appareils effectuent la même tâche, tandis que les étapes de pipelining se produisent lorsque les appareils effectuent différentes étapes de tâche dans un ordre spécifique). En fonction de la latence et de la bande passante de la communication, le « coût » du transfert de données entre des groupes d’appareils peut être calculé à l’aide de formules. Chaque groupe équilibré d’appareils est combiné pour produire un graphique approximatif entièrement connecté, où chaque nœud représente une étape du pipeline et les arêtes représentent le coût de la communication entre les deux étapes. Pour minimiser les coûts de communication, un algorithme d’appariement est utilisé pour déterminer quels groupes d’appareils doivent fonctionner ensemble.

Pour une optimisation plus poussée, le problème peut également être modélisé comme un problème de vendeur itinérant en boucle ouverte (la boucle ouverte signifie qu’il n’est pas nécessaire de revenir à l’origine du chemin) pour trouver un chemin optimal pour transférer des données entre tous les appareils. Enfin, Together utilise son algorithme de planification innovant pour trouver la stratégie d’allocation optimale pour un modèle de coût donné, minimisant ainsi les coûts de communication et maximisant le débit de formation. Selon les mesures réelles, même si le réseau est 100 fois plus lent dans le cadre de cette optimisation de planification, le débit d’entraînement de bout en bout n’est qu’environ 1,7 à 2,3 fois plus lent.

Optimisation de la compression des communications :

Pour l’optimisation de la compression des communications, Together introduit l’algorithme AQ-SGD (pour un processus de calcul détaillé, veuillez vous référer à l’article Fine-tuning Language Models over Slow Networks using Activation Compression with Guarantees), AQ-SGD L’algorithme est une nouvelle technologie de compression active conçue pour résoudre le problème d’efficacité de communication de l’entraînement parallèle des pipelines sur les réseaux à faible vitesse. Contrairement aux méthodes précédentes de compression directe de la valeur de l’activité, AQ-SGD se concentre sur la compression de la variation de la valeur de l’activité du même échantillon d’apprentissage sur différentes périodes, et cette méthode unique introduit une dynamique « auto-exécutable » intéressante, et les performances de l’algorithme devraient s’améliorer progressivement à mesure que l’apprentissage se stabilise. Après une analyse théorique rigoureuse, l’algorithme AQ-SGD prouve qu’il a un bon taux de convergence dans certaines conditions techniques et la fonction de quantification de l’erreur bornée. L’algorithme peut être mis en œuvre efficacement sans ajouter de surcharge supplémentaire d’exécution de bout en bout, bien qu’il nécessite d’utiliser plus de mémoire et de disques SSD pour stocker la valeur de l’activité. Grâce à une validation expérimentale approfondie sur des ensembles de données de classification de séquences et de modélisation du langage, AQ-SGD peut compresser les valeurs d’activité à 2-4 bits sans sacrifier les performances de convergence. De plus, AQ-SGD peut être intégré à des algorithmes de compression de gradient de pointe pour obtenir une « compression de communication de bout en bout », c’est-à-dire que l’échange de données entre toutes les machines, y compris les gradients de modèle, les valeurs d’activité directe et les gradients inverses, est compressé avec une faible précision, améliorant ainsi considérablement l’efficacité de la communication de l’entraînement distribué. Par rapport aux performances d’entraînement de bout en bout d’un réseau informatique centralisé (par exemple, 10 Gbit/s) sans compression, il n’est actuellement que 31 % plus lent. Si l’on ajoute à cela les données d’optimisation de la planification, bien qu’il y ait encore un certain écart par rapport au réseau centralisé de puissance de calcul, il y a un espoir relativement grand de rattraper son retard à l’avenir.

En conclusion

Dans le cadre de la période de dividende apportée par la vague de l’IA, le marché de la puissance de calcul de l’IAG est sans aucun doute le marché avec le plus grand potentiel et la plus grande demande parmi de nombreux marchés de puissance de calcul. Cependant, la difficulté de développement, les exigences matérielles et les exigences en capital sont également les plus élevées. Combiné avec les deux projets ci-dessus, il y a encore une certaine distance à parcourir dans la mise en œuvre du marché de la puissance de calcul AGI, et le réseau réel décentralisé est beaucoup plus complexe que la situation idéale, ce qui n’est évidemment pas suffisant pour rivaliser avec les géants du cloud. Au moment de la rédaction de cet article, il a également été observé que certains projets qui n’en sont pas à leurs balbutiements (stade PPT) ont commencé à explorer de nouveaux points d’entrée, tels que la focalisation sur l’étape d’inférence moins difficile ou l’entraînement de petits modèles, qui sont des tentatives plus pratiques.

On ne sait toujours pas à quoi ressemblera le marché de la puissance de calcul de l’IAG, et bien qu’il y ait de nombreux défis, il est important de décentraliser et sans autorisation la puissance de calcul de l’AGI à long terme, et les droits d’inférence et d’entraînement ne devraient pas être concentrés entre les mains de quelques géants centralisés. Parce que l’humanité n’a pas besoin d’une nouvelle « religion » ou d’un nouveau « pape », et encore moins de payer des « cotisations » coûteuses.

Références

Gensyn Litepaper :

2.NeurIPS 2022 : Surmonter les goulots d’étranglement de la communication pour la formation décentralisée :

Affiner les modèles de langage sur les réseaux lents à l’aide de la compression d’activation avec des garanties :
Le protocole de calcul d’apprentissage automatique et notre avenir :

5.Microsoft : Publication des résultats de l’exercice 23 Q2 :

Rivalisez pour les tickets AI : BAT et Byte Meituan sont en concurrence pour les GPU :
IDC : Rapport d’évaluation de l’indice mondial de puissance de calcul 2022-2023 :
Estimation de la formation du grand modèle de Guosheng Securities :
Infowings : Quelle est la relation entre la puissance de calcul et l’IA ? ：

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime

Récompense
1
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
1/3
1Show My Alpha Points
9k Popularité
2Crypto Market Rebound
162k Popularité
3SEC Crypto Project
17k Popularité
4CandyDrop Airdrop Event 6.0
100k Popularité
5White House Crypto Report
82k Popularité

Épingler