L’histoire de l’AMD MI300 Nvidia H100 ? Les performances de GPT-4 dépassent les 25 %, et l’épreuve de force des puces d’IA est sur le point de commencer
Face à l’épreuve de force des puces d’IA à venir, de nombreuses startups de puces sont impatientes d’essayer et espèrent briser le monopole de NVIDIA d’un seul coup. Et le MI300 d’AMD fonctionne mieux que le H100 lors du déploiement du modèle GPT-4 avec une fenêtre contextuelle de 32K ?
L’épreuve de force des puces IA arrive !
Que réserve l’avenir aux startups développeurs de matériel d’IA ?
Le PDG de Tenstorrent, David Bennett, a déclaré sans ambages que dans notre secteur, la plupart des startups finissent par faire faillite.
Comment survivez-vous ? Il conseille aux startups de rester flexibles et d’éviter de se limiter à des cas d’utilisation étroits.
Bennett ne fait pas référence à un marché de niche, mais à un large groupe de dizaines d’entreprises, de SiMa.ai à Cerebras. Ensemble, ils ont levé des milliards de dollars en capital-risque pour s’attaquer au leader du marché, Nvidia.
Bennett le sait. Il a travaillé dans les ventes chez AMD pendant plus d’une décennie.
Et son employeur actuel, le PDG de Tenstorrent, est Jim Keller, une légende du matériel. Il a développé les processeurs A4 et A4 d’Apple qui prennent en charge l’iPhone 4 et l’iPad 2, et a été responsable du travail matériel sur les voitures autonomes de Tesla de 2016 à 2018.
Tenstorrent, qui a levé plus de 300 millions de dollars auprès d’investisseurs tels que Fidelity Ventures et Hyundai Motor, a suivi les conseils de Bennett pour fournir tout, des puces au cloud computing.
Bennett a déclaré que les startups de puces d’aujourd’hui sont à peu près déchirées entre « fabriquer du matériel dédié à l’IA » et « s’appuyer sur le modèle dominant ».
Inconvénients de NVIDIA : Il est difficile de fabriquer des puces à partir de zéro
L’histoire de la start-up GPU de puce IA de NVIDIA donne en fait un avantage aux startups de puces d’aujourd’hui.
L’unité de traitement graphique a été conçue à l’origine pour alimenter l’infographie, mais ce n’est qu’en raison de sa capacité à effectuer plusieurs calculs en parallèle qu’elle a fait sa marque dans les applications d’IA.
Cependant, la surprise a également apporté un inconvénient à Nvidia : il est désormais difficile pour Nvidia de construire des puces à partir de zéro sans affecter son activité GPU existante, ce qui donne aux startups émergentes la possibilité de construire de nouveaux matériels conçus spécifiquement pour l’IA.
Par exemple, les ingénieurs de Tenstorrent ont conçu la puce Grayskull pour les futurs réseaux neuronaux clairsemés, où les informations redondantes peuvent être supprimées.
Pourtant, Bennett soutient que les startups qui se concentrent sur la construction de puces pour les grands modèles de langage sont trop étroitement liées à l’architecture Transformer.
Dans cette architecture, les modèles basés sur Transformer prédisent essentiellement le prochain mot qui est le plus susceptible d’apparaître, ils ont donc été critiqués pour générer des réponses basées sur la probabilité plutôt que sur le raisonnement.
Cela signifie que ces architectures de modèles pourraient ne pas survivre à l’essor actuel de l’IA.
Après tout, les LLM d’aujourd’hui ont une durée de vie relativement courte en raison du rythme rapide de leur développement. Les modèles qui étaient chauds hier peuvent disparaître dans une semaine ou deux.
Un autre domaine très risqué pour les fabricants de matériel informatique est la fabrication de puces spécifiquement destinées à l’inférence.
Un représentant de cela est le développeur de puces D-Matrix, qui prévoit de lancer une puce dédiée à l’inférence au cours du premier semestre de l’année prochaine.
À première vue, cette stratégie semble bonne. Les utilisateurs d’applications d’IA générative exploitent désormais de plus en plus les modèles propriétaires ou open source existants, plutôt que de créer leurs propres modèles à partir de zéro.
Pour cette raison, beaucoup de gens pensent que plus d’argent devrait être dépensé pour l’inférence de modèle plutôt que pour l’entraînement de modèle.
Bien qu’il puisse s’agir d’une décision intelligente d’un point de vue commercial, Bennett soutient que se concentrer trop étroitement sur l’inférence peut décourager les développeurs de matériel de servir d’autres cas d’utilisation qui peuvent être plus populaires.
Par exemple, pour les calculs de faible précision nécessaires à l’exécution du modèle, une puce d’inférence pure est suffisante.
Cependant, si les développeurs veulent affiner de grands modèles, ils auront très probablement besoin de puces capables de gérer des calculs de plus grande précision.
Puces de pointe, réunissant GPU et CPU
Afin de survivre à l’épreuve de force des puces d’IA à venir, les développeurs de puces doivent changer l’architecture de leurs puces.
Aujourd’hui, la plupart des puces séparent le GPU du CPU. Le premier est capable d’effectuer plusieurs calculs simultanément, tandis que le second est responsable de l’exécution d’instructions plus génériques et de la gestion d’un plus large éventail d’opérations système.
Cependant, un nombre croissant de puces de pointe, telles que la superpuce Grace Hopper de Nvidia et le prochain MI300A d’AMD, associent GPU et CPU.
Cette disposition permet au processeur de préparer les données plus rapidement et de charger les données sur le GPU, ce qui accélère l’entraînement du modèle.
En outre, l’un des plus grands obstacles auxquels les startups de matériel sont confrontées si elles veulent briser la domination de Nvidia sur le marché est l’avantage logiciel.
Le logiciel Cuda de Nvidia, qui est utilisé pour écrire des applications d’apprentissage automatique, ne peut fonctionner que sur ses propres puces. Et cela enferme effectivement les développeurs dans les GPU Nvidia.
AMD MI300 exécute GPT-4 plus 6
L’hégémonie de Nvidia est-elle si difficile à ébranler ?
Les journalistes de Semi-analysis Dylan Patel et Myron Xie ont récemment posté que le MI300 d’AMD sera nettement meilleur que le H100 de NVIDIA en termes de performances en termes de coûts !
Avec le lancement du nouveau MI300, AMD est sur le point de devenir le seul concurrent de Nvidia et Google dans le domaine de l’inférence LLM, ont-ils déclaré.
En revanche, des entreprises telles que Groq, SambaNova, Intel, Amazon, Microsoft et d’autres ne peuvent toujours pas rivaliser avec elle.
En outre, AMD a investi massivement dans son propre logiciel RoCM, l’écosystème PyTorch et Triton d’OpenAI en réponse au fossé basé sur CUDA de NVIDIA.
Alors que des entreprises telles que Databricks, AI21, Lamini et Moreph ont commencé à utiliser les GPU AMD pour l’inférence/l’entraînement, l’écosystème d’AMD est devenu de plus en plus complet.
Selon les initiés de l’industrie, le MI300, qui dispose de plus de mémoire vidéo, fonctionne mieux lors du déploiement du modèle GPT-4 avec une fenêtre contextuelle de 32K.
Plus précisément, l’avantage en termes de performances de MI300 par rapport à H100 se situe entre 20 % et 25 %, en fonction de la longueur du contexte et de la longueur/nombre de jetons sortants par requête.
Couplé à un prix inférieur, le MI300 sera nettement meilleur que le H100 ou même le H200 de NVIDIA en termes de rapport qualité-prix.
###
Les grands fabricants ont passé des commandes
Actuellement, Microsoft, Meta, Oracle, Google, Supermicro/Quantadirect, Amazon et d’autres sociétés ont passé des commandes auprès d’AMD pour environ 205 000 unités MI300.
Parmi ceux-ci, 120 000 sont dédiés à Microsoft, 25 000 à Meta, 12 000 à Oracle, 8 000 à Google, 5 000 à Amazon et 35 000 à d’autres.
Et en raison de l’énorme volume, le prix d’achat du MI300 par Microsoft devrait être bien inférieur à celui des autres clients.
Afin de calculer le chiffre d’affaires que le MI300 apportera à AMD au cours de l’année prochaine, il doit être analysé sous deux angles : la quantité d’approvisionnement qu’AMD peut garantir et la quantité que les principaux clients commanderont.
Du côté de l’offre, la capacité de production du MI300 augmentera progressivement au cours de l’année, mais comme le Nvidia B100 commencera à être expédié au deuxième trimestre et augmentera considérablement au troisième trimestre avec l’introduction de la version refroidie par air plus rentable, cela affectera largement les expéditions d’AMD au quatrième trimestre.
Dans le même temps, il est également nécessaire de prendre en compte la production HBM, la production CoWoS, la production d’emballage et chaque accélérateur produit à l’aide de CoWoS par les fabricants de mémoire, y compris Nvidia, AMD, Google/Broadcom, Meta/Broadcom, Intel/Al Chip, Amazon/Al Chip, Amazon/Marvell, Microsoft/GUC, etc.
Malgré cela, l’industrie s’attend toujours à ce que le MI300X expédie 110 000 unités au quatrième trimestre.
Du côté des clients, Microsoft, Meta, Oracle, Google, Supermicro/Quantadirect et Amazon sont les principales sources de commandes, mais il y a aussi des commandes provenant d’autres parties de la chaîne d’approvisionnement, y compris certains MI300A pour les applications basées sur le HPC.
En termes de bénéfices, Nvidia ne montre aucun signe de réduction des prix, mais n’a fait qu’augmenter la capacité/bande passante HBM alors que le prix reste le même. Et par rapport à la marge bénéficiaire de Nvidia de plus de 80 %, la marge bénéficiaire d’AMD sur le MI300 est à peine supérieure à 50 %.
La PDG d’AMD, Lisa Su, a déclaré que, sur la base des progrès rapides de l’entreprise dans le domaine de l’IA et de l’engagement d’achat des clients du cloud computing, le chiffre d’affaires des GPU des centres de données devrait atteindre 400 millions de dollars au quatrième trimestre et dépasser les 2 milliards de dollars en 2024.
Cette augmentation fera également du MI300 le produit le plus rapide de l’histoire d’AMD à atteindre 1 milliard de dollars de ventes.
À cet égard, l’industrie est plus optimiste quant aux ventes du MI300X, qui devraient atteindre 3,5 milliards de dollars.
À en juger par la part de marché actuelle d’AMD de moins de 0,1 % dans le domaine de la formation et de l’inférence LLM, la part de marché d’AMD dans le domaine des centres de données continuera de croître régulièrement.
Ressources:
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
L’histoire de l’AMD MI300 Nvidia H100 ? Les performances de GPT-4 dépassent les 25 %, et l’épreuve de force des puces d’IA est sur le point de commencer
Source de l’article : New Zhiyuan
L’épreuve de force des puces IA arrive !
Que réserve l’avenir aux startups développeurs de matériel d’IA ?
Le PDG de Tenstorrent, David Bennett, a déclaré sans ambages que dans notre secteur, la plupart des startups finissent par faire faillite.
Comment survivez-vous ? Il conseille aux startups de rester flexibles et d’éviter de se limiter à des cas d’utilisation étroits.
Bennett ne fait pas référence à un marché de niche, mais à un large groupe de dizaines d’entreprises, de SiMa.ai à Cerebras. Ensemble, ils ont levé des milliards de dollars en capital-risque pour s’attaquer au leader du marché, Nvidia.
Bennett le sait. Il a travaillé dans les ventes chez AMD pendant plus d’une décennie.
Et son employeur actuel, le PDG de Tenstorrent, est Jim Keller, une légende du matériel. Il a développé les processeurs A4 et A4 d’Apple qui prennent en charge l’iPhone 4 et l’iPad 2, et a été responsable du travail matériel sur les voitures autonomes de Tesla de 2016 à 2018.
Bennett a déclaré que les startups de puces d’aujourd’hui sont à peu près déchirées entre « fabriquer du matériel dédié à l’IA » et « s’appuyer sur le modèle dominant ».
Inconvénients de NVIDIA : Il est difficile de fabriquer des puces à partir de zéro
L’histoire de la start-up GPU de puce IA de NVIDIA donne en fait un avantage aux startups de puces d’aujourd’hui.
L’unité de traitement graphique a été conçue à l’origine pour alimenter l’infographie, mais ce n’est qu’en raison de sa capacité à effectuer plusieurs calculs en parallèle qu’elle a fait sa marque dans les applications d’IA.
Cependant, la surprise a également apporté un inconvénient à Nvidia : il est désormais difficile pour Nvidia de construire des puces à partir de zéro sans affecter son activité GPU existante, ce qui donne aux startups émergentes la possibilité de construire de nouveaux matériels conçus spécifiquement pour l’IA.
Par exemple, les ingénieurs de Tenstorrent ont conçu la puce Grayskull pour les futurs réseaux neuronaux clairsemés, où les informations redondantes peuvent être supprimées.
Dans cette architecture, les modèles basés sur Transformer prédisent essentiellement le prochain mot qui est le plus susceptible d’apparaître, ils ont donc été critiqués pour générer des réponses basées sur la probabilité plutôt que sur le raisonnement.
Cela signifie que ces architectures de modèles pourraient ne pas survivre à l’essor actuel de l’IA.
Après tout, les LLM d’aujourd’hui ont une durée de vie relativement courte en raison du rythme rapide de leur développement. Les modèles qui étaient chauds hier peuvent disparaître dans une semaine ou deux.
Un autre domaine très risqué pour les fabricants de matériel informatique est la fabrication de puces spécifiquement destinées à l’inférence.
Un représentant de cela est le développeur de puces D-Matrix, qui prévoit de lancer une puce dédiée à l’inférence au cours du premier semestre de l’année prochaine.
Pour cette raison, beaucoup de gens pensent que plus d’argent devrait être dépensé pour l’inférence de modèle plutôt que pour l’entraînement de modèle.
Bien qu’il puisse s’agir d’une décision intelligente d’un point de vue commercial, Bennett soutient que se concentrer trop étroitement sur l’inférence peut décourager les développeurs de matériel de servir d’autres cas d’utilisation qui peuvent être plus populaires.
Par exemple, pour les calculs de faible précision nécessaires à l’exécution du modèle, une puce d’inférence pure est suffisante.
Cependant, si les développeurs veulent affiner de grands modèles, ils auront très probablement besoin de puces capables de gérer des calculs de plus grande précision.
Puces de pointe, réunissant GPU et CPU
Afin de survivre à l’épreuve de force des puces d’IA à venir, les développeurs de puces doivent changer l’architecture de leurs puces.
Aujourd’hui, la plupart des puces séparent le GPU du CPU. Le premier est capable d’effectuer plusieurs calculs simultanément, tandis que le second est responsable de l’exécution d’instructions plus génériques et de la gestion d’un plus large éventail d’opérations système.
Cependant, un nombre croissant de puces de pointe, telles que la superpuce Grace Hopper de Nvidia et le prochain MI300A d’AMD, associent GPU et CPU.
Cette disposition permet au processeur de préparer les données plus rapidement et de charger les données sur le GPU, ce qui accélère l’entraînement du modèle.
En outre, l’un des plus grands obstacles auxquels les startups de matériel sont confrontées si elles veulent briser la domination de Nvidia sur le marché est l’avantage logiciel.
Le logiciel Cuda de Nvidia, qui est utilisé pour écrire des applications d’apprentissage automatique, ne peut fonctionner que sur ses propres puces. Et cela enferme effectivement les développeurs dans les GPU Nvidia.
AMD MI300 exécute GPT-4 plus 6
L’hégémonie de Nvidia est-elle si difficile à ébranler ?
Les journalistes de Semi-analysis Dylan Patel et Myron Xie ont récemment posté que le MI300 d’AMD sera nettement meilleur que le H100 de NVIDIA en termes de performances en termes de coûts !
En revanche, des entreprises telles que Groq, SambaNova, Intel, Amazon, Microsoft et d’autres ne peuvent toujours pas rivaliser avec elle.
En outre, AMD a investi massivement dans son propre logiciel RoCM, l’écosystème PyTorch et Triton d’OpenAI en réponse au fossé basé sur CUDA de NVIDIA.
Alors que des entreprises telles que Databricks, AI21, Lamini et Moreph ont commencé à utiliser les GPU AMD pour l’inférence/l’entraînement, l’écosystème d’AMD est devenu de plus en plus complet.
Selon les initiés de l’industrie, le MI300, qui dispose de plus de mémoire vidéo, fonctionne mieux lors du déploiement du modèle GPT-4 avec une fenêtre contextuelle de 32K.
Couplé à un prix inférieur, le MI300 sera nettement meilleur que le H100 ou même le H200 de NVIDIA en termes de rapport qualité-prix.
Les grands fabricants ont passé des commandes
Actuellement, Microsoft, Meta, Oracle, Google, Supermicro/Quantadirect, Amazon et d’autres sociétés ont passé des commandes auprès d’AMD pour environ 205 000 unités MI300.
Parmi ceux-ci, 120 000 sont dédiés à Microsoft, 25 000 à Meta, 12 000 à Oracle, 8 000 à Google, 5 000 à Amazon et 35 000 à d’autres.
Et en raison de l’énorme volume, le prix d’achat du MI300 par Microsoft devrait être bien inférieur à celui des autres clients.
Du côté de l’offre, la capacité de production du MI300 augmentera progressivement au cours de l’année, mais comme le Nvidia B100 commencera à être expédié au deuxième trimestre et augmentera considérablement au troisième trimestre avec l’introduction de la version refroidie par air plus rentable, cela affectera largement les expéditions d’AMD au quatrième trimestre.
Dans le même temps, il est également nécessaire de prendre en compte la production HBM, la production CoWoS, la production d’emballage et chaque accélérateur produit à l’aide de CoWoS par les fabricants de mémoire, y compris Nvidia, AMD, Google/Broadcom, Meta/Broadcom, Intel/Al Chip, Amazon/Al Chip, Amazon/Marvell, Microsoft/GUC, etc.
Malgré cela, l’industrie s’attend toujours à ce que le MI300X expédie 110 000 unités au quatrième trimestre.
En termes de bénéfices, Nvidia ne montre aucun signe de réduction des prix, mais n’a fait qu’augmenter la capacité/bande passante HBM alors que le prix reste le même. Et par rapport à la marge bénéficiaire de Nvidia de plus de 80 %, la marge bénéficiaire d’AMD sur le MI300 est à peine supérieure à 50 %.
Cette augmentation fera également du MI300 le produit le plus rapide de l’histoire d’AMD à atteindre 1 milliard de dollars de ventes.
À cet égard, l’industrie est plus optimiste quant aux ventes du MI300X, qui devraient atteindre 3,5 milliards de dollars.
À en juger par la part de marché actuelle d’AMD de moins de 0,1 % dans le domaine de la formation et de l’inférence LLM, la part de marché d’AMD dans le domaine des centres de données continuera de croître régulièrement.