Diante do próximo confronto de chips de IA, muitas startups de chips estão ansiosas para tentar quebrar o monopólio da NVIDIA de uma só vez. E o MI300 da AMD realmente funciona melhor do que o H100 ao implantar o modelo GPT-4 com uma janela de contexto de 32K?
O confronto de chips de IA está chegando!
O que o futuro reserva para as startups de desenvolvedores de hardware de IA?
O CEO da Tenstorrent, David Bennett, afirmou sem rodeios que, em nosso setor, a maioria das startups acaba fechando as portas.
Como sobreviver? Ele aconselha as startups a permanecerem flexíveis e evitarem se limitar a casos de uso restritos.
Bennett não está se referindo a um nicho de mercado, mas a um amplo grupo de dezenas de empresas, da SiMa.ai à Cerebras. Juntos, eles levantaram bilhões de dólares em capital de risco para enfrentar a líder de mercado, a Nvidia.
Bennett sabe disso. Ele trabalhou em vendas na AMD por mais de uma década.
E seu empregador atual, o CEO da Tenstorrent, é Jim Keller, uma lenda do hardware. Ele desenvolveu os processadores A4 e A4 da Apple que suportam o iPhone 4 e iPad 2, e foi responsável pelo trabalho de hardware nos carros autônomos da Tesla de 2016 a 2018.
A Tenstorrent, que levantou mais de US$ 300 milhões de investidores como Fidelity Ventures e Hyundai Motor, seguiu o conselho de Bennett para fornecer tudo, de chips a computação em nuvem.
Bennett disse que as startups de chips de hoje estão mais ou menos divididas entre "fazer hardware dedicado para IA" e "confiar no modelo predominante".
Desvantagens da NVIDIA: É difícil fazer chips do zero
A história da startup de GPU de chip de IA da NVIDIA realmente dá às startups de chips de hoje uma vantagem.
A unidade de processamento gráfico foi originalmente projetada para alimentar computação gráfica, mas foi apenas por causa de sua capacidade de realizar vários cálculos em paralelo que deixou sua marca em aplicações de IA.
No entanto, a surpresa também trouxe desvantagens para a Nvidia – agora é difícil para a Nvidia construir chips do zero sem afetar seu negócio de GPU existente, o que dá às startups emergentes a oportunidade de construir novo hardware construído especificamente para IA.
Por exemplo, os engenheiros da Tenstorrent projetaram o chip Grayskull para futuras redes neurais esparsas, onde informações redundantes podem ser removidas.
Ainda assim, Bennett argumenta que as startups focadas na construção de chips para grandes modelos de linguagem estão muito ligadas à arquitetura Transformer.
Nesta arquitetura, os modelos baseados em Transformers estão essencialmente prevendo a próxima palavra que é mais provável de aparecer, por isso têm sido criticados por gerar respostas baseadas em probabilidade em vez de raciocínio.
Isso significa que essas arquiteturas de modelo podem não sobreviver ao atual boom da IA.
Afinal, os LLMs de hoje são relativamente efêmeros devido ao rápido ritmo de desenvolvimento. Os modelos que estavam quentes ontem podem desaparecer em uma ou duas semanas.
Outra área que é muito arriscada para as empresas de hardware é a fabricação de chips especificamente para inferência.
Um representante disso é a desenvolvedora de chips D-Matrix, que planeja lançar um chip dedicado para inferência no primeiro semestre do próximo ano.
À primeira vista, esta estratégia parece boa. Os usuários de aplicativos generativos de IA estão agora cada vez mais aproveitando modelos proprietários ou de código aberto existentes, em vez de construir seus próprios modelos do zero.
Por causa disso, muitas pessoas acreditam que mais dinheiro deveria ser gasto em inferência de modelo em vez de treinamento de modelo.
Embora isso possa ser um movimento inteligente de uma perspetiva de negócios, Bennett argumenta que focar muito estritamente na inferência pode desencorajar os desenvolvedores de hardware de atender a outros casos de uso que podem ser mais populares.
Por exemplo, para os cálculos de baixa precisão necessários para executar o modelo, um chip de inferência pura é suficiente.
No entanto, se os desenvolvedores quiserem ajustar modelos grandes, eles provavelmente precisarão de chips que possam lidar com cálculos de maior precisão.
Chips de ponta, juntando GPU e CPU
Para sobreviver ao próximo confronto de chips de IA, os desenvolvedores de chips precisam mudar a arquitetura de seus chips.
Hoje, a maioria dos chips separa a GPU da CPU. O primeiro é capaz de realizar vários cálculos simultaneamente, enquanto o segundo é responsável por executar instruções mais genéricas e gerenciar uma gama mais ampla de operações do sistema.
No entanto, um número crescente de chips de ponta, como o superchip Grace Hopper da Nvidia e o próximo MI300A da AMD, estão juntando GPUs e CPUs.
Este layout permite que a CPU prepare os dados mais rapidamente e carregue os dados na GPU, o que acelera o treinamento do modelo.
Além disso, um dos maiores obstáculos que as startups de hardware enfrentam se quiserem quebrar o domínio de mercado da Nvidia é a vantagem do software.
O software Cuda da Nvidia, que é usado para escrever aplicativos de aprendizado de máquina, só pode ser executado em seus próprios chips. E isso efetivamente bloqueia os desenvolvedores nas GPUs da Nvidia.
AMD MI300 executa GPT-4 mais 6
A hegemonia da Nvidia é tão difícil de abalar?
Os repórteres de semianálise Dylan Patel e Myron Xie postaram recentemente que o MI300 da AMD será significativamente melhor do que o H100 da NVIDIA em termos de desempenho de custo!
Com o lançamento do novo MI300, a AMD está prestes a se tornar a única concorrente da Nvidia e do Google no campo da inferência LLM, disseram eles.
Em contrapartida, empresas como Groq, SambaNova, Intel, Amazon, Microsoft e outras ainda não conseguem competir com ela.
Além disso, a AMD tem investido pesadamente em seu próprio software RoCM, no ecossistema PyTorch e no Triton da OpenAI em resposta ao fosso baseado em CUDA da NVIDIA.
À medida que empresas como Databricks, AI21, Lamini e Moreph começaram a usar GPUs AMD para inferência/treinamento, o próprio ecossistema da AMD se tornou cada vez mais completo.
De acordo com insiders da indústria, o MI300, que tem mais memória de vídeo, funciona melhor ao implantar o modelo GPT-4 com uma janela de contexto de 32K.
Especificamente, a vantagem de desempenho do MI300 em relação ao H100 é entre 20% e 25%, dependendo do comprimento do contexto e do comprimento/número de tokens de saída por consulta.
Juntamente com um preço mais baixo, o MI300 será significativamente melhor do que o H100 ou mesmo H200 da NVIDIA em termos de desempenho de custo.
###
Grandes fabricantes fizeram encomendas
Atualmente, Microsoft, Meta, Oracle, Google, Supermicro/Quantadirect, Amazon e outras empresas fizeram pedidos à AMD para cerca de 205.000 unidades MI300.
Destes, 120.000 são dedicados à Microsoft, 25.000 à Meta, 12.000 à Oracle, 8.000 ao Google, 5.000 à Amazon e 35.000 a outros.
E por causa do enorme volume, espera-se que o preço de compra do MI300 pela Microsoft seja muito menor do que o de outros clientes.
Para calcular a receita que o MI300 trará para a AMD no próximo ano, ela precisa ser analisada de duas perspetivas: quanto fornecimento a AMD pode garantir e quanto os principais clientes encomendarão.
Do lado da oferta, a capacidade de produção do MI300 aumentará gradualmente durante o ano, mas como o Nvidia B100 começará a ser enviado no segundo trimestre e aumentará significativamente no terceiro trimestre com a introdução da versão refrigerada a ar mais econômica, isso afetará em grande parte os embarques da AMD no quarto trimestre.
Ao mesmo tempo, também é necessário considerar a produção de HBM, produção de CoWoS, produção de embalagens e cada acelerador produzido usando CoWoS por fabricantes de memória, incluindo Nvidia, AMD, Google/Broadcom, Meta/Broadcom, Intel/Al Chip, Amazon/Al Chip, Amazon/Marvell, Microsoft/GUC, etc.
Mesmo assim, a indústria ainda espera que o MI300X envie 110.000 unidades no quarto trimestre.
Do lado dos clientes, Microsoft, Meta, Oracle, Google, Supermicro/Quantadirect e Amazon são as principais fontes de pedidos, mas também há alguns pedidos de outras partes da cadeia de suprimentos, incluindo alguns MI300A para aplicações baseadas em HPC.
Em termos de lucros, a Nvidia não mostra sinais de redução de preços, mas apenas aumentou a capacidade / largura de banda HBM enquanto o preço permanece o mesmo. E em comparação com a margem de lucro da Nvidia de mais de 80%, a margem de lucro da AMD no MI300 é de pouco mais de 50%.
A CEO da AMD, Lisa Su, disse que, com base no rápido progresso da empresa em IA e no compromisso de compra dos clientes de computação em nuvem, a receita de GPU de data center deve atingir US$ 400 milhões no quarto trimestre e ultrapassar US$ 2 bilhões em 2024.
Esse aumento também tornará o MI300 o produto mais rápido da história da AMD a atingir US$ 1 bilhão em vendas.
Nesse sentido, a indústria está mais otimista com as vendas do MI300X, que deve chegar a US$ 3,5 bilhões.
A julgar pela atual participação de mercado da AMD de menos de 0,1% no espaço de treinamento e inferência LLM, a participação de mercado da AMD no campo do data center continuará a crescer constantemente.
Recursos:
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
AMD MI300 lore Nvidia H100? O desempenho do GPT-4 excede 25%, e o confronto de chips de IA está prestes a começar
Fonte do artigo: New Zhiyuan
O confronto de chips de IA está chegando!
O que o futuro reserva para as startups de desenvolvedores de hardware de IA?
O CEO da Tenstorrent, David Bennett, afirmou sem rodeios que, em nosso setor, a maioria das startups acaba fechando as portas.
Como sobreviver? Ele aconselha as startups a permanecerem flexíveis e evitarem se limitar a casos de uso restritos.
Bennett não está se referindo a um nicho de mercado, mas a um amplo grupo de dezenas de empresas, da SiMa.ai à Cerebras. Juntos, eles levantaram bilhões de dólares em capital de risco para enfrentar a líder de mercado, a Nvidia.
Bennett sabe disso. Ele trabalhou em vendas na AMD por mais de uma década.
E seu empregador atual, o CEO da Tenstorrent, é Jim Keller, uma lenda do hardware. Ele desenvolveu os processadores A4 e A4 da Apple que suportam o iPhone 4 e iPad 2, e foi responsável pelo trabalho de hardware nos carros autônomos da Tesla de 2016 a 2018.
Bennett disse que as startups de chips de hoje estão mais ou menos divididas entre "fazer hardware dedicado para IA" e "confiar no modelo predominante".
Desvantagens da NVIDIA: É difícil fazer chips do zero
A história da startup de GPU de chip de IA da NVIDIA realmente dá às startups de chips de hoje uma vantagem.
A unidade de processamento gráfico foi originalmente projetada para alimentar computação gráfica, mas foi apenas por causa de sua capacidade de realizar vários cálculos em paralelo que deixou sua marca em aplicações de IA.
No entanto, a surpresa também trouxe desvantagens para a Nvidia – agora é difícil para a Nvidia construir chips do zero sem afetar seu negócio de GPU existente, o que dá às startups emergentes a oportunidade de construir novo hardware construído especificamente para IA.
Por exemplo, os engenheiros da Tenstorrent projetaram o chip Grayskull para futuras redes neurais esparsas, onde informações redundantes podem ser removidas.
Nesta arquitetura, os modelos baseados em Transformers estão essencialmente prevendo a próxima palavra que é mais provável de aparecer, por isso têm sido criticados por gerar respostas baseadas em probabilidade em vez de raciocínio.
Isso significa que essas arquiteturas de modelo podem não sobreviver ao atual boom da IA.
Afinal, os LLMs de hoje são relativamente efêmeros devido ao rápido ritmo de desenvolvimento. Os modelos que estavam quentes ontem podem desaparecer em uma ou duas semanas.
Outra área que é muito arriscada para as empresas de hardware é a fabricação de chips especificamente para inferência.
Um representante disso é a desenvolvedora de chips D-Matrix, que planeja lançar um chip dedicado para inferência no primeiro semestre do próximo ano.
Por causa disso, muitas pessoas acreditam que mais dinheiro deveria ser gasto em inferência de modelo em vez de treinamento de modelo.
Embora isso possa ser um movimento inteligente de uma perspetiva de negócios, Bennett argumenta que focar muito estritamente na inferência pode desencorajar os desenvolvedores de hardware de atender a outros casos de uso que podem ser mais populares.
Por exemplo, para os cálculos de baixa precisão necessários para executar o modelo, um chip de inferência pura é suficiente.
No entanto, se os desenvolvedores quiserem ajustar modelos grandes, eles provavelmente precisarão de chips que possam lidar com cálculos de maior precisão.
Chips de ponta, juntando GPU e CPU
Para sobreviver ao próximo confronto de chips de IA, os desenvolvedores de chips precisam mudar a arquitetura de seus chips.
Hoje, a maioria dos chips separa a GPU da CPU. O primeiro é capaz de realizar vários cálculos simultaneamente, enquanto o segundo é responsável por executar instruções mais genéricas e gerenciar uma gama mais ampla de operações do sistema.
No entanto, um número crescente de chips de ponta, como o superchip Grace Hopper da Nvidia e o próximo MI300A da AMD, estão juntando GPUs e CPUs.
Este layout permite que a CPU prepare os dados mais rapidamente e carregue os dados na GPU, o que acelera o treinamento do modelo.
Além disso, um dos maiores obstáculos que as startups de hardware enfrentam se quiserem quebrar o domínio de mercado da Nvidia é a vantagem do software.
O software Cuda da Nvidia, que é usado para escrever aplicativos de aprendizado de máquina, só pode ser executado em seus próprios chips. E isso efetivamente bloqueia os desenvolvedores nas GPUs da Nvidia.
AMD MI300 executa GPT-4 mais 6
A hegemonia da Nvidia é tão difícil de abalar?
Os repórteres de semianálise Dylan Patel e Myron Xie postaram recentemente que o MI300 da AMD será significativamente melhor do que o H100 da NVIDIA em termos de desempenho de custo!
Em contrapartida, empresas como Groq, SambaNova, Intel, Amazon, Microsoft e outras ainda não conseguem competir com ela.
Além disso, a AMD tem investido pesadamente em seu próprio software RoCM, no ecossistema PyTorch e no Triton da OpenAI em resposta ao fosso baseado em CUDA da NVIDIA.
À medida que empresas como Databricks, AI21, Lamini e Moreph começaram a usar GPUs AMD para inferência/treinamento, o próprio ecossistema da AMD se tornou cada vez mais completo.
De acordo com insiders da indústria, o MI300, que tem mais memória de vídeo, funciona melhor ao implantar o modelo GPT-4 com uma janela de contexto de 32K.
Juntamente com um preço mais baixo, o MI300 será significativamente melhor do que o H100 ou mesmo H200 da NVIDIA em termos de desempenho de custo.
Grandes fabricantes fizeram encomendas
Atualmente, Microsoft, Meta, Oracle, Google, Supermicro/Quantadirect, Amazon e outras empresas fizeram pedidos à AMD para cerca de 205.000 unidades MI300.
Destes, 120.000 são dedicados à Microsoft, 25.000 à Meta, 12.000 à Oracle, 8.000 ao Google, 5.000 à Amazon e 35.000 a outros.
E por causa do enorme volume, espera-se que o preço de compra do MI300 pela Microsoft seja muito menor do que o de outros clientes.
Do lado da oferta, a capacidade de produção do MI300 aumentará gradualmente durante o ano, mas como o Nvidia B100 começará a ser enviado no segundo trimestre e aumentará significativamente no terceiro trimestre com a introdução da versão refrigerada a ar mais econômica, isso afetará em grande parte os embarques da AMD no quarto trimestre.
Ao mesmo tempo, também é necessário considerar a produção de HBM, produção de CoWoS, produção de embalagens e cada acelerador produzido usando CoWoS por fabricantes de memória, incluindo Nvidia, AMD, Google/Broadcom, Meta/Broadcom, Intel/Al Chip, Amazon/Al Chip, Amazon/Marvell, Microsoft/GUC, etc.
Mesmo assim, a indústria ainda espera que o MI300X envie 110.000 unidades no quarto trimestre.
Em termos de lucros, a Nvidia não mostra sinais de redução de preços, mas apenas aumentou a capacidade / largura de banda HBM enquanto o preço permanece o mesmo. E em comparação com a margem de lucro da Nvidia de mais de 80%, a margem de lucro da AMD no MI300 é de pouco mais de 50%.
Esse aumento também tornará o MI300 o produto mais rápido da história da AMD a atingir US$ 1 bilhão em vendas.
Nesse sentido, a indústria está mais otimista com as vendas do MI300X, que deve chegar a US$ 3,5 bilhões.
A julgar pela atual participação de mercado da AMD de menos de 0,1% no espaço de treinamento e inferência LLM, a participação de mercado da AMD no campo do data center continuará a crescer constantemente.