Explicação detalhada da infraestrutura AI+Web3

intermediário3/29/2024, 7:41:47 PM
Os principais projetos na camada de infraestrutura da indústria AI+Web3 basicamente adotam a rede de computação descentralizada como narrativa principal, baixo custo como principal vantagem, incentivos de token como principal forma de expandir a rede, e atender aos clientes de AI+Web3 como principal objetivo.

Título original encaminhado: AI+Web3 Futuro Caminho de Desenvolvimento (2): Capítulo de Infraestrutura

A infraestrutura é a direção determinística de crescimento do desenvolvimento de IA

1. Aumento da Demanda por Computação de IA

Nos últimos anos, a demanda por poder de computação experimentou um crescimento rápido, particularmente após o surgimento do grande modelo LLM. Esse aumento na demanda por poder de computação de IA impactou significativamente o mercado de computação de alto desempenho. Dados da OpenAI revelam uma tendência notável desde 2012, com o poder de computação usado para treinar os maiores modelos de IA crescendo exponencialmente, dobrando a cada 3-4 meses em média, superando a taxa de crescimento prevista pela Lei de Moore. A demanda crescente por aplicações de IA resultou em um rápido aumento na necessidade de hardware de computação. Projeções indicam que até 2025, a demanda por hardware de computação impulsionada por aplicações de IA deverá aumentar aproximadamente 10% a 15%.

Impulsionada pela demanda por poder de computação de IA, a fabricante de hardware de GPU NVIDIA testemunhou um crescimento contínuo na receita de data centers. No segundo trimestre de 2023, a receita de data centers atingiu US$ 10,32 bilhões, marcando um aumento de 141% em relação ao primeiro trimestre de 2023 e um notável aumento de 171% em relação ao mesmo período do ano anterior. No quarto trimestre do ano fiscal de 2024, o segmento de data centers representou mais de 83% da receita total, experimentando um crescimento simultâneo de 409%, com 40% atribuído a cenários de inferência de modelos grandes, indicando uma demanda robusta por poder de computação de alta performance.

Simultaneamente, a necessidade de vastas quantidades de dados impõe requisitos significativos de armazenamento e memória de hardware. Especialmente durante a fase de treinamento do modelo, entradas de parâmetros extensivos e armazenamento de dados são essenciais. Chips de memória utilizados em servidores de IA predominantemente incluem memória de alta largura de banda (HBM), DRAM e SSD. Ambientes de trabalho para servidores de IA devem oferecer capacidade aumentada, desempenho aprimorado, latência reduzida e tempos de resposta mais rápidos. De acordo com os cálculos da Micron, a quantidade de DRAM em servidores de IA excede a de servidores tradicionais em oito vezes, enquanto a quantidade de NAND supera os padrões tradicionais de servidores em três vezes.

2. Desequilíbrio entre oferta e demanda impulsiona os custos de energia computacional

Tipicamente, a potência de computação é utilizada principalmente nas etapas de treinamento, ajuste fino e inferência de modelos de IA, especialmente durante as fases de treinamento e ajuste fino. Devido ao aumento dos dados de entrada de parâmetros, requisitos computacionais e à demanda aumentada por interconectividade em computação paralela, há uma necessidade de hardware de GPU mais poderoso e interconectado, frequentemente na forma de clusters de GPU de alto desempenho. Conforme os modelos grandes evoluem, a complexidade computacional aumenta linearmente, necessitando de hardware mais avançado para atender às demandas de treinamento do modelo.

Tomando o GPT-3 como exemplo, com um cenário envolvendo cerca de 13 milhões de visitas de usuários independentes, a demanda de chips correspondente excederia 30.000 GPUs A100. Este custo inicial de investimento chegaria a incríveis $800 milhões, com custos estimados diários de inferência do modelo totalizando cerca de $700.000.

Simultaneamente, relatórios do setor indicam que no quarto trimestre de 2023, o fornecimento de GPU da NVIDIA foi severamente restrito globalmente, levando a um desequilíbrio perceptível entre oferta e demanda nos mercados mundiais. A capacidade de produção da NVIDIA foi limitada por fatores como TSMC, HBM, embalagem CoWos e o "grave problema de escassez" da GPU H100 deve persistir pelo menos até o final de 2024.

Portanto, o aumento na demanda por GPUs de alta qualidade e as restrições de fornecimento têm impulsionado os preços elevados dos componentes de hardware atuais, como GPUs. Especialmente para empresas como a NVIDIA que ocupam uma posição central na cadeia da indústria, os altos preços são ainda mais aumentados por seu domínio monopolista, permitindo-lhes obter dividendos de valor adicionais. Por exemplo, o custo material do cartão acelerador de IA H100 da NVIDIA é de aproximadamente $3,000, no entanto, seu preço de venda atingiu cerca de $35,000 em meados de 2023 e até ultrapassou $40,000 no eBay.

3. Infraestrutura de IA impulsiona o crescimento da cadeia industrial

Um relatório da Grand View Research indica que o tamanho do mercado global de IA em nuvem foi estimado em $62.63 bilhões em 2023, projetando atingir $647.6 bilhões até 2030, com uma taxa de crescimento anual composta de 39.6%. Esses números destacam o significativo potencial de crescimento dos serviços de IA em nuvem e sua substancial contribuição para a cadeia global da indústria de IA.

Segundo estimativas da a16z, uma parte substancial dos fundos no mercado AIGC (IA e Computação Global) flui ultimamente para empresas de infraestrutura. Em média, as empresas de aplicativos alocam aproximadamente 20-40% de sua receita para inferência e ajuste fino para cada cliente. Essa despesa é tipicamente direcionada ao provedor de nuvem da instância de computação ou a um provedor de modelo de terceiros, que por sua vez dedica cerca de metade da receita à infraestrutura de nuvem. Consequentemente, é razoável supor que 10-20% da receita total gerada pelo AIGC é canalizada para provedores de nuvem.

Além disso, uma parte significativa da demanda por poder computacional está centrada no treinamento de grandes modelos de IA, incluindo vários modelos extensos de LLM. Especialmente para startups de modelos, 80-90% dos custos são atribuídos ao poder computacional de IA. Coletivamente, a infraestrutura de computação de IA, abrangendo computação em nuvem e hardware, espera-se representar mais de 50% do valor inicial do mercado.

Computação de IA descentralizada

Conforme discutido anteriormente, o custo atual da computação de IA centralizada permanece alto, principalmente devido à demanda crescente por infraestrutura de alto desempenho para treinamento de IA. No entanto, uma quantidade significativa de poder de computação ocioso existe no mercado, levando a um descompasso entre oferta e demanda. Os principais fatores que contribuem para esse desequilíbrio incluem:

  • Limitado pela memória, a complexidade do modelo não tem uma relação de crescimento linear com o número de GPUs necessários. As GPUs atuais têm vantagens de potência de computação, mas o treinamento do modelo requer um grande número de parâmetros a serem armazenados na memória. Para o GPT-3, por exemplo, a fim de treinar um modelo com 175 bilhões de parâmetros, mais de 1 terabyte de dados precisa ser mantido na memória - mais do que qualquer GPU disponível hoje, exigindo assim mais GPUs para computação e armazenamento paralelos, o que por sua vez levará a ociosidade da potência de computação da GPU. Por exemplo, do GPT3 para o GPT4, o tamanho dos parâmetros do modelo aumentou cerca de 10 vezes, mas o número de GPUs necessárias aumentou 24 vezes (sem levar em consideração o aumento no tempo de treinamento do modelo). De acordo com análises relevantes, a OpenAI utilizou aproximadamente 2,15e25 FLOPS no treinamento do GPT-4, e conduziu o treinamento em aproximadamente 25.000 GPUs A100 por 90 a 100 dias, com uma utilização de potência de computação de aproximadamente 32% a 36%.

Em resposta aos desafios mencionados acima, a busca por projetar chips de alto desempenho ou chips ASIC especializados para tarefas de IA é uma abordagem proeminente sendo explorada por inúmeros desenvolvedores e grandes empresas. Outra abordagem envolve a utilização abrangente de recursos de computação existentes para estabelecer uma rede de computação distribuída, com o objetivo de reduzir os custos de energia computacional por meio de locação, compartilhamento e agendamento eficiente de recursos. Além disso, o mercado atualmente possui um excesso de GPUs e CPUs de consumo ociosas. Embora as unidades individuais possam não ter uma potência de computação robusta, elas podem atender efetivamente aos requisitos computacionais existentes em cenários específicos ou quando integradas a chips de alto desempenho. É crucial garantir um amplo suprimento, pois os custos podem ser ainda mais reduzidos por meio do agendamento de rede distribuído.

Consequentemente, a mudança em direção ao poder computacional distribuído surgiu como uma direção chave no avanço da infraestrutura de IA. Simultaneamente, dada a alinhamento conceitual entre Web3 e sistemas distribuídos, redes de poder computacional descentralizado tornaram-se um foco primário na paisagem de infraestrutura Web3+IA. Atualmente, plataformas de poder computacional descentralizado no mercado Web3 geralmente oferecem preços que são 80%-90% menores do que os serviços de computação em nuvem centralizados.

Embora o armazenamento desempenhe um papel vital na infraestrutura de IA, o armazenamento centralizado possui vantagens distintas em termos de escala, usabilidade e baixa latência. No entanto, devido às notáveis eficiências de custo que oferecem, as redes de computação distribuída têm um potencial de mercado significativo e estão preparadas para colher benefícios substanciais com a expansão do mercado de IA em crescimento.

  • A inferência de modelos e o treinamento de modelos pequenos representam os cenários fundamentais para a potência atual de computação distribuída. A dispersão de recursos de computação em sistemas distribuídos inevitavelmente introduz desafios de comunicação entre GPUs, potencialmente levando a uma redução no desempenho de computação. Consequentemente, a potência de computação distribuída é mais adequada para cenários que exigem uma comunicação mínima e podem suportar efetivamente tarefas paralelas. Esses cenários incluem a fase de inferência de modelos de IA extensos e modelos pequenos com relativamente menos parâmetros, minimizando os impactos no desempenho. Olhando para o futuro, à medida que as aplicações de IA evoluem, o raciocínio emerge como um requisito crítico na camada de aplicação. Dado que a maioria das empresas não possui a capacidade de treinar grandes modelos independentemente, a potência de computação distribuída mantém um significativo potencial de mercado a longo prazo.
  • Há um aumento nos frameworks de treinamento distribuído de alto desempenho adaptados para computação paralela em larga escala. Frameworks inovadores de computação distribuída de código aberto como PyTorch, Ray e DeepSpeed estão fornecendo aos desenvolvedores suporte fundamental robusto para aproveitar o poder de computação distribuída no treinamento de modelos. Este avanço aprimora a aplicabilidade do poder de computação distribuída no futuro mercado de IA, facilitando sua integração em várias aplicações de IA.

A lógica narrativa dos projetos de infraestrutura AI+Web3

O setor de infraestrutura de IA distribuída apresenta uma demanda robusta e perspectivas significativas de crescimento a longo prazo, tornando-se uma área atraente para o capital de investimento. Atualmente, os principais projetos dentro da camada de infraestrutura da indústria AI+Web3 giram predominantemente em torno de redes de computação descentralizadas. Esses projetos enfatizam os baixos custos como uma vantagem-chave, utilizam incentivos de token para expandir suas redes e priorizam o atendimento aos clientes de AI+Web3 como seu objetivo principal. Este setor compreende principalmente dois níveis-chave:

  1. Uma plataforma de compartilhamento e locação de recursos de computação em nuvem descentralizada relativamente pura: Projetos de IA iniciais como Render Network, Akash Network, entre outros, se enquadram nesta categoria.
  • A principal vantagem competitiva neste setor reside nos recursos de potência de computação, que permitem acesso a uma variedade de fornecedores, rápida estabelecimento de rede e ofertas de produtos fáceis de usar. Participantes do mercado inicial, como empresas de computação em nuvem e mineradores, estão bem posicionados para aproveitar esta oportunidade.
  • Com limites de produto baixos e capacidades de lançamento rápidas, plataformas estabelecidas como Render Network e Akash Network demonstraram um crescimento notável e mantêm uma vantagem competitiva.
  • No entanto, os novos entrantes no mercado enfrentam desafios com a homogeneidade do produto. A tendência atual e as baixas barreiras de entrada levaram a um influxo de projetos focados no compartilhamento de poder computacional e no arrendamento. Embora essas ofertas faltem diferenciação, há uma crescente necessidade de vantagens competitivas distintas.
  • Os provedores geralmente visam clientes com requisitos básicos de computação. Por exemplo, a Render Network é especializada em serviços de renderização, enquanto a Akash Network oferece recursos aprimorados de CPU. Embora o aluguel simples de recursos de computação seja suficiente para tarefas básicas de IA, ele não atende às necessidades abrangentes de processos de IA complexos, como treinamento, ajuste fino e inferência.
  1. Oferecendo serviços de fluxo de trabalho de computação descentralizada e aprendizado de máquina, inúmeros projetos emergentes recentemente garantiram financiamento substancial, incluindo Gensyn, io.net, Ritual e outros.
  • Computação descentralizada eleva o alicerce da valoração na indústria. Como o poder de computação se coloca como a narrativa decisiva no desenvolvimento de IA, projetos enraizados no poder de computação tendem a ostentar modelos de negócios mais robustos e de alto potencial, levando a valorações mais altas em comparação com projetos puramente intermediários.
  • Serviços de nível intermediário estabelecem vantagens distintivas. Os serviços oferecidos pela camada intermediária servem como vantagens competitivas para essas infraestruturas de computação, abrangendo funções como oráculos e verificadores que facilitam a sincronização de cálculos on e off-chain na cadeia de IA, ferramentas de implantação e gerenciamento que apoiam o fluxo de trabalho geral de IA, e muito mais. O fluxo de trabalho de IA é caracterizado por colaboração, feedback contínuo e alta complexidade, exigindo poder computacional em várias etapas. Portanto, uma camada de middleware que seja amigável ao usuário, altamente colaborativa e capaz de atender às necessidades intricadas dos desenvolvedores de IA surge como um ativo competitivo, especialmente no domínio Web3, atendendo aos requisitos dos desenvolvedores de Web3 para IA. Esses serviços são mais adequados para mercados potenciais de aplicativos de IA, indo além do suporte básico de computação.
  • As equipes de projetos com expertise profissional em operação e manutenção de campo de ML são tipicamente essenciais. As equipes que oferecem serviços de nível médio devem possuir uma compreensão abrangente de todo o fluxo de trabalho de ML para atender efetivamente aos requisitos do ciclo de vida completo dos desenvolvedores. Embora tais serviços frequentemente aproveitem frameworks e ferramentas de código aberto existentes sem exigir inovação técnica significativa, exigem uma equipe com ampla experiência e robustas capacidades de engenharia, servindo como uma vantagem competitiva para o projeto.

Oferecendo serviços a preços mais competitivos do que os serviços de computação em nuvem centralizada, mantendo instalações de suporte e experiências de usuário comparáveis, este projeto tem recebido reconhecimento de investidores proeminentes. No entanto, a alta complexidade técnica representa um desafio significativo. Atualmente, o projeto está na fase narrativa e de desenvolvimento, sem nenhum produto totalmente lançado até o momento.

Projeto representativo

1. Render Network

Render Network é uma plataforma global de renderização baseada em blockchain que aproveita GPUs distribuídos para oferecer aos criadores serviços de renderização 3D eficientes e econômicos. Após a confirmação dos resultados da renderização pelo criador, a rede blockchain envia recompensas de tokens para os nós. A plataforma apresenta uma rede distribuída de programação e alocação de GPUs, atribuindo tarefas com base no uso do nó, reputação e outros fatores para otimizar a eficiência de computação, minimizar recursos ociosos e reduzir despesas.

O token nativo da plataforma, RNDR, serve como a moeda de pagamento dentro do ecossistema. Os usuários podem utilizar o RNDR para liquidar taxas de serviço de renderização, enquanto os provedores de serviço ganham recompensas RNDR contribuindo com poder de computação para completar tarefas de renderização. O preço dos serviços de renderização é ajustado dinamicamente em resposta ao uso atual da rede e outras métricas relevantes.

A renderização prova ser um caso de uso bem adequado e estabelecido para a arquitetura de potência de computação distribuída. A natureza das tarefas de renderização permite a sua segmentação em múltiplas subtarefas executadas em paralelo, minimizando a comunicação e interação entre tarefas. Esta abordagem mitiga as desvantagens da arquitetura de computação distribuída enquanto aproveita a extensa rede de nós de GPU para impulsionar eficiências de custo.

A demanda pela Rede Render é substancial, com os usuários tendo renderizado mais de 16 milhões de frames e quase 500.000 cenas na plataforma desde sua criação em 2017. O volume de trabalhos de renderização e nós ativos continua a aumentar. Além disso, no primeiro trimestre de 2023, a Rede Render introduziu um conjunto de ferramentas de IA de Estabilidade integrado nativamente, permitindo aos usuários incorporar operações de Difusão Estável. Essa expansão além das operações de renderização significa uma mudança estratégica para o domínio das aplicações de IA.

2.Gensyn.ai

Gensyn opera como uma rede global de cluster de supercomputação especializada em computação de aprendizado profundo, utilizando o protocolo L1 da Polkadot. Em 2023, a plataforma garantiu $43 milhões em financiamento da Série A, liderada pela a16z. O framework arquitetônico da Gensyn se estende além do cluster de potência de computação distribuída da infraestrutura para abranger um sistema de verificação de camada superior. Este sistema garante que extensos cálculos off-chain estejam alinhados com os requisitos on-chain por meio da verificação blockchain, estabelecendo uma rede de aprendizado de máquina sem confiança.

Em relação ao poder de computação distribuída, Gensyn acomoda uma variedade de dispositivos, desde data centers com capacidade excedente até laptops pessoais com GPUs potenciais. Ele une esses dispositivos em um cluster virtual unificado acessível aos desenvolvedores para uso ponto a ponto sob demanda. Gensyn tem como objetivo estabelecer um mercado onde o preço é ditado pelas forças de mercado, promovendo a inclusão e permitindo que os custos de computação de ML atinjam níveis equitativos.

O sistema de verificação é um conceito fundamental para Gensyn, com o objetivo de validar a precisão das tarefas de aprendizado de máquina conforme especificado. Ele introduz uma abordagem inovadora de verificação que engloba prova de aprendizado probabilística, protocolo de posicionamento preciso baseado em gráfico e Truebit. Esses recursos técnicos centrais do jogo de incentivo oferecem eficiência aprimorada em comparação com os métodos tradicionais de validação de blockchain. Os participantes da rede incluem submissor, solucionadores, verificadores e denunciantes, facilitando coletivamente o processo de verificação.

Com base nos extensos dados de teste detalhados no white paper do protocolo Gensyn, as vantagens notáveis da plataforma incluem:

  • Redução de custos no treinamento de modelos de IA: O protocolo Gensyn oferece computação equivalente ao NVIDIA V100 a um custo estimado de cerca de $0.40 por hora, apresentando uma economia de custos de 80% em comparação com a computação sob demanda da AWS.
  • Eficiência aprimorada na Rede de Verificação Sem Confiança: Os resultados dos testes delineados no white paper indicam uma melhoria significativa no tempo de treinamento do modelo usando o protocolo Gensyn. O tempo adicional viu uma melhoria notável de 1.350% em comparação com a replicação do Truebit e uma melhoria extraordinária de 2.522.477% em comparação com o Ethereum.

No entanto, simultaneamente, o poder computacional distribuído introduz um aumento inevitável no tempo de treinamento em comparação com o treinamento local, atribuído aos desafios de comunicação e rede. Com base nos dados de teste, o protocolo Gensyn incorre em aproximadamente 46% de sobrecarga de tempo no treinamento do modelo.

3. rede Akash

A rede Akash funciona como uma plataforma de computação em nuvem distribuída que integra vários elementos técnicos para permitir aos usuários implantar e gerenciar aplicativos de forma eficiente dentro de um ambiente de nuvem descentralizada. Em essência, oferece aos usuários a capacidade de alugar recursos de computação distribuída.

No cerne da Akash encontra-se uma rede de prestadores de serviços de infraestrutura dispersos globalmente, oferecendo recursos de CPU, GPU, memória e armazenamento. Estes prestadores fornecem recursos para locação de usuários através do cluster superior do Kubernetes. Os usuários podem implantar aplicativos como contêineres Docker para aproveitar serviços de infraestrutura econômicos. Além disso, a Akash implementa uma abordagem de "leilão reverso" para reduzir ainda mais os preços dos recursos. Segundo estimativas no site oficial da Akash, os custos de serviço da plataforma são aproximadamente 80% inferiores aos dos servidores centralizados.

4.io.net

io.net é uma rede de computação descentralizada que interliga GPUs distribuídas globalmente para fornecer suporte computacional para treinamento e raciocínio de modelos de IA. Recentemente concluindo uma rodada de financiamento da Série A de $30 milhões, a plataforma agora ostenta uma avaliação de $1 bilhão.

Distinguido de plataformas como Render e Akash, io.net emerge como uma rede de computação descentralizada robusta e escalável, intimamente ligada a várias camadas de ferramentas de desenvolvedor. Suas principais características abrangem:

  • Agregação de Recursos de Computação Diversificados: Acesso a GPUs de centros de dados independentes, mineradores de criptomoedas e projetos como Filecoin e Render.
  • Suporte central para requisitos de IA: As capacidades de serviço essenciais abrangem inferência em lote e fornecimento de modelo, treinamento paralelo, ajuste de hiperparâmetros e aprendizado por reforço.
  • Pilha de Tecnologia Avançada para Fluxos de Trabalho Aprimorados em Ambientes de Nuvem: Abrangendo uma variedade de ferramentas de orquestração, estruturas de ML para alocação de recursos de computação, execução de algoritmos, treinamento de modelos, operações de inferência, soluções de armazenamento de dados, monitoramento de GPU e ferramentas de gerenciamento.
  • Capacidades de Computação Paralela: Integração do Ray, um framework de computação distribuída de código aberto, aproveitando o paralelismo inerente do Ray para paralelizar sem esforço funções Python para execução de tarefas dinâmicas. Seu armazenamento em memória facilita o compartilhamento rápido de dados entre tarefas, eliminando atrasos de serialização. Além disso, o io.net se estende além do Python ao integrar outros frameworks ML proeminentes como PyTorch e TensorFlow, aprimorando a escalabilidade.

Quanto aos preços, o site oficial io.net estima que suas tarifas serão aproximadamente 90% mais baixas do que as dos serviços centralizados de computação em nuvem.

Além disso, o token nativo da io.net, IO coin, servirá principalmente como mecanismo de pagamento e recompensas dentro do ecossistema. Alternativamente, os demandantes podem adotar um modelo semelhante ao da Helium, convertendo o IO coin na moeda estável "pontos IOSD" para transações.

Aviso legal:

  1. Este artigo é reimpresso de [Wanxiang Blockchain], o título original é “AI+Web3 Future Development Road (2) ): Infraestrutura”, os direitos autorais pertencem ao autor original [Wanxiang Blockchain]. Se houver objeções a esta reimpressão, entre em contato com o Gate Learn Team, e eles lidarão com isso prontamente.

  2. Aviso de responsabilidade: As opiniões expressas neste artigo são exclusivamente do autor e não constituem nenhum conselho de investimento.

  3. As traduções do artigo para outros idiomas são feitas pela equipe do Gate Learn. Sem mencionar Gate.io, o artigo traduzido não pode ser reproduzido, distribuído ou plagiado.

Explicação detalhada da infraestrutura AI+Web3

intermediário3/29/2024, 7:41:47 PM
Os principais projetos na camada de infraestrutura da indústria AI+Web3 basicamente adotam a rede de computação descentralizada como narrativa principal, baixo custo como principal vantagem, incentivos de token como principal forma de expandir a rede, e atender aos clientes de AI+Web3 como principal objetivo.

Título original encaminhado: AI+Web3 Futuro Caminho de Desenvolvimento (2): Capítulo de Infraestrutura

A infraestrutura é a direção determinística de crescimento do desenvolvimento de IA

1. Aumento da Demanda por Computação de IA

Nos últimos anos, a demanda por poder de computação experimentou um crescimento rápido, particularmente após o surgimento do grande modelo LLM. Esse aumento na demanda por poder de computação de IA impactou significativamente o mercado de computação de alto desempenho. Dados da OpenAI revelam uma tendência notável desde 2012, com o poder de computação usado para treinar os maiores modelos de IA crescendo exponencialmente, dobrando a cada 3-4 meses em média, superando a taxa de crescimento prevista pela Lei de Moore. A demanda crescente por aplicações de IA resultou em um rápido aumento na necessidade de hardware de computação. Projeções indicam que até 2025, a demanda por hardware de computação impulsionada por aplicações de IA deverá aumentar aproximadamente 10% a 15%.

Impulsionada pela demanda por poder de computação de IA, a fabricante de hardware de GPU NVIDIA testemunhou um crescimento contínuo na receita de data centers. No segundo trimestre de 2023, a receita de data centers atingiu US$ 10,32 bilhões, marcando um aumento de 141% em relação ao primeiro trimestre de 2023 e um notável aumento de 171% em relação ao mesmo período do ano anterior. No quarto trimestre do ano fiscal de 2024, o segmento de data centers representou mais de 83% da receita total, experimentando um crescimento simultâneo de 409%, com 40% atribuído a cenários de inferência de modelos grandes, indicando uma demanda robusta por poder de computação de alta performance.

Simultaneamente, a necessidade de vastas quantidades de dados impõe requisitos significativos de armazenamento e memória de hardware. Especialmente durante a fase de treinamento do modelo, entradas de parâmetros extensivos e armazenamento de dados são essenciais. Chips de memória utilizados em servidores de IA predominantemente incluem memória de alta largura de banda (HBM), DRAM e SSD. Ambientes de trabalho para servidores de IA devem oferecer capacidade aumentada, desempenho aprimorado, latência reduzida e tempos de resposta mais rápidos. De acordo com os cálculos da Micron, a quantidade de DRAM em servidores de IA excede a de servidores tradicionais em oito vezes, enquanto a quantidade de NAND supera os padrões tradicionais de servidores em três vezes.

2. Desequilíbrio entre oferta e demanda impulsiona os custos de energia computacional

Tipicamente, a potência de computação é utilizada principalmente nas etapas de treinamento, ajuste fino e inferência de modelos de IA, especialmente durante as fases de treinamento e ajuste fino. Devido ao aumento dos dados de entrada de parâmetros, requisitos computacionais e à demanda aumentada por interconectividade em computação paralela, há uma necessidade de hardware de GPU mais poderoso e interconectado, frequentemente na forma de clusters de GPU de alto desempenho. Conforme os modelos grandes evoluem, a complexidade computacional aumenta linearmente, necessitando de hardware mais avançado para atender às demandas de treinamento do modelo.

Tomando o GPT-3 como exemplo, com um cenário envolvendo cerca de 13 milhões de visitas de usuários independentes, a demanda de chips correspondente excederia 30.000 GPUs A100. Este custo inicial de investimento chegaria a incríveis $800 milhões, com custos estimados diários de inferência do modelo totalizando cerca de $700.000.

Simultaneamente, relatórios do setor indicam que no quarto trimestre de 2023, o fornecimento de GPU da NVIDIA foi severamente restrito globalmente, levando a um desequilíbrio perceptível entre oferta e demanda nos mercados mundiais. A capacidade de produção da NVIDIA foi limitada por fatores como TSMC, HBM, embalagem CoWos e o "grave problema de escassez" da GPU H100 deve persistir pelo menos até o final de 2024.

Portanto, o aumento na demanda por GPUs de alta qualidade e as restrições de fornecimento têm impulsionado os preços elevados dos componentes de hardware atuais, como GPUs. Especialmente para empresas como a NVIDIA que ocupam uma posição central na cadeia da indústria, os altos preços são ainda mais aumentados por seu domínio monopolista, permitindo-lhes obter dividendos de valor adicionais. Por exemplo, o custo material do cartão acelerador de IA H100 da NVIDIA é de aproximadamente $3,000, no entanto, seu preço de venda atingiu cerca de $35,000 em meados de 2023 e até ultrapassou $40,000 no eBay.

3. Infraestrutura de IA impulsiona o crescimento da cadeia industrial

Um relatório da Grand View Research indica que o tamanho do mercado global de IA em nuvem foi estimado em $62.63 bilhões em 2023, projetando atingir $647.6 bilhões até 2030, com uma taxa de crescimento anual composta de 39.6%. Esses números destacam o significativo potencial de crescimento dos serviços de IA em nuvem e sua substancial contribuição para a cadeia global da indústria de IA.

Segundo estimativas da a16z, uma parte substancial dos fundos no mercado AIGC (IA e Computação Global) flui ultimamente para empresas de infraestrutura. Em média, as empresas de aplicativos alocam aproximadamente 20-40% de sua receita para inferência e ajuste fino para cada cliente. Essa despesa é tipicamente direcionada ao provedor de nuvem da instância de computação ou a um provedor de modelo de terceiros, que por sua vez dedica cerca de metade da receita à infraestrutura de nuvem. Consequentemente, é razoável supor que 10-20% da receita total gerada pelo AIGC é canalizada para provedores de nuvem.

Além disso, uma parte significativa da demanda por poder computacional está centrada no treinamento de grandes modelos de IA, incluindo vários modelos extensos de LLM. Especialmente para startups de modelos, 80-90% dos custos são atribuídos ao poder computacional de IA. Coletivamente, a infraestrutura de computação de IA, abrangendo computação em nuvem e hardware, espera-se representar mais de 50% do valor inicial do mercado.

Computação de IA descentralizada

Conforme discutido anteriormente, o custo atual da computação de IA centralizada permanece alto, principalmente devido à demanda crescente por infraestrutura de alto desempenho para treinamento de IA. No entanto, uma quantidade significativa de poder de computação ocioso existe no mercado, levando a um descompasso entre oferta e demanda. Os principais fatores que contribuem para esse desequilíbrio incluem:

  • Limitado pela memória, a complexidade do modelo não tem uma relação de crescimento linear com o número de GPUs necessários. As GPUs atuais têm vantagens de potência de computação, mas o treinamento do modelo requer um grande número de parâmetros a serem armazenados na memória. Para o GPT-3, por exemplo, a fim de treinar um modelo com 175 bilhões de parâmetros, mais de 1 terabyte de dados precisa ser mantido na memória - mais do que qualquer GPU disponível hoje, exigindo assim mais GPUs para computação e armazenamento paralelos, o que por sua vez levará a ociosidade da potência de computação da GPU. Por exemplo, do GPT3 para o GPT4, o tamanho dos parâmetros do modelo aumentou cerca de 10 vezes, mas o número de GPUs necessárias aumentou 24 vezes (sem levar em consideração o aumento no tempo de treinamento do modelo). De acordo com análises relevantes, a OpenAI utilizou aproximadamente 2,15e25 FLOPS no treinamento do GPT-4, e conduziu o treinamento em aproximadamente 25.000 GPUs A100 por 90 a 100 dias, com uma utilização de potência de computação de aproximadamente 32% a 36%.

Em resposta aos desafios mencionados acima, a busca por projetar chips de alto desempenho ou chips ASIC especializados para tarefas de IA é uma abordagem proeminente sendo explorada por inúmeros desenvolvedores e grandes empresas. Outra abordagem envolve a utilização abrangente de recursos de computação existentes para estabelecer uma rede de computação distribuída, com o objetivo de reduzir os custos de energia computacional por meio de locação, compartilhamento e agendamento eficiente de recursos. Além disso, o mercado atualmente possui um excesso de GPUs e CPUs de consumo ociosas. Embora as unidades individuais possam não ter uma potência de computação robusta, elas podem atender efetivamente aos requisitos computacionais existentes em cenários específicos ou quando integradas a chips de alto desempenho. É crucial garantir um amplo suprimento, pois os custos podem ser ainda mais reduzidos por meio do agendamento de rede distribuído.

Consequentemente, a mudança em direção ao poder computacional distribuído surgiu como uma direção chave no avanço da infraestrutura de IA. Simultaneamente, dada a alinhamento conceitual entre Web3 e sistemas distribuídos, redes de poder computacional descentralizado tornaram-se um foco primário na paisagem de infraestrutura Web3+IA. Atualmente, plataformas de poder computacional descentralizado no mercado Web3 geralmente oferecem preços que são 80%-90% menores do que os serviços de computação em nuvem centralizados.

Embora o armazenamento desempenhe um papel vital na infraestrutura de IA, o armazenamento centralizado possui vantagens distintas em termos de escala, usabilidade e baixa latência. No entanto, devido às notáveis eficiências de custo que oferecem, as redes de computação distribuída têm um potencial de mercado significativo e estão preparadas para colher benefícios substanciais com a expansão do mercado de IA em crescimento.

  • A inferência de modelos e o treinamento de modelos pequenos representam os cenários fundamentais para a potência atual de computação distribuída. A dispersão de recursos de computação em sistemas distribuídos inevitavelmente introduz desafios de comunicação entre GPUs, potencialmente levando a uma redução no desempenho de computação. Consequentemente, a potência de computação distribuída é mais adequada para cenários que exigem uma comunicação mínima e podem suportar efetivamente tarefas paralelas. Esses cenários incluem a fase de inferência de modelos de IA extensos e modelos pequenos com relativamente menos parâmetros, minimizando os impactos no desempenho. Olhando para o futuro, à medida que as aplicações de IA evoluem, o raciocínio emerge como um requisito crítico na camada de aplicação. Dado que a maioria das empresas não possui a capacidade de treinar grandes modelos independentemente, a potência de computação distribuída mantém um significativo potencial de mercado a longo prazo.
  • Há um aumento nos frameworks de treinamento distribuído de alto desempenho adaptados para computação paralela em larga escala. Frameworks inovadores de computação distribuída de código aberto como PyTorch, Ray e DeepSpeed estão fornecendo aos desenvolvedores suporte fundamental robusto para aproveitar o poder de computação distribuída no treinamento de modelos. Este avanço aprimora a aplicabilidade do poder de computação distribuída no futuro mercado de IA, facilitando sua integração em várias aplicações de IA.

A lógica narrativa dos projetos de infraestrutura AI+Web3

O setor de infraestrutura de IA distribuída apresenta uma demanda robusta e perspectivas significativas de crescimento a longo prazo, tornando-se uma área atraente para o capital de investimento. Atualmente, os principais projetos dentro da camada de infraestrutura da indústria AI+Web3 giram predominantemente em torno de redes de computação descentralizadas. Esses projetos enfatizam os baixos custos como uma vantagem-chave, utilizam incentivos de token para expandir suas redes e priorizam o atendimento aos clientes de AI+Web3 como seu objetivo principal. Este setor compreende principalmente dois níveis-chave:

  1. Uma plataforma de compartilhamento e locação de recursos de computação em nuvem descentralizada relativamente pura: Projetos de IA iniciais como Render Network, Akash Network, entre outros, se enquadram nesta categoria.
  • A principal vantagem competitiva neste setor reside nos recursos de potência de computação, que permitem acesso a uma variedade de fornecedores, rápida estabelecimento de rede e ofertas de produtos fáceis de usar. Participantes do mercado inicial, como empresas de computação em nuvem e mineradores, estão bem posicionados para aproveitar esta oportunidade.
  • Com limites de produto baixos e capacidades de lançamento rápidas, plataformas estabelecidas como Render Network e Akash Network demonstraram um crescimento notável e mantêm uma vantagem competitiva.
  • No entanto, os novos entrantes no mercado enfrentam desafios com a homogeneidade do produto. A tendência atual e as baixas barreiras de entrada levaram a um influxo de projetos focados no compartilhamento de poder computacional e no arrendamento. Embora essas ofertas faltem diferenciação, há uma crescente necessidade de vantagens competitivas distintas.
  • Os provedores geralmente visam clientes com requisitos básicos de computação. Por exemplo, a Render Network é especializada em serviços de renderização, enquanto a Akash Network oferece recursos aprimorados de CPU. Embora o aluguel simples de recursos de computação seja suficiente para tarefas básicas de IA, ele não atende às necessidades abrangentes de processos de IA complexos, como treinamento, ajuste fino e inferência.
  1. Oferecendo serviços de fluxo de trabalho de computação descentralizada e aprendizado de máquina, inúmeros projetos emergentes recentemente garantiram financiamento substancial, incluindo Gensyn, io.net, Ritual e outros.
  • Computação descentralizada eleva o alicerce da valoração na indústria. Como o poder de computação se coloca como a narrativa decisiva no desenvolvimento de IA, projetos enraizados no poder de computação tendem a ostentar modelos de negócios mais robustos e de alto potencial, levando a valorações mais altas em comparação com projetos puramente intermediários.
  • Serviços de nível intermediário estabelecem vantagens distintivas. Os serviços oferecidos pela camada intermediária servem como vantagens competitivas para essas infraestruturas de computação, abrangendo funções como oráculos e verificadores que facilitam a sincronização de cálculos on e off-chain na cadeia de IA, ferramentas de implantação e gerenciamento que apoiam o fluxo de trabalho geral de IA, e muito mais. O fluxo de trabalho de IA é caracterizado por colaboração, feedback contínuo e alta complexidade, exigindo poder computacional em várias etapas. Portanto, uma camada de middleware que seja amigável ao usuário, altamente colaborativa e capaz de atender às necessidades intricadas dos desenvolvedores de IA surge como um ativo competitivo, especialmente no domínio Web3, atendendo aos requisitos dos desenvolvedores de Web3 para IA. Esses serviços são mais adequados para mercados potenciais de aplicativos de IA, indo além do suporte básico de computação.
  • As equipes de projetos com expertise profissional em operação e manutenção de campo de ML são tipicamente essenciais. As equipes que oferecem serviços de nível médio devem possuir uma compreensão abrangente de todo o fluxo de trabalho de ML para atender efetivamente aos requisitos do ciclo de vida completo dos desenvolvedores. Embora tais serviços frequentemente aproveitem frameworks e ferramentas de código aberto existentes sem exigir inovação técnica significativa, exigem uma equipe com ampla experiência e robustas capacidades de engenharia, servindo como uma vantagem competitiva para o projeto.

Oferecendo serviços a preços mais competitivos do que os serviços de computação em nuvem centralizada, mantendo instalações de suporte e experiências de usuário comparáveis, este projeto tem recebido reconhecimento de investidores proeminentes. No entanto, a alta complexidade técnica representa um desafio significativo. Atualmente, o projeto está na fase narrativa e de desenvolvimento, sem nenhum produto totalmente lançado até o momento.

Projeto representativo

1. Render Network

Render Network é uma plataforma global de renderização baseada em blockchain que aproveita GPUs distribuídos para oferecer aos criadores serviços de renderização 3D eficientes e econômicos. Após a confirmação dos resultados da renderização pelo criador, a rede blockchain envia recompensas de tokens para os nós. A plataforma apresenta uma rede distribuída de programação e alocação de GPUs, atribuindo tarefas com base no uso do nó, reputação e outros fatores para otimizar a eficiência de computação, minimizar recursos ociosos e reduzir despesas.

O token nativo da plataforma, RNDR, serve como a moeda de pagamento dentro do ecossistema. Os usuários podem utilizar o RNDR para liquidar taxas de serviço de renderização, enquanto os provedores de serviço ganham recompensas RNDR contribuindo com poder de computação para completar tarefas de renderização. O preço dos serviços de renderização é ajustado dinamicamente em resposta ao uso atual da rede e outras métricas relevantes.

A renderização prova ser um caso de uso bem adequado e estabelecido para a arquitetura de potência de computação distribuída. A natureza das tarefas de renderização permite a sua segmentação em múltiplas subtarefas executadas em paralelo, minimizando a comunicação e interação entre tarefas. Esta abordagem mitiga as desvantagens da arquitetura de computação distribuída enquanto aproveita a extensa rede de nós de GPU para impulsionar eficiências de custo.

A demanda pela Rede Render é substancial, com os usuários tendo renderizado mais de 16 milhões de frames e quase 500.000 cenas na plataforma desde sua criação em 2017. O volume de trabalhos de renderização e nós ativos continua a aumentar. Além disso, no primeiro trimestre de 2023, a Rede Render introduziu um conjunto de ferramentas de IA de Estabilidade integrado nativamente, permitindo aos usuários incorporar operações de Difusão Estável. Essa expansão além das operações de renderização significa uma mudança estratégica para o domínio das aplicações de IA.

2.Gensyn.ai

Gensyn opera como uma rede global de cluster de supercomputação especializada em computação de aprendizado profundo, utilizando o protocolo L1 da Polkadot. Em 2023, a plataforma garantiu $43 milhões em financiamento da Série A, liderada pela a16z. O framework arquitetônico da Gensyn se estende além do cluster de potência de computação distribuída da infraestrutura para abranger um sistema de verificação de camada superior. Este sistema garante que extensos cálculos off-chain estejam alinhados com os requisitos on-chain por meio da verificação blockchain, estabelecendo uma rede de aprendizado de máquina sem confiança.

Em relação ao poder de computação distribuída, Gensyn acomoda uma variedade de dispositivos, desde data centers com capacidade excedente até laptops pessoais com GPUs potenciais. Ele une esses dispositivos em um cluster virtual unificado acessível aos desenvolvedores para uso ponto a ponto sob demanda. Gensyn tem como objetivo estabelecer um mercado onde o preço é ditado pelas forças de mercado, promovendo a inclusão e permitindo que os custos de computação de ML atinjam níveis equitativos.

O sistema de verificação é um conceito fundamental para Gensyn, com o objetivo de validar a precisão das tarefas de aprendizado de máquina conforme especificado. Ele introduz uma abordagem inovadora de verificação que engloba prova de aprendizado probabilística, protocolo de posicionamento preciso baseado em gráfico e Truebit. Esses recursos técnicos centrais do jogo de incentivo oferecem eficiência aprimorada em comparação com os métodos tradicionais de validação de blockchain. Os participantes da rede incluem submissor, solucionadores, verificadores e denunciantes, facilitando coletivamente o processo de verificação.

Com base nos extensos dados de teste detalhados no white paper do protocolo Gensyn, as vantagens notáveis da plataforma incluem:

  • Redução de custos no treinamento de modelos de IA: O protocolo Gensyn oferece computação equivalente ao NVIDIA V100 a um custo estimado de cerca de $0.40 por hora, apresentando uma economia de custos de 80% em comparação com a computação sob demanda da AWS.
  • Eficiência aprimorada na Rede de Verificação Sem Confiança: Os resultados dos testes delineados no white paper indicam uma melhoria significativa no tempo de treinamento do modelo usando o protocolo Gensyn. O tempo adicional viu uma melhoria notável de 1.350% em comparação com a replicação do Truebit e uma melhoria extraordinária de 2.522.477% em comparação com o Ethereum.

No entanto, simultaneamente, o poder computacional distribuído introduz um aumento inevitável no tempo de treinamento em comparação com o treinamento local, atribuído aos desafios de comunicação e rede. Com base nos dados de teste, o protocolo Gensyn incorre em aproximadamente 46% de sobrecarga de tempo no treinamento do modelo.

3. rede Akash

A rede Akash funciona como uma plataforma de computação em nuvem distribuída que integra vários elementos técnicos para permitir aos usuários implantar e gerenciar aplicativos de forma eficiente dentro de um ambiente de nuvem descentralizada. Em essência, oferece aos usuários a capacidade de alugar recursos de computação distribuída.

No cerne da Akash encontra-se uma rede de prestadores de serviços de infraestrutura dispersos globalmente, oferecendo recursos de CPU, GPU, memória e armazenamento. Estes prestadores fornecem recursos para locação de usuários através do cluster superior do Kubernetes. Os usuários podem implantar aplicativos como contêineres Docker para aproveitar serviços de infraestrutura econômicos. Além disso, a Akash implementa uma abordagem de "leilão reverso" para reduzir ainda mais os preços dos recursos. Segundo estimativas no site oficial da Akash, os custos de serviço da plataforma são aproximadamente 80% inferiores aos dos servidores centralizados.

4.io.net

io.net é uma rede de computação descentralizada que interliga GPUs distribuídas globalmente para fornecer suporte computacional para treinamento e raciocínio de modelos de IA. Recentemente concluindo uma rodada de financiamento da Série A de $30 milhões, a plataforma agora ostenta uma avaliação de $1 bilhão.

Distinguido de plataformas como Render e Akash, io.net emerge como uma rede de computação descentralizada robusta e escalável, intimamente ligada a várias camadas de ferramentas de desenvolvedor. Suas principais características abrangem:

  • Agregação de Recursos de Computação Diversificados: Acesso a GPUs de centros de dados independentes, mineradores de criptomoedas e projetos como Filecoin e Render.
  • Suporte central para requisitos de IA: As capacidades de serviço essenciais abrangem inferência em lote e fornecimento de modelo, treinamento paralelo, ajuste de hiperparâmetros e aprendizado por reforço.
  • Pilha de Tecnologia Avançada para Fluxos de Trabalho Aprimorados em Ambientes de Nuvem: Abrangendo uma variedade de ferramentas de orquestração, estruturas de ML para alocação de recursos de computação, execução de algoritmos, treinamento de modelos, operações de inferência, soluções de armazenamento de dados, monitoramento de GPU e ferramentas de gerenciamento.
  • Capacidades de Computação Paralela: Integração do Ray, um framework de computação distribuída de código aberto, aproveitando o paralelismo inerente do Ray para paralelizar sem esforço funções Python para execução de tarefas dinâmicas. Seu armazenamento em memória facilita o compartilhamento rápido de dados entre tarefas, eliminando atrasos de serialização. Além disso, o io.net se estende além do Python ao integrar outros frameworks ML proeminentes como PyTorch e TensorFlow, aprimorando a escalabilidade.

Quanto aos preços, o site oficial io.net estima que suas tarifas serão aproximadamente 90% mais baixas do que as dos serviços centralizados de computação em nuvem.

Além disso, o token nativo da io.net, IO coin, servirá principalmente como mecanismo de pagamento e recompensas dentro do ecossistema. Alternativamente, os demandantes podem adotar um modelo semelhante ao da Helium, convertendo o IO coin na moeda estável "pontos IOSD" para transações.

Aviso legal:

  1. Este artigo é reimpresso de [Wanxiang Blockchain], o título original é “AI+Web3 Future Development Road (2) ): Infraestrutura”, os direitos autorais pertencem ao autor original [Wanxiang Blockchain]. Se houver objeções a esta reimpressão, entre em contato com o Gate Learn Team, e eles lidarão com isso prontamente.

  2. Aviso de responsabilidade: As opiniões expressas neste artigo são exclusivamente do autor e não constituem nenhum conselho de investimento.

  3. As traduções do artigo para outros idiomas são feitas pela equipe do Gate Learn. Sem mencionar Gate.io, o artigo traduzido não pode ser reproduzido, distribuído ou plagiado.

Start Now
Sign up and get a
$100
Voucher!