Já se passou quase um ano desde que o modelo grande entrou no campo de visão das pessoas e, sob a onda de modelos grandes de IA, grandes empresas de tecnologia correram para lançar seus próprios produtos de grandes modelos. Ao mesmo tempo, as empresas de vários setores também prestam muita atenção aos grandes modelos.
Se se diz que a situação dos grandes fabricantes que lançam produtos de modelos em grande escala para formar uma "guerra de 100 modelos" é a primeira metade da "batalha" dos grandes modelos, então a segunda metade desta "batalha" centrar-se-á mais na capacidade de integração de produtos de modelos em grande escala, bem como na direção de desenvolvimento de plataformas e industrialização.
A segunda metade do jogo, a plataformização e a industrialização se tornarão a faixa-chave
Tomando o ChatGPT, o "originador" do modelo grande, o ChatGPT é uma aplicação e pode ser considerado como um APP, enquanto o GPT4 é um modelo grande, construindo uma ecologia semelhante a um modelo grande, para que as empresas possam construir seus próprios modelos grandes com base nisso.
A partir dos casos acima, pode-se ver que, no último quase um ano, todas as empresas se concentraram em polir produtos semelhantes ao "ChatGPT", e o pouso está no lado da aplicação, enquanto para o lado corporativo, a indústria ainda carece de uma plataforma que permita às empresas chamar de forma flexível cada produto de modelo grande, ou abrir um modelo grande para suas próprias necessidades com base em um determinado produto. De acordo com Li Gang, vice-presidente e CTO da Digital China, se um grande modelo quer alcançar a explosão de aplicações no lado da empresa, ele precisa de uma, ou mesmo várias plataformas de código aberto e modelo aberto de grande porte.
Quando se trata da aplicação de modelos grandes de nível empresarial, temos que mencionar o modelo grande da indústria, a observação da mídia de titânio descobriu que o atual modelo grande de nível da indústria ainda está no estágio inicial de desenvolvimento, embora haja muitas empresas que lançaram o modelo grande da indústria, mas a aplicação não é muito boa.
Tomando a indústria financeira em rápido crescimento como exemplo, em março deste ano, a Bloomberg lançou o BloombergGPT, um grande modelo de linguagem para a indústria financeira, que atraiu a atenção do mercado para grandes modelos em verticais financeiras, e em junho, a Universidade de Columbia e a NYU Shanghai lançaram o FinGPT.
Na China, em julho, a Huawei lançou o modelo Pangu, um dos quais é um dos vários modelos da indústria. Em setembro, o Ant Group lançou oficialmente seu auto-desenvolvido "Ant Basic Model" e o personalizado "Ant Financial Model" nesta base.
Li Gang disse à Titanium Media que os tipos de modelos grandes no mercado são divididos principalmente em várias categorias, uma é o modelo básico geral, de um modo geral, esses grandes modelos constroem um banco de dados através do corpus de linguagem natural, e após limpeza, treinamento e outras operações, o modelo grande básico é criado, "Este tipo de modelo, quanto maior o corpus, maior o número de parâmetros, mais forte a habilidade." Li Gang disse.
O outro tipo é o modelo da indústria, que é altamente profissional e requer um grande número de bases de conhecimento da indústria, "Atualmente, o corpus desta base de conhecimento da indústria precisa ser controlado em 20%, nem mais nem menos." Li Gang enfatizou: "Se exceder 20%, o modelo grande treinado pode 'não ser capaz de falar', causando barreiras de comunicação, e menos de 20% pode não ter o profissionalismo da indústria." "
Camada "PaaS" para construção de modelos grandes
Assim como a computação em nuvem é dividida em IaaS, PaaS e SaaS, na visão de Huang Fu Ziqiao, gerente geral do departamento de marketing estratégico da Digital China, na era dos grandes modelos, as empresas também precisam de uma plataforma PaaS semelhante à era da nuvem.
A fim de construir uma plataforma para as empresas usarem melhor os grandes modelos, a Digital China lançou recentemente oficialmente a plataforma Shenzhou Wenxue, falando sobre a importância do lançamento da plataforma, Li Gang disse à Titanium Media: "Com a plataforma Shenzhou Wenxue como o núcleo, não fazemos o modelo grande básico, mas a integração e desenvolvimento de aplicativos e plataforma de entrega do modelo grande, de modo a acelerar a inovação de IA empresarial, somos o parceiro de serviços de big data, de modo a acelerar a atualização da governança de dados corporativos, fazemos laços ecológicos, mercados modelo, data marts, loja de aplicações, de modo a acelerar a inovação industrial e o avanço ecológico. "
No início deste ano, a HUAWEI CLOUD lançou o modelo grande Pangu e classificou-o de acordo com L0, L1 e L2. De acordo com a HUAWEI CLOUD, L0 refere-se ao modelo básico, L1 refere-se ao modelo da indústria e L2 refere-se ao modelo de inferência para cenários mais subdivididos.
Em termos de modelos grandes básicos, tomando o modelo grande de rede gráfica como exemplo, um modelo grande pode ser adaptado a vários cenários, como otimização de processos, previsão de séries temporais e análise inteligente, e pode ser aplicado a vários setores, como finanças, mineração de carvão e manufatura.
Em termos de modelos da indústria, a HUAWEI CLOUD lançou modelos da indústria como o Modelo Financeiro de Pangu, Modelo de Mina de Pangu, Modelo de Energia Elétrica de Pangu, Modelo de Inspeção de Qualidade de Fabricação de Pangu e Modelo de Molécula Farmacêutica de Pangu.
Em termos de modelos de inferência, por exemplo, com base no modelo de energia Pangu, a HUAWEI CLOUD lançou o modelo de inspeção de energia Pangu para cenários de subdivisão de inspeção de energia UAV através de um pré-treinamento + ajuste fino de tarefas a jusante, que resolve os problemas de aprendizagem de pequenas amostras, aprendizagem ativa e aprendizagem incremental no sistema de inspeção inteligente UAV (deteção de defeitos), e resolve os problemas de grande carga de trabalho de anotação de dados maciça e uma ampla variedade de defeitos.
O acima é o entendimento da HUAWEI CLOUD sobre modelos grandes e alguns dos layouts da indústria da HUAWEI CLOUD. Com base nisso, Huangfu Ziqiao disse à Titanium Media que a plataforma de aprendizagem da Digital China desempenhará o papel de um "conversor" para ajudar as empresas a pousar de cenários de aplicação da indústria L0 para L2, "fornecendo às empresas a capacidade de fornecer uma plataforma PaaS semelhante à era da computação em nuvem". Huangfu Ziqiao disse.
Coincidentemente, o CTO da Baidu, Wang Haifeng, também declarou publicamente que, diante do desafio da industrialização de modelos em larga escala, a indústria precisa de um modelo semelhante de fundição de chips para adotar o modelo de "produção intensiva e aplicação baseada em plataforma", ou seja, empresas com vantagens abrangentes em algoritmos, poder de computação e dados encapsularão o complexo processo de produção de modelos e fornecerão serviços de modelos em larga escala para milhares de indústrias por meio de uma plataforma de produção de baixo limiar e alta eficiência.
De acordo com a Titanium Media, atualmente, este caminho de industrialização tem sido verificado na prática da indústria de grandes modelos Wenxin, Baidu e várias empresas líderes da indústria, instituições para construir um grande modelo, incluindo energia, finanças, aeroespacial, manufatura, mídia, cidade, ciências sociais e cinema e televisão e outras indústrias.
Menor custo e menor limite são o objetivo
Embora os modelos grandes tenham penetrado gradualmente em todas as esferas da vida, em termos de desenvolvimento de modelos grandes nesta fase, o custo da utilização de modelos grandes ainda é proibitivo para muitas empresas para os utilizadores a nível empresarial.
Tomando o GPT-3 como exemplo, a Nvidia divulgou que leva 34 dias para treinar o GPT-3 com 175 bilhões de parâmetros, usando 1.024 chips de GPU A100, e o custo de um único treinamento chega a US$ 12 milhões. Para treinar modelos de IA em ultra-grande escala, a Microsoft até construiu um dos cinco melhores supercomputadores do mundo para OpenAI.
Ao mesmo tempo, de acordo com o relatório "How Much Computing Power Does ChatGPT Need" da Guosheng Securities, o custo de pré-treinamento de modelos grandes é muito alto, com o custo de um treinamento excedendo um milhão de dólares americanos. Essa taxa não cobre apenas a arquitetura do modelo, a seleção de algoritmos e a seleção de dados de treinamento, mas também inclui a grande quantidade de recursos de computação e o tempo necessário para o treinamento do modelo. E com a atualização da versão do modelo grande, seu custo de treinamento também aumenta exponencialmente.
Robin Li, fundador, presidente e CEO da Baidu, também ressaltou: "Nenhuma empresa pode fazer um modelo de linguagem tão grande em poucos meses". A aprendizagem profunda e o processamento de linguagem natural requerem anos de persistência e acumulação e não podem ser alcançados rapidamente. "
Face a um custo tão elevado da utilização de um modelo de grande dimensão e da utilização do limiar, é incomportável para as empresas comuns, e é precisamente por isso que, até agora, não existe uma verdadeira aterragem perfeita dos produtos de grandes modelos da indústria no mercado. A este respeito, Huangfu Ziqiao disse que o custo de usar modelos grandes é o maior obstáculo para muitas empresas aplicarem modelos grandes para capacitar seus negócios, e o posicionamento da plataforma Shenzhou Wenxue é permitir que as empresas usem produtos de modelos grandes a um custo de escolha mais baixo através de código aberto. "Existem duas partes principais, uma é a plataforma e a outra é a aplicação de cenário fora da caixa. Huangfu Ziqiao disse à Titanium Media: "Por um lado, essas duas partes esperam reunir mais parceiros ecológicos para capacitar conjuntamente os usuários e, por outro lado, esperam que as empresas possam usar produtos modelo em grande escala mais rápido e convenientemente." "
É consenso na indústria reduzir o custo e o limiar dos grandes modelos, quer se trate de uma GPU "difícil de encontrar", quer de contas de eletricidade elevadas, que são os limiares para as empresas aplicarem modelos grandes nesta fase, e como Shenzhou Wenxue, Baidu Qianfan, Kunlun Wanwei, etc., "estilos diferentes", mas o mesmo objetivo - o surgimento de produtos ao nível da plataforma que "ajudam os grandes modelos a aterrar", bem como o número crescente de parceiros no ecossistema de grandes modelos, o limiar e o custo dos grandes modelos de aplicação empresarial serão ainda mais reduzidos. Também nos aproximaremos cada vez mais da inclusão do modelo da indústria.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
A segunda metade da "guerra dos 100 modelos" começará, e a plataforma se tornará a chave
Fonte original: Titanium Media
Já se passou quase um ano desde que o modelo grande entrou no campo de visão das pessoas e, sob a onda de modelos grandes de IA, grandes empresas de tecnologia correram para lançar seus próprios produtos de grandes modelos. Ao mesmo tempo, as empresas de vários setores também prestam muita atenção aos grandes modelos.
Se se diz que a situação dos grandes fabricantes que lançam produtos de modelos em grande escala para formar uma "guerra de 100 modelos" é a primeira metade da "batalha" dos grandes modelos, então a segunda metade desta "batalha" centrar-se-á mais na capacidade de integração de produtos de modelos em grande escala, bem como na direção de desenvolvimento de plataformas e industrialização.
A segunda metade do jogo, a plataformização e a industrialização se tornarão a faixa-chave
Tomando o ChatGPT, o "originador" do modelo grande, o ChatGPT é uma aplicação e pode ser considerado como um APP, enquanto o GPT4 é um modelo grande, construindo uma ecologia semelhante a um modelo grande, para que as empresas possam construir seus próprios modelos grandes com base nisso.
A partir dos casos acima, pode-se ver que, no último quase um ano, todas as empresas se concentraram em polir produtos semelhantes ao "ChatGPT", e o pouso está no lado da aplicação, enquanto para o lado corporativo, a indústria ainda carece de uma plataforma que permita às empresas chamar de forma flexível cada produto de modelo grande, ou abrir um modelo grande para suas próprias necessidades com base em um determinado produto. De acordo com Li Gang, vice-presidente e CTO da Digital China, se um grande modelo quer alcançar a explosão de aplicações no lado da empresa, ele precisa de uma, ou mesmo várias plataformas de código aberto e modelo aberto de grande porte.
Quando se trata da aplicação de modelos grandes de nível empresarial, temos que mencionar o modelo grande da indústria, a observação da mídia de titânio descobriu que o atual modelo grande de nível da indústria ainda está no estágio inicial de desenvolvimento, embora haja muitas empresas que lançaram o modelo grande da indústria, mas a aplicação não é muito boa.
Tomando a indústria financeira em rápido crescimento como exemplo, em março deste ano, a Bloomberg lançou o BloombergGPT, um grande modelo de linguagem para a indústria financeira, que atraiu a atenção do mercado para grandes modelos em verticais financeiras, e em junho, a Universidade de Columbia e a NYU Shanghai lançaram o FinGPT.
Na China, em julho, a Huawei lançou o modelo Pangu, um dos quais é um dos vários modelos da indústria. Em setembro, o Ant Group lançou oficialmente seu auto-desenvolvido "Ant Basic Model" e o personalizado "Ant Financial Model" nesta base.
Li Gang disse à Titanium Media que os tipos de modelos grandes no mercado são divididos principalmente em várias categorias, uma é o modelo básico geral, de um modo geral, esses grandes modelos constroem um banco de dados através do corpus de linguagem natural, e após limpeza, treinamento e outras operações, o modelo grande básico é criado, "Este tipo de modelo, quanto maior o corpus, maior o número de parâmetros, mais forte a habilidade." Li Gang disse.
O outro tipo é o modelo da indústria, que é altamente profissional e requer um grande número de bases de conhecimento da indústria, "Atualmente, o corpus desta base de conhecimento da indústria precisa ser controlado em 20%, nem mais nem menos." Li Gang enfatizou: "Se exceder 20%, o modelo grande treinado pode 'não ser capaz de falar', causando barreiras de comunicação, e menos de 20% pode não ter o profissionalismo da indústria." "
Camada "PaaS" para construção de modelos grandes
Assim como a computação em nuvem é dividida em IaaS, PaaS e SaaS, na visão de Huang Fu Ziqiao, gerente geral do departamento de marketing estratégico da Digital China, na era dos grandes modelos, as empresas também precisam de uma plataforma PaaS semelhante à era da nuvem.
A fim de construir uma plataforma para as empresas usarem melhor os grandes modelos, a Digital China lançou recentemente oficialmente a plataforma Shenzhou Wenxue, falando sobre a importância do lançamento da plataforma, Li Gang disse à Titanium Media: "Com a plataforma Shenzhou Wenxue como o núcleo, não fazemos o modelo grande básico, mas a integração e desenvolvimento de aplicativos e plataforma de entrega do modelo grande, de modo a acelerar a inovação de IA empresarial, somos o parceiro de serviços de big data, de modo a acelerar a atualização da governança de dados corporativos, fazemos laços ecológicos, mercados modelo, data marts, loja de aplicações, de modo a acelerar a inovação industrial e o avanço ecológico. "
No início deste ano, a HUAWEI CLOUD lançou o modelo grande Pangu e classificou-o de acordo com L0, L1 e L2. De acordo com a HUAWEI CLOUD, L0 refere-se ao modelo básico, L1 refere-se ao modelo da indústria e L2 refere-se ao modelo de inferência para cenários mais subdivididos.
Em termos de modelos grandes básicos, tomando o modelo grande de rede gráfica como exemplo, um modelo grande pode ser adaptado a vários cenários, como otimização de processos, previsão de séries temporais e análise inteligente, e pode ser aplicado a vários setores, como finanças, mineração de carvão e manufatura.
Em termos de modelos da indústria, a HUAWEI CLOUD lançou modelos da indústria como o Modelo Financeiro de Pangu, Modelo de Mina de Pangu, Modelo de Energia Elétrica de Pangu, Modelo de Inspeção de Qualidade de Fabricação de Pangu e Modelo de Molécula Farmacêutica de Pangu.
Em termos de modelos de inferência, por exemplo, com base no modelo de energia Pangu, a HUAWEI CLOUD lançou o modelo de inspeção de energia Pangu para cenários de subdivisão de inspeção de energia UAV através de um pré-treinamento + ajuste fino de tarefas a jusante, que resolve os problemas de aprendizagem de pequenas amostras, aprendizagem ativa e aprendizagem incremental no sistema de inspeção inteligente UAV (deteção de defeitos), e resolve os problemas de grande carga de trabalho de anotação de dados maciça e uma ampla variedade de defeitos.
O acima é o entendimento da HUAWEI CLOUD sobre modelos grandes e alguns dos layouts da indústria da HUAWEI CLOUD. Com base nisso, Huangfu Ziqiao disse à Titanium Media que a plataforma de aprendizagem da Digital China desempenhará o papel de um "conversor" para ajudar as empresas a pousar de cenários de aplicação da indústria L0 para L2, "fornecendo às empresas a capacidade de fornecer uma plataforma PaaS semelhante à era da computação em nuvem". Huangfu Ziqiao disse.
Coincidentemente, o CTO da Baidu, Wang Haifeng, também declarou publicamente que, diante do desafio da industrialização de modelos em larga escala, a indústria precisa de um modelo semelhante de fundição de chips para adotar o modelo de "produção intensiva e aplicação baseada em plataforma", ou seja, empresas com vantagens abrangentes em algoritmos, poder de computação e dados encapsularão o complexo processo de produção de modelos e fornecerão serviços de modelos em larga escala para milhares de indústrias por meio de uma plataforma de produção de baixo limiar e alta eficiência.
De acordo com a Titanium Media, atualmente, este caminho de industrialização tem sido verificado na prática da indústria de grandes modelos Wenxin, Baidu e várias empresas líderes da indústria, instituições para construir um grande modelo, incluindo energia, finanças, aeroespacial, manufatura, mídia, cidade, ciências sociais e cinema e televisão e outras indústrias.
Menor custo e menor limite são o objetivo
Embora os modelos grandes tenham penetrado gradualmente em todas as esferas da vida, em termos de desenvolvimento de modelos grandes nesta fase, o custo da utilização de modelos grandes ainda é proibitivo para muitas empresas para os utilizadores a nível empresarial.
Tomando o GPT-3 como exemplo, a Nvidia divulgou que leva 34 dias para treinar o GPT-3 com 175 bilhões de parâmetros, usando 1.024 chips de GPU A100, e o custo de um único treinamento chega a US$ 12 milhões. Para treinar modelos de IA em ultra-grande escala, a Microsoft até construiu um dos cinco melhores supercomputadores do mundo para OpenAI.
Ao mesmo tempo, de acordo com o relatório "How Much Computing Power Does ChatGPT Need" da Guosheng Securities, o custo de pré-treinamento de modelos grandes é muito alto, com o custo de um treinamento excedendo um milhão de dólares americanos. Essa taxa não cobre apenas a arquitetura do modelo, a seleção de algoritmos e a seleção de dados de treinamento, mas também inclui a grande quantidade de recursos de computação e o tempo necessário para o treinamento do modelo. E com a atualização da versão do modelo grande, seu custo de treinamento também aumenta exponencialmente.
Robin Li, fundador, presidente e CEO da Baidu, também ressaltou: "Nenhuma empresa pode fazer um modelo de linguagem tão grande em poucos meses". A aprendizagem profunda e o processamento de linguagem natural requerem anos de persistência e acumulação e não podem ser alcançados rapidamente. "
Face a um custo tão elevado da utilização de um modelo de grande dimensão e da utilização do limiar, é incomportável para as empresas comuns, e é precisamente por isso que, até agora, não existe uma verdadeira aterragem perfeita dos produtos de grandes modelos da indústria no mercado. A este respeito, Huangfu Ziqiao disse que o custo de usar modelos grandes é o maior obstáculo para muitas empresas aplicarem modelos grandes para capacitar seus negócios, e o posicionamento da plataforma Shenzhou Wenxue é permitir que as empresas usem produtos de modelos grandes a um custo de escolha mais baixo através de código aberto. "Existem duas partes principais, uma é a plataforma e a outra é a aplicação de cenário fora da caixa. Huangfu Ziqiao disse à Titanium Media: "Por um lado, essas duas partes esperam reunir mais parceiros ecológicos para capacitar conjuntamente os usuários e, por outro lado, esperam que as empresas possam usar produtos modelo em grande escala mais rápido e convenientemente." "
É consenso na indústria reduzir o custo e o limiar dos grandes modelos, quer se trate de uma GPU "difícil de encontrar", quer de contas de eletricidade elevadas, que são os limiares para as empresas aplicarem modelos grandes nesta fase, e como Shenzhou Wenxue, Baidu Qianfan, Kunlun Wanwei, etc., "estilos diferentes", mas o mesmo objetivo - o surgimento de produtos ao nível da plataforma que "ajudam os grandes modelos a aterrar", bem como o número crescente de parceiros no ecossistema de grandes modelos, o limiar e o custo dos grandes modelos de aplicação empresarial serão ainda mais reduzidos. Também nos aproximaremos cada vez mais da inclusão do modelo da indústria.