O modelo de pedestal de terceira geração auto-desenvolvido ChatGLM3 é lançado hoje!
Esta é mais uma otimização do modelo base ChatGLM pela equipe de IA Zhipu desde o lançamento do modelo de segunda geração em junho.
Além disso, na China Computer Conference (CNCC) de 2023 em 27 de outubro, Zhipu AI também abriu o ChatGLM3-6B (32k), o multimodal CogVLM-17B e o agente AgentLM.
Após o lançamento da série de modelos ChatGLM3, a Zhipu tornou-se a única empresa na China que comparou a linha completa de modelos da OpenAI.
O assistente de IA generativa Zhipu Qingyan também se tornou o primeiro produto modelo em grande escala com recursos de interação de código na China.
O modelo é totalmente autodesenvolvido, adaptando-se aos chips nacionais, com desempenho mais forte e um ecossistema mais open source.
Como a primeira empresa a entrar na pesquisa de modelos em larga escala, a Zhipu AI é a primeira a submeter o artigo!
Além disso, Zhipu AI completou um total de mais de 2,5 bilhões de yuans em financiamento este ano, Meituan, Ant, Alibaba, Tencent... A luxuosa lista de investidores mostra a forte confiança da indústria na Zhipu AI.
Visando a atualização técnica do GPT-4V
Atualmente, o modelo de visão multimodal GPT-4V tem mostrado fortes capacidades de reconhecimento de imagem.
Ao mesmo tempo, visando o GPT-4V, o Zhipu AI também atualizou iterativamente outros recursos do ChatGLM3 desta vez. Entre eles, o modelo de compreensão multimodal CogVLM pode tentar entender e atualizar 10+ conjuntos de dados de avaliação gráfica e de texto padrão internacional SOTA. Atualmente, o CogVLM-17B é de código aberto.
O Interpretador de Código pode gerar e executar código de acordo com as necessidades do usuário, completando automaticamente tarefas complexas, como análise de dados e processamento de arquivos.
A pesquisa na Web melhora o WebGLM, que pode encontrar automaticamente informações relevantes na Internet de acordo com a pergunta, e fornecer links para literatura ou artigos relacionados com referência ao responder.
Além disso, as capacidades semânticas e lógicas do ChatGLM3 também foram muito melhoradas.
Versão 6B Direct Open Source
Vale a pena mencionar que, uma vez que o ChatGLM3 foi lançado, o Zhipu AI abriu diretamente o modelo de parâmetros 6B para a comunidade.
Os resultados da avaliação mostram que, em comparação com o ChatGLM 2 e em comparação com modelos nacionais do mesmo tamanho, o ChatGLM3-6B ficou em primeiro lugar em 9 dos 44 testes de conjuntos de dados públicos chineses e ingleses.
MMLU aumentou em 36%, C em 33%, GSM8K em 179% e BBH em 126%.
Sua versão de código aberto 32k, ChatGLM3-6B-32K, tem o melhor desempenho em LongBench.
Além disso, é a mais recente "inferência dinâmica eficiente + tecnologia de otimização de memória de vídeo" que torna a estrutura de inferência atual mais eficiente sob as mesmas condições de hardware e modelo.
Em comparação com a melhor implementação de código aberto atual, em comparação com o vLLM lançado pela Universidade de Berkeley e a versão mais recente do Hugging Face TGI, a velocidade de inferência é aumentada em 2-3 vezes, e o custo de inferência é reduzido em 1 vez, com apenas 0,5 pontos por mil tokens, que é o menor custo.
AgentTuning auto-desenvolvido, ativação da capacidade do agente
O que é ainda mais surpreendente é que o ChatGLM3 também traz uma nova habilidade de agente.
A Zhipu AI espera que modelos grandes possam se comunicar melhor com ferramentas externas por meio de APIs, e até mesmo realizar grandes interações de modelos por meio de agentes.
Ao integrar a tecnologia AgentTuning auto-desenvolvida, a capacidade de agente inteligente do modelo pode ser ativada, especialmente em termos de planejamento e execução inteligentes, que é 1000% maior do que a do ChatGLM 2.
No mais recente AgentBench, o ChatGLM3-turbo está próximo do GPT-3.5.
Ao mesmo tempo, o AgentLM também está aberto à comunidade de código aberto. O que a equipe de IA do Zhipu espera é fazer com que o modelo de código aberto alcance ou até exceda a capacidade do agente do modelo de código fechado.
Isso significa que o agente permitirá o suporte nativo de grandes modelos domésticos para cenários complexos, como "chamada de ferramentas, execução de código, jogos, operações de banco de dados, pesquisa e inferência de gráficos de conhecimento e sistemas operacionais".
1.5B/3B lançado ao mesmo tempo, o telefone celular pode funcionar
Quer executar o ChatGLM no seu telefone? OK!
Desta vez, o ChatGLM3 também lançou um modelo de teste de terminal que pode ser implantado em celulares, com dois parâmetros: 1.5B e 3B.
Ele pode suportar uma variedade de telefones celulares, incluindo Vivo, Xiaomi, Samsung e plataformas no veículo, e até suporta a inferência de chips de CPU em plataformas móveis, com uma velocidade de até 20 tokens / s.
Em termos de precisão, o desempenho dos modelos 1.5B e 3B é próximo ao do modelo ChatGLM2-6B na avaliação pública de benchmark, então vá em frente e experimente!
Uma nova geração de "Zhipu Qingyan" é totalmente lançada
Assim como o ChatGPT tem um poderoso modelo GPT-4 por trás, o assistente de IA generativa "Zhipu Qingyan" da equipe de IA Zhipu também é abençoado pelo ChatGLM3.
Após a demonstração de transmissão ao vivo desta equipe, a função foi lançada diretamente, e o principal é uma sinceridade!
Endereço do teste:
Intérprete de Código
Como um dos plugins mais populares para o ChatGPT, Advanced Data Analysis (anteriormente Code Interpreter) pode analisar problemas com mais pensamento matemático com base na entrada de linguagem natural, e gerar código apropriado ao mesmo tempo.
Agora, com o apoio do recém-atualizado ChatGLM3, "Zhipu Qingyan" tornou-se o primeiro produto modelo em grande escala com recursos avançados de análise de dados na China, que pode suportar processamento de imagem, computação matemática, análise de dados e outros cenários de uso.
O romance dos homens da ciência e da engenharia só pode ser entendido por "Zhipu Qingyan".
Embora o CEO Zhang Peng tenha realizado uma performance ao vivo para desenhar uma virada de "coração vermelho", mas tente novamente, e o resultado saiu em segundos.
Da mesma forma, o ChatGLM3 atualizado também é muito bom em análise de dados.
Após alguma análise, um histograma da distribuição do comprimento pode ser desenhado com base no comprimento do campo.
### Aprimoramentos de pesquisa
Com a adição de recursos de modelo grande WebGLM, "Zhipu Qingyan" agora também tem a capacidade de procurar aprimorado - ele pode resumir as respostas a perguntas com base nas informações mais recentes na Internet, e anexar links de referência.
Por exemplo, o iPhone 15 inaugurou recentemente uma onda de cortes de preços, quão grande é a flutuação específica?
A resposta dada por "Zhipu Qingyan" não é ruim!
### Compreensão Gráfica
O modelo CogVLM melhora a capacidade de compreensão de imagem e texto chinês de Zhipu Qingyan, e obtém a capacidade de compreensão de imagem próxima ao GPT-4V.
Ele pode responder a vários tipos de perguntas visuais e pode concluir a deteção de objetos complexos, rotulagem e anotação automática de dados completa.
Como exemplo, deixe o CogVLM identificar quantas pessoas estão na imagem.
Adicione um pouco de dificuldade e, em seguida, dê uma imagem de três laranjas juntas, e você também pode identificar com precisão a quantidade.
Neymar, Messi, Ronaldo, CogVLM também são inequívocos.
Para problemas de matemática visual onde 2 maçãs e 1 maçã são adicionadas, o CogVLM também pode fazê-lo corretamente.
**GLM vs GPT: Benchmarking da linha completa de produtos da OpenAI! **
Do ChatGPT, um aplicativo de bate-papo e conversa, Code Interpreter, um plugin de geração de código, para DALL· E 3, e depois para o modelo multimodal visual GPT-4V, a OpenAI tem atualmente um conjunto completo de arquitetura de produto.
Olhando para a China, a única empresa que pode alcançar a cobertura de produtos mais abrangente é a Zhipu AI.
### Conversa: ChatGPT vs. ChatGLM
Não há necessidade de dizer mais sobre a introdução do popular frango frito ChatGPT.
No início deste ano, a equipe de IA do Zhipu também lançou o ChatGLM, um modelo de diálogo de 100 bilhões de níveis.
Com base nas ideias de design do ChatGPT, os desenvolvedores injetaram pré-treinamento de código no modelo base de 100 bilhões GLM-130B.
Na verdade, já em 2022, a Zhipu AI abriu o GLM-130B para a comunidade de pesquisa e indústria, e essa pesquisa também foi aceita pela ACL 2022 e ICLR 2023.
Ambos os modelos ChatGLM-6B e ChatGLM-130B foram treinados em corpora chineses e ingleses contendo tokens 1T, usando ajuste fino supervisionado (SFT), bootstrap de feedback e aprendizagem por reforço de feedback humano (RLHF).
O modelo ChatGLM é capaz de gerar respostas que estão de acordo com as preferências humanas. Combinado com a tecnologia de quantização, os usuários podem implantar localmente em placas gráficas de nível de consumidor (apenas 6 GB de memória de vídeo são necessários no nível de quantização INT4) e executar seu próprio ChatGLM em laptops baseados no modelo GLM.
Em 14 de março, Zhipu AI open-source ChatGLM-6B para a comunidade, e ganhou o primeiro lugar na avaliação de terceiros de linguagem natural chinesa, diálogo chinês, perguntas e respostas chinesas e tarefas de raciocínio.
Ao mesmo tempo, centenas de projetos ou aplicativos baseados no ChatGLM-6B nasceram.
A fim de promover ainda mais o desenvolvimento da grande comunidade de código aberto, a Zhipu AI lançou o ChatGLM2 em junho, e o modelo de diálogo base de 100 bilhões foi atualizado e de código aberto, incluindo tamanhos diferentes de 6B, 12B, 32B, 66B e 130B, melhorando as capacidades e enriquecendo cenários.
O ChatGLM 2 ocupa o primeiro lugar na lista chinesa, a partir de 25 de junho de 2023, o ChatGLM2 ocupa o primeiro lugar na lista C Rank 0 e o ChatGLM2-6B ocupa o Rank 6. Em comparação com o modelo de primeira geração, o ChatGLM 2 alcançou 16%, 36% e 280% de melhorias em MMLU, C e GSM8K, respectivamente.
Vale a pena mencionar que, em apenas alguns meses, o ChatGLM-6B e o ChatGLM2-6B foram amplamente utilizados.
Atualmente, um total de 50.000+ estrelas foram coletadas no GitHub. Além disso, há 10.000.000+ downloads no Hugging Face, ocupando o primeiro lugar na tendência de quatro semanas.
ChatGLM-6B:
ChatGLM2-6B:
Aprimoramentos de pesquisa: WebGPT vs. WebGLM
A fim de resolver o problema da "ilusão" de modelos grandes, a solução geral é combinar o conhecimento no motor de busca e deixar o modelo grande realizar "aprimoramento de recuperação".
Já em 2021, a OpenAI ajustou um modelo que pode agregar resultados de pesquisa com base no GPT-3 - WebGPT.
O WebGPT modela o comportamento de pesquisa humana, pesquisa em páginas da web para encontrar respostas relevantes e fornece fontes de citação, para que os resultados de saída possam ser rastreados.
Mais importante ainda, alcançou excelentes resultados em Perguntas e Respostas longas de domínio aberto.
Sob a orientação desta ideia, nasceu o WebGLM, o modelo de "versão em rede" do ChatGLM, que é um modelo baseado no ajuste fino de 10 bilhões de parâmetros do ChatGLM, e o foco principal é a pesquisa de rede.
Endereço:
Por exemplo, quando você quer saber por que o céu é azul. WebGLM imediatamente dá a resposta on-line e inclui um link para aumentar a credibilidade da resposta do modelo.
Arquitetonicamente, o sistema de aprimoramento de pesquisa WebGLM envolve três componentes importantes: um retriever, um gerador e um scorer.
O retriever baseado em LLM é dividido em dois estágios, um é a recuperação de rede de grão grosso (pesquisa, aquisição, extração) e o outro é a recuperação de destilação de grão fino.
Em todo o processo do retriever, o tempo é consumido principalmente no processo de busca da página web, então o WebGLM usa tecnologia assíncrona paralela para melhorar a eficiência.
O gerador de bootstrap é o núcleo e é responsável por gerar respostas de alta qualidade às perguntas das páginas de referência obtidas do retriever.
Ele usa os recursos de inferência contextual de modelos grandes para gerar conjuntos de dados de controle de qualidade de alta qualidade e projeta estratégias de correção e seleção para filtrar subconjuntos de alta qualidade para treinamento.
O avaliador final é usado para pontuar as respostas geradas pelo WebGLM através do RLHF, a fim de se alinhar com as preferências humanas.
Os resultados experimentais mostram que o WebGLM pode fornecer resultados mais precisos e concluir tarefas de perguntas e respostas de forma eficiente. Inclusive, ele pode se aproximar do WebGPT com 175 bilhões de parâmetros com um desempenho de 10 bilhões de parâmetros.
Atualmente, esta pesquisa foi aceita pelo KDD 2023, e a equipe de IA Zhipu também abriu os recursos e conjuntos de dados.
Endereço do projeto:
Compreensão de imagem e texto: GPT-4V vs. CogVLM
Em setembro deste ano, a OpenAI levantou oficialmente a proibição das incríveis capacidades multimodais do GPT-4.
GPT-4V, que é suportado por isso, tem uma forte capacidade de entender imagens e é capaz de processar entradas multimodais arbitrariamente misturadas.
Por exemplo, ele não pode dizer que o prato na foto é mapo tofu, e pode até dar os ingredientes para fazê-lo.
Em outubro, Zhipu open-source um novo modelo básico de linguagem visual, CogVLM, que pode realizar a integração profunda de recursos de linguagem visual sem sacrificar o desempenho de quaisquer tarefas de PNL.
Diferente dos métodos comuns de fusão superficial, o CogVLM incorpora um módulo especialista em visão treinável no mecanismo de atenção e na camada de rede neural feedforward.
Este design consegue um alinhamento profundo entre as características de imagem e texto, compensando eficazmente as diferenças entre o modelo de linguagem pré-treinado e o codificador de imagem.
Atualmente, o CogVLM-17B é o modelo com a primeira pontuação abrangente na lista acadêmica autorizada multimodal, e alcançou resultados SOTA ou segundo lugar em 14 conjuntos de dados.
Ele alcança o melhor desempenho (SOTA) em 10 benchmarks multimodais autorizados, incluindo NoCaps, legendas Flicker30k, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz-VQA e TDIUC.
A ideia central do CogVLM é "visual first".
Modelos multimodais anteriores geralmente alinham recursos de imagem diretamente ao espaço de entrada de recursos de texto, e o codificador de recursos de imagem é geralmente pequeno, neste caso, a imagem pode ser considerada como um "vassalo" do texto, e o efeito é naturalmente limitado.
O CogVLM, por outro lado, prioriza a compreensão visual no modelo multimodal, usando um codificador de visão de parâmetros 5B e um módulo especialista em visão de parâmetros 6B para modelar recursos de imagem com um total de parâmetros 11B, o que é ainda mais do que a quantidade de parâmetros 7B de texto.
Em alguns testes, o CogVLM até superou o GPT-4V.
Há 4 casas na imagem, 3 são totalmente visíveis, e 1 só pode ser visto se você aumentar o zoom.
O CogVLM pode identificar com precisão essas 4 casas, enquanto o GPT-4V só pode identificar 3.
Nesta pergunta, imagens com texto são testadas.
CogVLM descreve fielmente a cena e o texto correspondente.
### Wensheng Diagrama: DALL· E vs. CogView
O modelo de gráfico Wensheng mais poderoso da OpenAI é DALL· E 3 também.
Em contraste, a equipe de IA Zhipu lançou o CogView, um modelo pré-treinado universal de texto para imagem baseado em Transformer.
Endereço:
A ideia geral do CogView é realizar treinamento autorregressivo emendando recursos de texto e recursos de token de imagem. Finalmente, apenas o recurso de token de texto é inserido, e o modelo pode gerar continuamente tokens de imagem.
Especificamente, o texto "O avatar de um gatinho bonito" é primeiro convertido em um token, e o modelo SentencePiece é usado aqui.
Em seguida, uma imagem de um gato é alimentada e a parte da imagem é convertida em um token através de um decodificador automático discreto.
Em seguida, os recursos de token de texto e imagem são costurados e, em seguida, inseridos no modelo GPT da arquitetura do Transformer para aprender a gerar imagens.
Finalmente, após a conclusão do treinamento, o modelo classificará os resultados gerados calculando uma pontuação de legenda para selecionar os resultados mais correspondentes durante a tarefa de geração de texto para imagem.
Comparação de DALL· E e esquemas GAN comuns, os resultados do CogView foram muito melhorados.
Em 2022, os pesquisadores atualizaram o modelo gráfico de Wensheng CogView2 novamente, e o efeito foi diretamente comparado ao DALL· E2。
Endereço:
Em comparação com o CogView, a arquitetura do CogView2 adota transfomer hierárquico e modo autorregressivo paralelo para geração de imagens.
No artigo, os pesquisadores pré-treinaram um modelo Transformer de 6 bilhões de parâmetros, o Cross-Modal General Language Model (CogLM), e o ajustaram para alcançar uma superresolução rápida.
OS RESULTADOS EXPERIMENTAIS MOSTRARAM QUE A RELAÇÃO COM DALL· O E2 também tem a vantagem de gerar resultados com o CogView2 e também pode suportar a edição interativa guiada por texto de imagens.
Em novembro do mesmo ano, a equipe construiu um modelo de geração de texto para vídeo, CogVideo, baseado no modelo CogView2.
A arquitetura do modelo é dividida em dois módulos: a primeira parte é baseada no CogView2 e gera vários quadros de imagens a partir do texto. A segunda parte é interpolar a imagem com base no modelo de atenção bidirecional para gerar um vídeo completo com uma taxa de quadros mais alta.
Atualmente, todos os modelos acima são de código aberto. As equipas de Tsinghua são tão diretas e sinceras?
Código: Codex vs. CodeGeeX
No campo da geração de código, a OpenAI lançou um Codex novo e atualizado já em agosto de 2021, e é proficiente em mais de 10 linguagens de programação, incluindo Python, Java, Go, Perl, PHP, Ruby, Swift, Type e até mesmo Shell.
Endereço:
Os usuários podem simplesmente dar um prompt simples e fazer com que o Codex escreva código automaticamente em linguagem natural.
Codex é treinado em GPT-3, e os dados contêm bilhões de linhas de código-fonte. Além disso, o Codex pode suportar informações contextuais que são mais de 3 vezes mais longas do que o GPT-3.
Pioneiro na China, o Zhipu open-source CodeGeeX, um modelo pré-treinado para geração de código, tradução e interpretação de linguagens de programação múltipla com 13 bilhões de parâmetros, em setembro de 2022, foi posteriormente aceito pelo KDD 2023 (Long Beach).
Endereço:
Em julho de 2023, Zhipu lançou um CodeGeeX2-6B mais forte, rápido e leve, que pode suportar mais de 100 idiomas, e o peso está completamente aberto à pesquisa acadêmica.
Endereço do projeto:
O CodeGeeX2 é baseado na nova arquitetura ChatGLM2 e é otimizado para uma variedade de tarefas relacionadas à programação, como autopreenchimento de código, geração de código, tradução de código, conclusão de código entre arquivos e muito mais.
Graças à atualização do ChatGLM2, CodeGeeX2 pode não só suportar melhor a entrada chinesa e inglesa, bem como um comprimento máximo de sequência de 8192, mas também melhorar muito vários indicadores de desempenho - Python +57%, C++ +71%, Java +54%, Java +83%, Go +56%, Rust +321%.
Na revisão humana, o CodeGeeX2 superou de forma abrangente o modelo StarCoder de 15 bilhões de parâmetros, bem como o modelo Code-Cushman-001 da OpenAI (o modelo usado pelo GitHub Copilot).
Além disso, a velocidade de inferência do CodeGeeX2 também é mais rápida do que a do CodeGeeX-13B de primeira geração, que só precisa de 6 GB de memória de vídeo para ser executado após a quantização, e suporta implantação localizada leve.
Atualmente, o plug-in CodeGeeX pode ser baixado e experimentado em IDEs convencionais, como VS Code, IntelliJ IDEA, PyCharm, GoLand, WebStorm e Android Studio.
Modelo doméstico grande é totalmente auto-desenvolvido
Na conferência, Zhang Peng, CEO da Zhipu AI, lançou sua própria opinião no início - o primeiro ano do modelo grande não foi no ano em que o ChatGPT desencadeou o boom do LLM, mas em 2020, quando o GPT-3 nasceu.
Naquela época, a Zhipu AI, que tinha acabado de ser estabelecida por um ano, começou a usar o poder de toda a empresa para TODOS em grandes modelos.
Como uma das primeiras empresas a entrar na pesquisa de modelos em larga escala, a Zhipu AI acumulou capacidades suficientes de serviços empresariais; Como uma das "primeiras empresas a comer caranguejos" em código aberto, o ChatGLM-6B liderou a lista de tendências do Hugging face dentro de quatro semanas após seu lançamento, e ganhou 5w + estrelas no GitHub.
O lançamento do ChatGLM3 torna a linha de produtos de modelo completo que a Zhipu AI construiu mais poderosa.
Em 2023, quando a guerra está em curso na indústria de grandes modelos, a Zhipu AI mais uma vez está no centro das atenções e ocupa a vantagem de ser pioneira com o recém-atualizado ChatGLM3.
Recursos:
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Tsinghua Departamento ChatGLM3 demonstração de rosto ao vivo! Multimodalidade está próxima do GPT-4V, e o intérprete de código doméstico está chegando
Fonte original: New Zhiyuan
O modelo de pedestal de terceira geração auto-desenvolvido ChatGLM3 é lançado hoje!
Esta é mais uma otimização do modelo base ChatGLM pela equipe de IA Zhipu desde o lançamento do modelo de segunda geração em junho.
Além disso, na China Computer Conference (CNCC) de 2023 em 27 de outubro, Zhipu AI também abriu o ChatGLM3-6B (32k), o multimodal CogVLM-17B e o agente AgentLM.
Após o lançamento da série de modelos ChatGLM3, a Zhipu tornou-se a única empresa na China que comparou a linha completa de modelos da OpenAI.
O modelo é totalmente autodesenvolvido, adaptando-se aos chips nacionais, com desempenho mais forte e um ecossistema mais open source.
Como a primeira empresa a entrar na pesquisa de modelos em larga escala, a Zhipu AI é a primeira a submeter o artigo!
Além disso, Zhipu AI completou um total de mais de 2,5 bilhões de yuans em financiamento este ano, Meituan, Ant, Alibaba, Tencent... A luxuosa lista de investidores mostra a forte confiança da indústria na Zhipu AI.
Visando a atualização técnica do GPT-4V
Atualmente, o modelo de visão multimodal GPT-4V tem mostrado fortes capacidades de reconhecimento de imagem.
Ao mesmo tempo, visando o GPT-4V, o Zhipu AI também atualizou iterativamente outros recursos do ChatGLM3 desta vez. Entre eles, o modelo de compreensão multimodal CogVLM pode tentar entender e atualizar 10+ conjuntos de dados de avaliação gráfica e de texto padrão internacional SOTA. Atualmente, o CogVLM-17B é de código aberto.
O Interpretador de Código pode gerar e executar código de acordo com as necessidades do usuário, completando automaticamente tarefas complexas, como análise de dados e processamento de arquivos.
A pesquisa na Web melhora o WebGLM, que pode encontrar automaticamente informações relevantes na Internet de acordo com a pergunta, e fornecer links para literatura ou artigos relacionados com referência ao responder.
Além disso, as capacidades semânticas e lógicas do ChatGLM3 também foram muito melhoradas.
Versão 6B Direct Open Source
Vale a pena mencionar que, uma vez que o ChatGLM3 foi lançado, o Zhipu AI abriu diretamente o modelo de parâmetros 6B para a comunidade.
Os resultados da avaliação mostram que, em comparação com o ChatGLM 2 e em comparação com modelos nacionais do mesmo tamanho, o ChatGLM3-6B ficou em primeiro lugar em 9 dos 44 testes de conjuntos de dados públicos chineses e ingleses.
MMLU aumentou em 36%, C em 33%, GSM8K em 179% e BBH em 126%.
Sua versão de código aberto 32k, ChatGLM3-6B-32K, tem o melhor desempenho em LongBench.
Além disso, é a mais recente "inferência dinâmica eficiente + tecnologia de otimização de memória de vídeo" que torna a estrutura de inferência atual mais eficiente sob as mesmas condições de hardware e modelo.
Em comparação com a melhor implementação de código aberto atual, em comparação com o vLLM lançado pela Universidade de Berkeley e a versão mais recente do Hugging Face TGI, a velocidade de inferência é aumentada em 2-3 vezes, e o custo de inferência é reduzido em 1 vez, com apenas 0,5 pontos por mil tokens, que é o menor custo.
AgentTuning auto-desenvolvido, ativação da capacidade do agente
O que é ainda mais surpreendente é que o ChatGLM3 também traz uma nova habilidade de agente.
A Zhipu AI espera que modelos grandes possam se comunicar melhor com ferramentas externas por meio de APIs, e até mesmo realizar grandes interações de modelos por meio de agentes.
Ao integrar a tecnologia AgentTuning auto-desenvolvida, a capacidade de agente inteligente do modelo pode ser ativada, especialmente em termos de planejamento e execução inteligentes, que é 1000% maior do que a do ChatGLM 2.
No mais recente AgentBench, o ChatGLM3-turbo está próximo do GPT-3.5.
Ao mesmo tempo, o AgentLM também está aberto à comunidade de código aberto. O que a equipe de IA do Zhipu espera é fazer com que o modelo de código aberto alcance ou até exceda a capacidade do agente do modelo de código fechado.
Isso significa que o agente permitirá o suporte nativo de grandes modelos domésticos para cenários complexos, como "chamada de ferramentas, execução de código, jogos, operações de banco de dados, pesquisa e inferência de gráficos de conhecimento e sistemas operacionais".
1.5B/3B lançado ao mesmo tempo, o telefone celular pode funcionar
Quer executar o ChatGLM no seu telefone? OK!
Desta vez, o ChatGLM3 também lançou um modelo de teste de terminal que pode ser implantado em celulares, com dois parâmetros: 1.5B e 3B.
Ele pode suportar uma variedade de telefones celulares, incluindo Vivo, Xiaomi, Samsung e plataformas no veículo, e até suporta a inferência de chips de CPU em plataformas móveis, com uma velocidade de até 20 tokens / s.
Em termos de precisão, o desempenho dos modelos 1.5B e 3B é próximo ao do modelo ChatGLM2-6B na avaliação pública de benchmark, então vá em frente e experimente!
Uma nova geração de "Zhipu Qingyan" é totalmente lançada
Assim como o ChatGPT tem um poderoso modelo GPT-4 por trás, o assistente de IA generativa "Zhipu Qingyan" da equipe de IA Zhipu também é abençoado pelo ChatGLM3.
Após a demonstração de transmissão ao vivo desta equipe, a função foi lançada diretamente, e o principal é uma sinceridade!
Endereço do teste:
Intérprete de Código
Como um dos plugins mais populares para o ChatGPT, Advanced Data Analysis (anteriormente Code Interpreter) pode analisar problemas com mais pensamento matemático com base na entrada de linguagem natural, e gerar código apropriado ao mesmo tempo.
Agora, com o apoio do recém-atualizado ChatGLM3, "Zhipu Qingyan" tornou-se o primeiro produto modelo em grande escala com recursos avançados de análise de dados na China, que pode suportar processamento de imagem, computação matemática, análise de dados e outros cenários de uso.
O romance dos homens da ciência e da engenharia só pode ser entendido por "Zhipu Qingyan".
Embora o CEO Zhang Peng tenha realizado uma performance ao vivo para desenhar uma virada de "coração vermelho", mas tente novamente, e o resultado saiu em segundos.
Com a adição de recursos de modelo grande WebGLM, "Zhipu Qingyan" agora também tem a capacidade de procurar aprimorado - ele pode resumir as respostas a perguntas com base nas informações mais recentes na Internet, e anexar links de referência.
Por exemplo, o iPhone 15 inaugurou recentemente uma onda de cortes de preços, quão grande é a flutuação específica?
A resposta dada por "Zhipu Qingyan" não é ruim!
O modelo CogVLM melhora a capacidade de compreensão de imagem e texto chinês de Zhipu Qingyan, e obtém a capacidade de compreensão de imagem próxima ao GPT-4V.
Ele pode responder a vários tipos de perguntas visuais e pode concluir a deteção de objetos complexos, rotulagem e anotação automática de dados completa.
Como exemplo, deixe o CogVLM identificar quantas pessoas estão na imagem.
**GLM vs GPT: Benchmarking da linha completa de produtos da OpenAI! **
Do ChatGPT, um aplicativo de bate-papo e conversa, Code Interpreter, um plugin de geração de código, para DALL· E 3, e depois para o modelo multimodal visual GPT-4V, a OpenAI tem atualmente um conjunto completo de arquitetura de produto.
Olhando para a China, a única empresa que pode alcançar a cobertura de produtos mais abrangente é a Zhipu AI.
Não há necessidade de dizer mais sobre a introdução do popular frango frito ChatGPT.
No início deste ano, a equipe de IA do Zhipu também lançou o ChatGLM, um modelo de diálogo de 100 bilhões de níveis.
Com base nas ideias de design do ChatGPT, os desenvolvedores injetaram pré-treinamento de código no modelo base de 100 bilhões GLM-130B.
Na verdade, já em 2022, a Zhipu AI abriu o GLM-130B para a comunidade de pesquisa e indústria, e essa pesquisa também foi aceita pela ACL 2022 e ICLR 2023.
Ambos os modelos ChatGLM-6B e ChatGLM-130B foram treinados em corpora chineses e ingleses contendo tokens 1T, usando ajuste fino supervisionado (SFT), bootstrap de feedback e aprendizagem por reforço de feedback humano (RLHF).
Em 14 de março, Zhipu AI open-source ChatGLM-6B para a comunidade, e ganhou o primeiro lugar na avaliação de terceiros de linguagem natural chinesa, diálogo chinês, perguntas e respostas chinesas e tarefas de raciocínio.
Ao mesmo tempo, centenas de projetos ou aplicativos baseados no ChatGLM-6B nasceram.
A fim de promover ainda mais o desenvolvimento da grande comunidade de código aberto, a Zhipu AI lançou o ChatGLM2 em junho, e o modelo de diálogo base de 100 bilhões foi atualizado e de código aberto, incluindo tamanhos diferentes de 6B, 12B, 32B, 66B e 130B, melhorando as capacidades e enriquecendo cenários.
Vale a pena mencionar que, em apenas alguns meses, o ChatGLM-6B e o ChatGLM2-6B foram amplamente utilizados.
Atualmente, um total de 50.000+ estrelas foram coletadas no GitHub. Além disso, há 10.000.000+ downloads no Hugging Face, ocupando o primeiro lugar na tendência de quatro semanas.
Aprimoramentos de pesquisa: WebGPT vs. WebGLM
A fim de resolver o problema da "ilusão" de modelos grandes, a solução geral é combinar o conhecimento no motor de busca e deixar o modelo grande realizar "aprimoramento de recuperação".
Já em 2021, a OpenAI ajustou um modelo que pode agregar resultados de pesquisa com base no GPT-3 - WebGPT.
O WebGPT modela o comportamento de pesquisa humana, pesquisa em páginas da web para encontrar respostas relevantes e fornece fontes de citação, para que os resultados de saída possam ser rastreados.
Mais importante ainda, alcançou excelentes resultados em Perguntas e Respostas longas de domínio aberto.
Sob a orientação desta ideia, nasceu o WebGLM, o modelo de "versão em rede" do ChatGLM, que é um modelo baseado no ajuste fino de 10 bilhões de parâmetros do ChatGLM, e o foco principal é a pesquisa de rede.
Por exemplo, quando você quer saber por que o céu é azul. WebGLM imediatamente dá a resposta on-line e inclui um link para aumentar a credibilidade da resposta do modelo.
O retriever baseado em LLM é dividido em dois estágios, um é a recuperação de rede de grão grosso (pesquisa, aquisição, extração) e o outro é a recuperação de destilação de grão fino.
Em todo o processo do retriever, o tempo é consumido principalmente no processo de busca da página web, então o WebGLM usa tecnologia assíncrona paralela para melhorar a eficiência.
O gerador de bootstrap é o núcleo e é responsável por gerar respostas de alta qualidade às perguntas das páginas de referência obtidas do retriever.
Ele usa os recursos de inferência contextual de modelos grandes para gerar conjuntos de dados de controle de qualidade de alta qualidade e projeta estratégias de correção e seleção para filtrar subconjuntos de alta qualidade para treinamento.
Os resultados experimentais mostram que o WebGLM pode fornecer resultados mais precisos e concluir tarefas de perguntas e respostas de forma eficiente. Inclusive, ele pode se aproximar do WebGPT com 175 bilhões de parâmetros com um desempenho de 10 bilhões de parâmetros.
Compreensão de imagem e texto: GPT-4V vs. CogVLM
Em setembro deste ano, a OpenAI levantou oficialmente a proibição das incríveis capacidades multimodais do GPT-4.
GPT-4V, que é suportado por isso, tem uma forte capacidade de entender imagens e é capaz de processar entradas multimodais arbitrariamente misturadas.
Por exemplo, ele não pode dizer que o prato na foto é mapo tofu, e pode até dar os ingredientes para fazê-lo.
Diferente dos métodos comuns de fusão superficial, o CogVLM incorpora um módulo especialista em visão treinável no mecanismo de atenção e na camada de rede neural feedforward.
Este design consegue um alinhamento profundo entre as características de imagem e texto, compensando eficazmente as diferenças entre o modelo de linguagem pré-treinado e o codificador de imagem.
Atualmente, o CogVLM-17B é o modelo com a primeira pontuação abrangente na lista acadêmica autorizada multimodal, e alcançou resultados SOTA ou segundo lugar em 14 conjuntos de dados.
Ele alcança o melhor desempenho (SOTA) em 10 benchmarks multimodais autorizados, incluindo NoCaps, legendas Flicker30k, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz-VQA e TDIUC.
Modelos multimodais anteriores geralmente alinham recursos de imagem diretamente ao espaço de entrada de recursos de texto, e o codificador de recursos de imagem é geralmente pequeno, neste caso, a imagem pode ser considerada como um "vassalo" do texto, e o efeito é naturalmente limitado.
O CogVLM, por outro lado, prioriza a compreensão visual no modelo multimodal, usando um codificador de visão de parâmetros 5B e um módulo especialista em visão de parâmetros 6B para modelar recursos de imagem com um total de parâmetros 11B, o que é ainda mais do que a quantidade de parâmetros 7B de texto.
Em alguns testes, o CogVLM até superou o GPT-4V.
O CogVLM pode identificar com precisão essas 4 casas, enquanto o GPT-4V só pode identificar 3.
Nesta pergunta, imagens com texto são testadas.
O modelo de gráfico Wensheng mais poderoso da OpenAI é DALL· E 3 também.
A ideia geral do CogView é realizar treinamento autorregressivo emendando recursos de texto e recursos de token de imagem. Finalmente, apenas o recurso de token de texto é inserido, e o modelo pode gerar continuamente tokens de imagem.
Especificamente, o texto "O avatar de um gatinho bonito" é primeiro convertido em um token, e o modelo SentencePiece é usado aqui.
Em seguida, uma imagem de um gato é alimentada e a parte da imagem é convertida em um token através de um decodificador automático discreto.
Em seguida, os recursos de token de texto e imagem são costurados e, em seguida, inseridos no modelo GPT da arquitetura do Transformer para aprender a gerar imagens.
Comparação de DALL· E e esquemas GAN comuns, os resultados do CogView foram muito melhorados.
Em 2022, os pesquisadores atualizaram o modelo gráfico de Wensheng CogView2 novamente, e o efeito foi diretamente comparado ao DALL· E2。
Em comparação com o CogView, a arquitetura do CogView2 adota transfomer hierárquico e modo autorregressivo paralelo para geração de imagens.
No artigo, os pesquisadores pré-treinaram um modelo Transformer de 6 bilhões de parâmetros, o Cross-Modal General Language Model (CogLM), e o ajustaram para alcançar uma superresolução rápida.
Em novembro do mesmo ano, a equipe construiu um modelo de geração de texto para vídeo, CogVideo, baseado no modelo CogView2.
A arquitetura do modelo é dividida em dois módulos: a primeira parte é baseada no CogView2 e gera vários quadros de imagens a partir do texto. A segunda parte é interpolar a imagem com base no modelo de atenção bidirecional para gerar um vídeo completo com uma taxa de quadros mais alta.
Código: Codex vs. CodeGeeX
No campo da geração de código, a OpenAI lançou um Codex novo e atualizado já em agosto de 2021, e é proficiente em mais de 10 linguagens de programação, incluindo Python, Java, Go, Perl, PHP, Ruby, Swift, Type e até mesmo Shell.
Os usuários podem simplesmente dar um prompt simples e fazer com que o Codex escreva código automaticamente em linguagem natural.
Codex é treinado em GPT-3, e os dados contêm bilhões de linhas de código-fonte. Além disso, o Codex pode suportar informações contextuais que são mais de 3 vezes mais longas do que o GPT-3.
Em julho de 2023, Zhipu lançou um CodeGeeX2-6B mais forte, rápido e leve, que pode suportar mais de 100 idiomas, e o peso está completamente aberto à pesquisa acadêmica.
O CodeGeeX2 é baseado na nova arquitetura ChatGLM2 e é otimizado para uma variedade de tarefas relacionadas à programação, como autopreenchimento de código, geração de código, tradução de código, conclusão de código entre arquivos e muito mais.
Graças à atualização do ChatGLM2, CodeGeeX2 pode não só suportar melhor a entrada chinesa e inglesa, bem como um comprimento máximo de sequência de 8192, mas também melhorar muito vários indicadores de desempenho - Python +57%, C++ +71%, Java +54%, Java +83%, Go +56%, Rust +321%.
Na revisão humana, o CodeGeeX2 superou de forma abrangente o modelo StarCoder de 15 bilhões de parâmetros, bem como o modelo Code-Cushman-001 da OpenAI (o modelo usado pelo GitHub Copilot).
Além disso, a velocidade de inferência do CodeGeeX2 também é mais rápida do que a do CodeGeeX-13B de primeira geração, que só precisa de 6 GB de memória de vídeo para ser executado após a quantização, e suporta implantação localizada leve.
Atualmente, o plug-in CodeGeeX pode ser baixado e experimentado em IDEs convencionais, como VS Code, IntelliJ IDEA, PyCharm, GoLand, WebStorm e Android Studio.
Modelo doméstico grande é totalmente auto-desenvolvido
Na conferência, Zhang Peng, CEO da Zhipu AI, lançou sua própria opinião no início - o primeiro ano do modelo grande não foi no ano em que o ChatGPT desencadeou o boom do LLM, mas em 2020, quando o GPT-3 nasceu.
Naquela época, a Zhipu AI, que tinha acabado de ser estabelecida por um ano, começou a usar o poder de toda a empresa para TODOS em grandes modelos.
Como uma das primeiras empresas a entrar na pesquisa de modelos em larga escala, a Zhipu AI acumulou capacidades suficientes de serviços empresariais; Como uma das "primeiras empresas a comer caranguejos" em código aberto, o ChatGLM-6B liderou a lista de tendências do Hugging face dentro de quatro semanas após seu lançamento, e ganhou 5w + estrelas no GitHub.
Em 2023, quando a guerra está em curso na indústria de grandes modelos, a Zhipu AI mais uma vez está no centro das atenções e ocupa a vantagem de ser pioneira com o recém-atualizado ChatGLM3.
Recursos: