Le modèle de piédestal de troisième génération ChatGLM3 développé par nos soins est lancé aujourd’hui !
Il s’agit d’une autre optimisation du modèle de base ChatGLM par l’équipe de Zhipu AI depuis le lancement du modèle de deuxième génération en juin.
En outre, lors de la China Computer Conference (CNCC) 2023 le 27 octobre, Zhipu AI a également ouvert ChatGLM3-6B (32k), le multimodal CogVLM-17B et l’agent AgentLM.
Après la sortie de la série de modèles ChatGLM3, Zhipu est devenue la seule entreprise en Chine à avoir évalué la gamme complète de modèles d’OpenAI.
L’assistant d’IA générative Zhipu Qingyan est également devenu le premier produit modèle à grande échelle doté de capacités d’interaction de code en Chine.
Le modèle est entièrement auto-développé, s’adaptant aux puces domestiques, avec des performances plus élevées et un écosystème plus open source.
En tant que première entreprise à se lancer dans la recherche sur les modèles à grande échelle, Zhipu AI est la première à soumettre l’article !
De plus, Zhipu AI a réalisé un total de plus de 2,5 milliards de yuans de financement cette année, Meituan, Ant, Alibaba, Tencent... La liste luxueuse des investisseurs montre la forte confiance de l’industrie dans Zhipu AI.
Objectif de la mise à niveau technique de GPT-4V
À l’heure actuelle, le modèle de vision multimodale GPT-4V a montré de fortes capacités de reconnaissance d’images.
Dans le même temps, en visant GPT-4V, Zhipu AI a également mis à niveau de manière itérative d’autres capacités de ChatGLM3 cette fois-ci. Parmi eux, le modèle de compréhension multimodale CogVLM peut essayer de comprendre et de rafraîchir 10+ jeux de données d’évaluation graphique et textuel standard international SOTA. Actuellement, CogVLM-17B est open source.
Code Interpreter peut générer et exécuter du code en fonction des besoins de l’utilisateur, en effectuant automatiquement des tâches complexes telles que l’analyse de données et le traitement de fichiers.
La recherche sur le Web améliore WebGLM, qui peut trouver automatiquement des informations pertinentes sur Internet en fonction de la question, et fournir des liens vers des documents ou des articles connexes de référence lors de la réponse.
De plus, les capacités sémantiques et logiques de ChatGLM3 ont également été considérablement améliorées.
Version 6B Direct Open Source
Il convient de mentionner qu’une fois ChatGLM3 publié, Zhipu AI a directement ouvert le modèle de paramètre 6B à la communauté.
Les résultats de l’évaluation montrent que, par rapport à ChatGLM 2 et par rapport à des modèles nationaux de même taille, ChatGLM3-6B s’est classé premier dans 9 des 44 tests d’ensembles de données publics en chinois et en anglais.
MMLU a augmenté de 36 %, C de 33 %, GSM8K de 179 % et BBH de 126 %.
Sa version open-source 32k, ChatGLM3-6B-32K, est plus performante dans LongBench.
De plus, il s’agit de la dernière « technologie d’inférence dynamique efficace + d’optimisation de la mémoire vidéo » qui rend le cadre d’inférence actuel plus efficace dans les mêmes conditions matérielles et de modèle.
Par rapport à la meilleure implémentation open source actuelle, par rapport au vLLM lancé par l’Université de Berkeley et à la dernière version de Hugging Face TGI, la vitesse d’inférence est multipliée par 2 à 3 et le coût d’inférence est réduit de 1 fois, avec seulement 0,5 point pour mille jetons, ce qui est le coût le plus bas.
Auto-développement d’AgentTuning, activation des capacités de l’agent
Ce qui est encore plus surprenant, c’est que ChatGLM3 apporte également une nouvelle capacité d’agent.
Zhipu AI espère que les grands modèles pourront mieux communiquer avec des outils externes grâce à des API, et même réaliser une interaction avec de grands modèles via des agents.
En intégrant la technologie AgentTuning développée en interne, la capacité d’agent intelligent du modèle peut être activée, en particulier en termes de planification et d’exécution intelligentes, qui est 1000% supérieure à celle de ChatGLM 2.
Sur la dernière version d’AgentBench, ChatGLM3-turbo est proche de GPT-3.5.
Dans le même temps, AgentLM est également ouvert à la communauté open source. Ce que l’équipe de Zhipu AI espère, c’est faire en sorte que le modèle open source atteigne ou même dépasse la capacité d’agent du modèle fermé.
Cela signifie que l’agent permettra la prise en charge native de grands modèles nationaux pour des scénarios complexes tels que « l’appel d’outils, l’exécution de code, les jeux, les opérations de base de données, la recherche et l’inférence dans les graphes de connaissances et les systèmes d’exploitation ».
1.5B/3B publié en même temps, le téléphone mobile peut fonctionner
Vous voulez exécuter ChatGLM sur votre téléphone ? D’ACCORD!
Cette fois-ci, ChatGLM3 a également lancé un modèle de test de terminal qui peut être déployé sur les téléphones mobiles, avec deux paramètres : 1,5B et 3B.
Il peut prendre en charge une variété de téléphones mobiles, y compris Vivo, Xiaomi, Samsung et les plates-formes embarquées, et prend même en charge l’inférence des puces CPU sur les plates-formes mobiles, avec une vitesse allant jusqu’à 20 jetons / s.
En termes de précision, les performances des modèles 1.5B et 3B sont proches de celles du modèle ChatGLM2-6B dans l’évaluation du benchmark public, alors allez-y et essayez-le !
Une nouvelle génération de « Zhipu Qingyan » est entièrement lancée
Tout comme ChatGPT a un puissant modèle GPT-4 derrière lui, l’assistant d’IA générative « Zhipu Qingyan » de l’équipe d’IA de Zhipu est également béni par ChatGLM3.
Après la démonstration en direct de cette équipe, la fonction a été directement lancée, et l’essentiel est la sincérité !
Adresse de test :
Interpréteur de code
En tant que l’un des plugins les plus populaires pour ChatGPT, Advanced Data Analysis (anciennement Code Interpreter) peut analyser des problèmes avec une pensée plus mathématique basée sur l’entrée en langage naturel, et générer du code approprié en même temps.
Aujourd’hui, avec le soutien de ChatGLM3 récemment mis à niveau, « Zhipu Qingyan » est devenu le premier produit de modèle à grande échelle doté de capacités d’analyse de données avancées en Chine, qui peut prendre en charge le traitement d’images, le calcul mathématique, l’analyse de données et d’autres scénarios d’utilisation.
Le romantisme des hommes de science et d’ingénierie ne peut être compris que par « Zhipu Qingyan ».
Bien que le PDG Zhang Peng ait effectué une performance en direct pour attirer un renversement de « cœur rouge », mais essayez à nouveau, et le résultat est sorti en quelques secondes.
De même, la mise à niveau de ChatGLM3 est également très bonne pour l’analyse des données.
Après quelques analyses, un histogramme de la distribution des longueurs peut être dessiné en fonction de la longueur du champ.
### Améliorations de la recherche
Avec l’ajout des capacités de WebGLM pour les grands modèles, « Zhipu Qingyan » a désormais également la possibilité de rechercher des améliorations - il peut résumer les réponses aux questions basées sur les dernières informations sur Internet, et joindre des liens de référence.
Par exemple, l’iPhone 15 a récemment inauguré une vague de baisses de prix, quelle est l’ampleur de la fluctuation spécifique ?
La réponse donnée par « Zhipu Qingyan » n’est pas mauvaise !
### Compréhension graphique
Le modèle CogVLM améliore la capacité de compréhension d’images et de textes chinois de Zhipu Qingyan, et obtient une capacité de compréhension d’image proche de GPT-4V.
Il peut répondre à différents types de questions visuelles et peut effectuer la détection d’objets complexes, l’étiquetage et l’annotation automatique des données.
À titre d’exemple, laissez CogVLM identifier le nombre de personnes présentes sur l’image.
Ajoutez un peu de difficulté, puis donnez une image de trois oranges ensemble, et vous pouvez également identifier avec précision la quantité.
Neymar, Messi, Ronaldo, CogVLM est également sans ambiguïté.
Pour les problèmes de mathématiques visuelles où 2 pommes et 1 pomme sont ajoutées, CogVLM peut également le faire correctement.
**GLM vs GPT : Benchmarking de la gamme complète de produits d’OpenAI ! **
De ChatGPT, une application de chat et de conversation, Code Interpreter, un plugin de génération de code, à DALL· E 3, puis au modèle visuel multimodal GPT-4V, OpenAI dispose actuellement d’un ensemble complet d’architecture de produit.
Si l’on regarde la Chine, la seule entreprise qui peut atteindre la couverture de produits la plus complète est Zhipu AI.
### Conversation : ChatGPT vs. ChatGLM
Il n’est pas nécessaire d’en dire plus sur l’introduction du populaire poulet frit ChatGPT.
Au début de cette année, l’équipe de Zhipu AI a également publié ChatGLM, un modèle de dialogue de 100 milliards de niveaux.
S’appuyant sur les idées de conception de ChatGPT, les développeurs ont injecté un pré-entraînement de code dans le modèle de base GLM-130B, qui compte 100 milliards de pixels.
En fait, dès 2022, Zhipu AI a ouvert le GLM-130B à la communauté des chercheurs et à l’industrie, et cette recherche a également été acceptée par l’ACL 2022 et l’ICLR 2023.
Les modèles ChatGLM-6B et ChatGLM-130B ont été entraînés sur des corpus chinois et anglais contenant des jetons 1T, à l’aide d’un réglage fin supervisé (SFT), d’un bootstrap de rétroaction et d’un apprentissage par renforcement de la rétroaction humaine (RLHF).
Le modèle ChatGLM est capable de générer des réponses conformes aux préférences humaines. Combiné à la technologie de quantification, les utilisateurs peuvent déployer localement sur des cartes graphiques grand public (seulement 6 Go de mémoire vidéo sont nécessaires au niveau de quantification INT4) et exécuter leur propre ChatGLM sur des ordinateurs portables basés sur le modèle GLM.
Le 14 mars, Zhipu AI a ouvert ChatGLM-6B à la communauté et a remporté la première place dans l’évaluation tierce du langage naturel chinois, des dialogues chinois, des questions-réponses en chinois et des tâches de raisonnement.
Dans le même temps, des centaines de projets ou d’applications basés sur ChatGLM-6B ont vu le jour.
Afin de promouvoir davantage le développement de la communauté open source des grands modèles, Zhipu AI a publié ChatGLM2 en juin, et le modèle de dialogue de base de 100 milliards a été mis à niveau et open source, y compris 6B, 12B, 32B, 66B et 130B tailles différentes, améliorant les capacités et enrichissant les scénarios.
ChatGLM 2 se classe au premier rang de la liste chinoise, au 25 juin 2023, ChatGLM2 se classe dans le rang 0 de la liste C et ChatGLM2-6B se classe dans le rang 6. Par rapport au modèle de première génération, ChatGLM 2 a réalisé des améliorations de 16 %, 36 % et 280 % dans MMLU, C- et GSM8K, respectivement.
Il convient de mentionner qu’en quelques mois seulement, ChatGLM-6B et ChatGLM2-6B ont été largement utilisés.
À l’heure actuelle, un total de 50 000+ étoiles ont été collectées sur GitHub. De plus, il y a 10 000 000+ téléchargements sur Hugging Face, se classant au premier rang de la tendance de quatre semaines.
ChatGLM-6B :
ChatGLM2-6B :
Améliorations de la recherche : WebGPT vs. WebGLM
Afin de résoudre le problème de « l’illusion » des grands modèles, la solution générale consiste à combiner les connaissances dans le moteur de recherche et à laisser le grand modèle effectuer « l’amélioration de la récupération ».
Dès 2021, OpenAI a affiné un modèle capable d’agréger les résultats de recherche basés sur GPT-3 - WebGPT.
WebGPT modélise le comportement de recherche humain, effectue des recherches dans les pages Web pour trouver des réponses pertinentes et donne des sources de citation, afin que les résultats de sortie puissent être tracés.
Plus important encore, il a obtenu d’excellents résultats dans les longues questions-réponses en domaine ouvert.
C’est sous la direction de cette idée qu’est né WebGLM, le modèle de « version en réseau » de ChatGLM, qui est un modèle basé sur le réglage fin de 10 milliards de paramètres de ChatGLM, et l’objectif principal est la recherche réseau.
Adresse:
Par exemple, lorsque vous voulez savoir pourquoi le ciel est bleu. WebGLM donne immédiatement la réponse en ligne et inclut un lien pour améliorer la crédibilité de la réponse du modèle.
D’un point de vue architectural, le système d’amélioration de la recherche WebGLM implique trois composants importants : un retriever, un générateur et un scoreur.
Le retriever basé sur le LLM est divisé en deux étapes, l’une est la récupération en réseau à gros grains (recherche, acquisition, extraction) et l’autre est la récupération par distillation à grain fin.
Dans l’ensemble du processus du retriever, le temps est principalement consommé dans le processus de récupération de la page Web, de sorte que WebGLM utilise une technologie asynchrone parallèle pour améliorer l’efficacité.
Le générateur d’amorçage est le noyau et est chargé de générer des réponses de haute qualité aux questions à partir des pages de référence obtenues auprès du retriever.
Il utilise les capacités d’inférence contextuelle de grands modèles pour générer des ensembles de données d’assurance qualité de haute qualité, et conçoit des stratégies de correction et de sélection pour filtrer les sous-ensembles de haute qualité pour l’entraînement.
L’évaluateur final est utilisé pour noter les réponses générées par WebGLM par le biais de RLHF afin de s’aligner sur les préférences humaines.
Les résultats expérimentaux montrent que WebGLM peut fournir des résultats plus précis et effectuer efficacement les tâches de questions-réponses. Même, il peut approcher WebGPT avec 175 milliards de paramètres avec une performance de 10 milliards de paramètres.
À l’heure actuelle, cette recherche a été acceptée par KDD 2023, et l’équipe d’IA de Zhipu a également ouvert les capacités et les ensembles de données.
Adresse du projet :
Compréhension de l’image et du texte : GPT-4V vs. CogVLM
En septembre de cette année, OpenAI a officiellement levé l’interdiction des incroyables capacités multimodales de GPT-4.
GPT-4V, qui est soutenu par cela, a une forte capacité à comprendre les images et est capable de traiter des entrées multimodales arbitrairement mélangées.
Par exemple, il ne peut pas dire que le plat sur la photo est du tofu mapo, et il peut même donner les ingrédients pour le préparer.
En octobre, Zhipu a ouvert un nouveau modèle de base de langage visuel, CogVLM, qui peut réaliser l’intégration profonde des fonctionnalités du langage visuel sans sacrifier les performances des tâches de NLP.
Différente des méthodes de fusion superficielle courantes, CogVLM intègre un module expert en vision pouvant être entraîné dans le mécanisme d’attention et la couche de réseau neuronal feedforward.
Cette conception permet d’obtenir un alignement profond entre les caractéristiques de l’image et du texte, compensant efficacement les différences entre le modèle de langage pré-entraîné et l’encodeur d’image.
À l’heure actuelle, CogVLM-17B est le modèle ayant obtenu le premier score complet sur la liste académique multimodale faisant autorité, et a obtenu des résultats SOTA ou de deuxième place sur 14 ensembles de données.
Il atteint les meilleures performances (SOTA) sur 10 benchmarks intermodaux faisant autorité, notamment NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz-VQA et TDIUC.
L’idée de base de CogVLM est « le visuel d’abord ».
Les modèles multimodaux précédents alignent généralement les caractéristiques de l’image directement sur l’espace d’entrée des caractéristiques textuelles, et l’encodeur des caractéristiques de l’image est généralement petit, dans ce cas, l’image peut être considérée comme un « vassal » du texte, et l’effet est naturellement limité.
CogVLM, quant à lui, donne la priorité à la compréhension visuelle dans le modèle multimodal, en utilisant un encodeur de vision à 5 paramètres B et un module expert de vision à 6 paramètres B pour modéliser les caractéristiques de l’image avec un total de 11 milliards de paramètres, ce qui est encore plus que la quantité de texte à 7 milliards de paramètres.
Dans certains tests, CogVLM a même surpassé GPT-4V.
Il y a 4 maisons sur la photo, 3 sont entièrement visibles et 1 ne peut être vue que si vous zoomez.
CogVLM peut identifier avec précision ces 4 maisons, tandis que GPT-4V ne peut en identifier que 3.
Dans cette question, les images avec du texte sont testées.
CogVLM décrit fidèlement la scène et le texte correspondant.
### Diagramme de Wensheng : DALL· E vs. Vue d’engrenage
Le modèle de graphe Wensheng le plus puissant d’OpenAI est DALL· E 3 aussi.
En revanche, l’équipe de Zhipu AI a lancé CogView, un modèle universel pré-entraîné de texte en image basé sur Transformer.
Adresse:
L’idée générale de CogView est d’effectuer un entraînement autorégressif en épissant des entités de texte et des fonctionnalités de jeton d’image. Enfin, seule la fonctionnalité de jeton de texte est saisie et le modèle peut générer des jetons d’image en continu.
Plus précisément, le texte « L’avatar d’un chaton mignon » est d’abord converti en jeton, et le modèle SentencePiece est utilisé ici.
Ensuite, l’image d’un chat est introduite et la partie image est convertie en jeton par un décodeur automatique discret.
Ensuite, les fonctionnalités de jeton de texte et d’image sont assemblées, puis saisies dans le modèle GPT de l’architecture Transformer pour apprendre à générer des images.
Enfin, une fois l’apprentissage terminé, le modèle trie les résultats générés en calculant un score de légende pour sélectionner les résultats les plus correspondants lors de la tâche de génération de texte en image.
Comparatif de DALL· E et les schémas GAN communs, les résultats de CogView ont été grandement améliorés.
En 2022, les chercheurs ont de nouveau mis à jour le modèle de graphe de Wensheng CogView2, et l’effet a été directement comparé à DALL· E2。
Adresse:
Par rapport à CogView, l’architecture de CogView2 adopte un mode de transférance hiérarchique et un mode autorégressif parallèle pour la génération d’images.
Dans l’article, les chercheurs ont pré-entraîné un modèle de transformateur de 6 milliards de paramètres, le modèle de langage général intermodal (CogLM), et l’ont affiné pour obtenir une super-résolution rapide.
LES RÉSULTATS EXPÉRIMENTAUX ONT MONTRÉ QUE LA RELATION AVEC DALL· E2 a également l’avantage de générer des résultats avec CogView2 et peut également prendre en charge l’édition interactive d’images guidée par texte.
En novembre de la même année, l’équipe a créé un modèle de génération de texte en vidéo, CogVideo, basé sur le modèle CogView2.
L’architecture du modèle est divisée en deux modules : la première partie est basée sur CogView2 et génère plusieurs cadres d’images à partir de texte. La deuxième partie consiste à interpoler l’image sur la base du modèle d’attention bidirectionnelle pour générer une vidéo complète avec une fréquence d’images plus élevée.
À l’heure actuelle, tous les modèles ci-dessus sont open source. Les équipes de Tsinghua sont-elles si directes et sincères ?
Code : Codex vs. CodeGeeX
Dans le domaine de la génération de code, OpenAI a publié un nouveau Codex mis à jour dès août 2021, et maîtrise plus de 10 langages de programmation, dont Python, Java, Go, Perl, PHP, Ruby, Swift, Type et même Shell.
Adresse:
Les utilisateurs peuvent simplement donner une simple invite et demander à Codex d’écrire automatiquement du code en langage naturel.
Codex est entraîné sur GPT-3, et les données contiennent des milliards de lignes de code source. De plus, Codex peut prendre en charge des informations contextuelles plus de 3 fois plus longues que GPT-3.
En tant que pionnier en Chine, Zhipu a ouvert CodeGeeX, un modèle pré-entraîné pour la génération de code, la traduction et l’interprétation de langages multi-programmateurs avec 13 milliards de paramètres, en septembre 2022, et a ensuite été accepté par KDD 2023 (Long Beach).
Adresse:
En juillet 2023, Zhipu a publié un CodeGeeX2-6B plus solide, plus rapide et plus léger, qui peut prendre en charge plus de 100 langues, et le poids est complètement ouvert à la recherche universitaire.
Adresse du projet :
CodeGeeX2 est basé sur la nouvelle architecture ChatGLM2 et est optimisé pour une variété de tâches liées à la programmation, telles que l’auto-complétion de code, la génération de code, la traduction de code, la complétion de code entre fichiers, etc.
Grâce à la mise à niveau de ChatGLM2, CodeGeeX2 peut non seulement mieux prendre en charge les entrées en chinois et en anglais, ainsi qu’une longueur de séquence maximale de 8192, mais aussi améliorer considérablement divers indicateurs de performance - Python +57%, C++ +71%, Java +54%, Java +83%, Go +56%, Rust +321%.
Dans l’examen humain, CodeGeeX2 a largement dépassé le modèle StarCoder de 15 milliards de paramètres, ainsi que le modèle Code-Cushman-001 d’OpenAI (le modèle utilisé par GitHub Copilot).
En outre, la vitesse d’inférence de CodeGeeX2 est également plus rapide que celle du CodeGeeX-13B de première génération, qui n’a besoin que de 6 Go de mémoire vidéo pour s’exécuter après la quantification, et prend en charge le déploiement localisé léger.
À l’heure actuelle, le plug-in CodeGeeX peut être téléchargé et expérimenté dans les IDE grand public tels que VS Code, IntelliJ IDEA, PyCharm, GoLand, WebStorm et Android Studio.
** Le grand modèle domestique est entièrement développé par l’utilisateur **
Lors de la conférence, Zhang Peng, PDG de Zhipu AI, a exprimé sa propre opinion au début - la première année du grand modèle n’était pas l’année où ChatGPT a déclenché le boom du LLM, mais en 2020, lorsque GPT-3 est né.
À cette époque, Zhipu AI, qui venait d’être créée pour un an, a commencé à utiliser la puissance de l’ensemble de l’entreprise pour TOUT dans les grands modèles.
En tant que l’une des premières entreprises à se lancer dans la recherche de modèles à grande échelle, Zhipu AI a accumulé suffisamment de capacités de service d’entreprise ; En tant que l’une des « premières entreprises à manger des crabes » sur l’open source, ChatGLM-6B a dominé la liste des tendances du visage Hugging dans les quatre semaines suivant son lancement, et a remporté 5w+ étoiles sur GitHub.
La sortie de ChatGLM3 rend la gamme de produits complète que Zhipu AI a construite plus puissante.
En 2023, alors que la guerre fait rage dans l’industrie du grand modélisme, Zhipu AI est à nouveau sous les feux de la rampe et occupe l’avantage du premier arrivé avec le ChatGLM3 récemment mis à jour.
Ressources:
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Démonstration en direct du département de Tsinghua ChatGLM3 ! La multimodalité est proche de GPT-4V, et l’interpréteur de code domestique arrive
Source d’origine : New Zhiyuan
Le modèle de piédestal de troisième génération ChatGLM3 développé par nos soins est lancé aujourd’hui !
Il s’agit d’une autre optimisation du modèle de base ChatGLM par l’équipe de Zhipu AI depuis le lancement du modèle de deuxième génération en juin.
En outre, lors de la China Computer Conference (CNCC) 2023 le 27 octobre, Zhipu AI a également ouvert ChatGLM3-6B (32k), le multimodal CogVLM-17B et l’agent AgentLM.
Après la sortie de la série de modèles ChatGLM3, Zhipu est devenue la seule entreprise en Chine à avoir évalué la gamme complète de modèles d’OpenAI.
Le modèle est entièrement auto-développé, s’adaptant aux puces domestiques, avec des performances plus élevées et un écosystème plus open source.
En tant que première entreprise à se lancer dans la recherche sur les modèles à grande échelle, Zhipu AI est la première à soumettre l’article !
De plus, Zhipu AI a réalisé un total de plus de 2,5 milliards de yuans de financement cette année, Meituan, Ant, Alibaba, Tencent... La liste luxueuse des investisseurs montre la forte confiance de l’industrie dans Zhipu AI.
Objectif de la mise à niveau technique de GPT-4V
À l’heure actuelle, le modèle de vision multimodale GPT-4V a montré de fortes capacités de reconnaissance d’images.
Dans le même temps, en visant GPT-4V, Zhipu AI a également mis à niveau de manière itérative d’autres capacités de ChatGLM3 cette fois-ci. Parmi eux, le modèle de compréhension multimodale CogVLM peut essayer de comprendre et de rafraîchir 10+ jeux de données d’évaluation graphique et textuel standard international SOTA. Actuellement, CogVLM-17B est open source.
Code Interpreter peut générer et exécuter du code en fonction des besoins de l’utilisateur, en effectuant automatiquement des tâches complexes telles que l’analyse de données et le traitement de fichiers.
La recherche sur le Web améliore WebGLM, qui peut trouver automatiquement des informations pertinentes sur Internet en fonction de la question, et fournir des liens vers des documents ou des articles connexes de référence lors de la réponse.
De plus, les capacités sémantiques et logiques de ChatGLM3 ont également été considérablement améliorées.
Version 6B Direct Open Source
Il convient de mentionner qu’une fois ChatGLM3 publié, Zhipu AI a directement ouvert le modèle de paramètre 6B à la communauté.
Les résultats de l’évaluation montrent que, par rapport à ChatGLM 2 et par rapport à des modèles nationaux de même taille, ChatGLM3-6B s’est classé premier dans 9 des 44 tests d’ensembles de données publics en chinois et en anglais.
MMLU a augmenté de 36 %, C de 33 %, GSM8K de 179 % et BBH de 126 %.
Sa version open-source 32k, ChatGLM3-6B-32K, est plus performante dans LongBench.
De plus, il s’agit de la dernière « technologie d’inférence dynamique efficace + d’optimisation de la mémoire vidéo » qui rend le cadre d’inférence actuel plus efficace dans les mêmes conditions matérielles et de modèle.
Par rapport à la meilleure implémentation open source actuelle, par rapport au vLLM lancé par l’Université de Berkeley et à la dernière version de Hugging Face TGI, la vitesse d’inférence est multipliée par 2 à 3 et le coût d’inférence est réduit de 1 fois, avec seulement 0,5 point pour mille jetons, ce qui est le coût le plus bas.
Auto-développement d’AgentTuning, activation des capacités de l’agent
Ce qui est encore plus surprenant, c’est que ChatGLM3 apporte également une nouvelle capacité d’agent.
Zhipu AI espère que les grands modèles pourront mieux communiquer avec des outils externes grâce à des API, et même réaliser une interaction avec de grands modèles via des agents.
En intégrant la technologie AgentTuning développée en interne, la capacité d’agent intelligent du modèle peut être activée, en particulier en termes de planification et d’exécution intelligentes, qui est 1000% supérieure à celle de ChatGLM 2.
Sur la dernière version d’AgentBench, ChatGLM3-turbo est proche de GPT-3.5.
Dans le même temps, AgentLM est également ouvert à la communauté open source. Ce que l’équipe de Zhipu AI espère, c’est faire en sorte que le modèle open source atteigne ou même dépasse la capacité d’agent du modèle fermé.
Cela signifie que l’agent permettra la prise en charge native de grands modèles nationaux pour des scénarios complexes tels que « l’appel d’outils, l’exécution de code, les jeux, les opérations de base de données, la recherche et l’inférence dans les graphes de connaissances et les systèmes d’exploitation ».
1.5B/3B publié en même temps, le téléphone mobile peut fonctionner
Vous voulez exécuter ChatGLM sur votre téléphone ? D’ACCORD!
Cette fois-ci, ChatGLM3 a également lancé un modèle de test de terminal qui peut être déployé sur les téléphones mobiles, avec deux paramètres : 1,5B et 3B.
Il peut prendre en charge une variété de téléphones mobiles, y compris Vivo, Xiaomi, Samsung et les plates-formes embarquées, et prend même en charge l’inférence des puces CPU sur les plates-formes mobiles, avec une vitesse allant jusqu’à 20 jetons / s.
En termes de précision, les performances des modèles 1.5B et 3B sont proches de celles du modèle ChatGLM2-6B dans l’évaluation du benchmark public, alors allez-y et essayez-le !
Une nouvelle génération de « Zhipu Qingyan » est entièrement lancée
Tout comme ChatGPT a un puissant modèle GPT-4 derrière lui, l’assistant d’IA générative « Zhipu Qingyan » de l’équipe d’IA de Zhipu est également béni par ChatGLM3.
Après la démonstration en direct de cette équipe, la fonction a été directement lancée, et l’essentiel est la sincérité !
Adresse de test :
Interpréteur de code
En tant que l’un des plugins les plus populaires pour ChatGPT, Advanced Data Analysis (anciennement Code Interpreter) peut analyser des problèmes avec une pensée plus mathématique basée sur l’entrée en langage naturel, et générer du code approprié en même temps.
Aujourd’hui, avec le soutien de ChatGLM3 récemment mis à niveau, « Zhipu Qingyan » est devenu le premier produit de modèle à grande échelle doté de capacités d’analyse de données avancées en Chine, qui peut prendre en charge le traitement d’images, le calcul mathématique, l’analyse de données et d’autres scénarios d’utilisation.
Le romantisme des hommes de science et d’ingénierie ne peut être compris que par « Zhipu Qingyan ».
Bien que le PDG Zhang Peng ait effectué une performance en direct pour attirer un renversement de « cœur rouge », mais essayez à nouveau, et le résultat est sorti en quelques secondes.
Avec l’ajout des capacités de WebGLM pour les grands modèles, « Zhipu Qingyan » a désormais également la possibilité de rechercher des améliorations - il peut résumer les réponses aux questions basées sur les dernières informations sur Internet, et joindre des liens de référence.
Par exemple, l’iPhone 15 a récemment inauguré une vague de baisses de prix, quelle est l’ampleur de la fluctuation spécifique ?
La réponse donnée par « Zhipu Qingyan » n’est pas mauvaise !
Le modèle CogVLM améliore la capacité de compréhension d’images et de textes chinois de Zhipu Qingyan, et obtient une capacité de compréhension d’image proche de GPT-4V.
Il peut répondre à différents types de questions visuelles et peut effectuer la détection d’objets complexes, l’étiquetage et l’annotation automatique des données.
À titre d’exemple, laissez CogVLM identifier le nombre de personnes présentes sur l’image.
**GLM vs GPT : Benchmarking de la gamme complète de produits d’OpenAI ! **
De ChatGPT, une application de chat et de conversation, Code Interpreter, un plugin de génération de code, à DALL· E 3, puis au modèle visuel multimodal GPT-4V, OpenAI dispose actuellement d’un ensemble complet d’architecture de produit.
Si l’on regarde la Chine, la seule entreprise qui peut atteindre la couverture de produits la plus complète est Zhipu AI.
Il n’est pas nécessaire d’en dire plus sur l’introduction du populaire poulet frit ChatGPT.
Au début de cette année, l’équipe de Zhipu AI a également publié ChatGLM, un modèle de dialogue de 100 milliards de niveaux.
S’appuyant sur les idées de conception de ChatGPT, les développeurs ont injecté un pré-entraînement de code dans le modèle de base GLM-130B, qui compte 100 milliards de pixels.
En fait, dès 2022, Zhipu AI a ouvert le GLM-130B à la communauté des chercheurs et à l’industrie, et cette recherche a également été acceptée par l’ACL 2022 et l’ICLR 2023.
Les modèles ChatGLM-6B et ChatGLM-130B ont été entraînés sur des corpus chinois et anglais contenant des jetons 1T, à l’aide d’un réglage fin supervisé (SFT), d’un bootstrap de rétroaction et d’un apprentissage par renforcement de la rétroaction humaine (RLHF).
Le 14 mars, Zhipu AI a ouvert ChatGLM-6B à la communauté et a remporté la première place dans l’évaluation tierce du langage naturel chinois, des dialogues chinois, des questions-réponses en chinois et des tâches de raisonnement.
Dans le même temps, des centaines de projets ou d’applications basés sur ChatGLM-6B ont vu le jour.
Afin de promouvoir davantage le développement de la communauté open source des grands modèles, Zhipu AI a publié ChatGLM2 en juin, et le modèle de dialogue de base de 100 milliards a été mis à niveau et open source, y compris 6B, 12B, 32B, 66B et 130B tailles différentes, améliorant les capacités et enrichissant les scénarios.
Il convient de mentionner qu’en quelques mois seulement, ChatGLM-6B et ChatGLM2-6B ont été largement utilisés.
À l’heure actuelle, un total de 50 000+ étoiles ont été collectées sur GitHub. De plus, il y a 10 000 000+ téléchargements sur Hugging Face, se classant au premier rang de la tendance de quatre semaines.
Améliorations de la recherche : WebGPT vs. WebGLM
Afin de résoudre le problème de « l’illusion » des grands modèles, la solution générale consiste à combiner les connaissances dans le moteur de recherche et à laisser le grand modèle effectuer « l’amélioration de la récupération ».
Dès 2021, OpenAI a affiné un modèle capable d’agréger les résultats de recherche basés sur GPT-3 - WebGPT.
WebGPT modélise le comportement de recherche humain, effectue des recherches dans les pages Web pour trouver des réponses pertinentes et donne des sources de citation, afin que les résultats de sortie puissent être tracés.
Plus important encore, il a obtenu d’excellents résultats dans les longues questions-réponses en domaine ouvert.
C’est sous la direction de cette idée qu’est né WebGLM, le modèle de « version en réseau » de ChatGLM, qui est un modèle basé sur le réglage fin de 10 milliards de paramètres de ChatGLM, et l’objectif principal est la recherche réseau.
Par exemple, lorsque vous voulez savoir pourquoi le ciel est bleu. WebGLM donne immédiatement la réponse en ligne et inclut un lien pour améliorer la crédibilité de la réponse du modèle.
Le retriever basé sur le LLM est divisé en deux étapes, l’une est la récupération en réseau à gros grains (recherche, acquisition, extraction) et l’autre est la récupération par distillation à grain fin.
Dans l’ensemble du processus du retriever, le temps est principalement consommé dans le processus de récupération de la page Web, de sorte que WebGLM utilise une technologie asynchrone parallèle pour améliorer l’efficacité.
Le générateur d’amorçage est le noyau et est chargé de générer des réponses de haute qualité aux questions à partir des pages de référence obtenues auprès du retriever.
Il utilise les capacités d’inférence contextuelle de grands modèles pour générer des ensembles de données d’assurance qualité de haute qualité, et conçoit des stratégies de correction et de sélection pour filtrer les sous-ensembles de haute qualité pour l’entraînement.
Les résultats expérimentaux montrent que WebGLM peut fournir des résultats plus précis et effectuer efficacement les tâches de questions-réponses. Même, il peut approcher WebGPT avec 175 milliards de paramètres avec une performance de 10 milliards de paramètres.
Compréhension de l’image et du texte : GPT-4V vs. CogVLM
En septembre de cette année, OpenAI a officiellement levé l’interdiction des incroyables capacités multimodales de GPT-4.
GPT-4V, qui est soutenu par cela, a une forte capacité à comprendre les images et est capable de traiter des entrées multimodales arbitrairement mélangées.
Par exemple, il ne peut pas dire que le plat sur la photo est du tofu mapo, et il peut même donner les ingrédients pour le préparer.
Différente des méthodes de fusion superficielle courantes, CogVLM intègre un module expert en vision pouvant être entraîné dans le mécanisme d’attention et la couche de réseau neuronal feedforward.
Cette conception permet d’obtenir un alignement profond entre les caractéristiques de l’image et du texte, compensant efficacement les différences entre le modèle de langage pré-entraîné et l’encodeur d’image.
À l’heure actuelle, CogVLM-17B est le modèle ayant obtenu le premier score complet sur la liste académique multimodale faisant autorité, et a obtenu des résultats SOTA ou de deuxième place sur 14 ensembles de données.
Il atteint les meilleures performances (SOTA) sur 10 benchmarks intermodaux faisant autorité, notamment NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz-VQA et TDIUC.
Les modèles multimodaux précédents alignent généralement les caractéristiques de l’image directement sur l’espace d’entrée des caractéristiques textuelles, et l’encodeur des caractéristiques de l’image est généralement petit, dans ce cas, l’image peut être considérée comme un « vassal » du texte, et l’effet est naturellement limité.
CogVLM, quant à lui, donne la priorité à la compréhension visuelle dans le modèle multimodal, en utilisant un encodeur de vision à 5 paramètres B et un module expert de vision à 6 paramètres B pour modéliser les caractéristiques de l’image avec un total de 11 milliards de paramètres, ce qui est encore plus que la quantité de texte à 7 milliards de paramètres.
Dans certains tests, CogVLM a même surpassé GPT-4V.
CogVLM peut identifier avec précision ces 4 maisons, tandis que GPT-4V ne peut en identifier que 3.
Dans cette question, les images avec du texte sont testées.
Le modèle de graphe Wensheng le plus puissant d’OpenAI est DALL· E 3 aussi.
L’idée générale de CogView est d’effectuer un entraînement autorégressif en épissant des entités de texte et des fonctionnalités de jeton d’image. Enfin, seule la fonctionnalité de jeton de texte est saisie et le modèle peut générer des jetons d’image en continu.
Plus précisément, le texte « L’avatar d’un chaton mignon » est d’abord converti en jeton, et le modèle SentencePiece est utilisé ici.
Ensuite, l’image d’un chat est introduite et la partie image est convertie en jeton par un décodeur automatique discret.
Ensuite, les fonctionnalités de jeton de texte et d’image sont assemblées, puis saisies dans le modèle GPT de l’architecture Transformer pour apprendre à générer des images.
Comparatif de DALL· E et les schémas GAN communs, les résultats de CogView ont été grandement améliorés.
En 2022, les chercheurs ont de nouveau mis à jour le modèle de graphe de Wensheng CogView2, et l’effet a été directement comparé à DALL· E2。
Par rapport à CogView, l’architecture de CogView2 adopte un mode de transférance hiérarchique et un mode autorégressif parallèle pour la génération d’images.
Dans l’article, les chercheurs ont pré-entraîné un modèle de transformateur de 6 milliards de paramètres, le modèle de langage général intermodal (CogLM), et l’ont affiné pour obtenir une super-résolution rapide.
En novembre de la même année, l’équipe a créé un modèle de génération de texte en vidéo, CogVideo, basé sur le modèle CogView2.
L’architecture du modèle est divisée en deux modules : la première partie est basée sur CogView2 et génère plusieurs cadres d’images à partir de texte. La deuxième partie consiste à interpoler l’image sur la base du modèle d’attention bidirectionnelle pour générer une vidéo complète avec une fréquence d’images plus élevée.
Code : Codex vs. CodeGeeX
Dans le domaine de la génération de code, OpenAI a publié un nouveau Codex mis à jour dès août 2021, et maîtrise plus de 10 langages de programmation, dont Python, Java, Go, Perl, PHP, Ruby, Swift, Type et même Shell.
Les utilisateurs peuvent simplement donner une simple invite et demander à Codex d’écrire automatiquement du code en langage naturel.
Codex est entraîné sur GPT-3, et les données contiennent des milliards de lignes de code source. De plus, Codex peut prendre en charge des informations contextuelles plus de 3 fois plus longues que GPT-3.
En juillet 2023, Zhipu a publié un CodeGeeX2-6B plus solide, plus rapide et plus léger, qui peut prendre en charge plus de 100 langues, et le poids est complètement ouvert à la recherche universitaire.
CodeGeeX2 est basé sur la nouvelle architecture ChatGLM2 et est optimisé pour une variété de tâches liées à la programmation, telles que l’auto-complétion de code, la génération de code, la traduction de code, la complétion de code entre fichiers, etc.
Grâce à la mise à niveau de ChatGLM2, CodeGeeX2 peut non seulement mieux prendre en charge les entrées en chinois et en anglais, ainsi qu’une longueur de séquence maximale de 8192, mais aussi améliorer considérablement divers indicateurs de performance - Python +57%, C++ +71%, Java +54%, Java +83%, Go +56%, Rust +321%.
Dans l’examen humain, CodeGeeX2 a largement dépassé le modèle StarCoder de 15 milliards de paramètres, ainsi que le modèle Code-Cushman-001 d’OpenAI (le modèle utilisé par GitHub Copilot).
En outre, la vitesse d’inférence de CodeGeeX2 est également plus rapide que celle du CodeGeeX-13B de première génération, qui n’a besoin que de 6 Go de mémoire vidéo pour s’exécuter après la quantification, et prend en charge le déploiement localisé léger.
À l’heure actuelle, le plug-in CodeGeeX peut être téléchargé et expérimenté dans les IDE grand public tels que VS Code, IntelliJ IDEA, PyCharm, GoLand, WebStorm et Android Studio.
** Le grand modèle domestique est entièrement développé par l’utilisateur **
Lors de la conférence, Zhang Peng, PDG de Zhipu AI, a exprimé sa propre opinion au début - la première année du grand modèle n’était pas l’année où ChatGPT a déclenché le boom du LLM, mais en 2020, lorsque GPT-3 est né.
À cette époque, Zhipu AI, qui venait d’être créée pour un an, a commencé à utiliser la puissance de l’ensemble de l’entreprise pour TOUT dans les grands modèles.
En tant que l’une des premières entreprises à se lancer dans la recherche de modèles à grande échelle, Zhipu AI a accumulé suffisamment de capacités de service d’entreprise ; En tant que l’une des « premières entreprises à manger des crabes » sur l’open source, ChatGLM-6B a dominé la liste des tendances du visage Hugging dans les quatre semaines suivant son lancement, et a remporté 5w+ étoiles sur GitHub.
En 2023, alors que la guerre fait rage dans l’industrie du grand modélisme, Zhipu AI est à nouveau sous les feux de la rampe et occupe l’avantage du premier arrivé avec le ChatGLM3 récemment mis à jour.
Ressources: