Derrière le modèle le plus puissant de l'open source commercial Meta : compétition géante qui sauve des vies, Musk et Apple trouvent une autre voie

Texte : Guo Xiaojing, Tencent Technology

Source de l'image : générée par l'IA illimitée

Le 19 juillet, Meta a annoncé la sortie officielle du grand modèle de langage Llama2 sur son site officiel. Il s'agit de la dernière version du grand modèle de langage de Meta et du premier grand modèle de langage commercial open source de Meta. Dans le même temps, Microsoft Azure a également annoncé que il coopérera avec Llama2 en profondeur.

Selon les données officielles de Meta, Llama 2 a amélioré ses données d'entraînement de 40% par rapport à la génération précédente, dont 3 versions de 7 milliards, 13 milliards et 70 milliards de paramètres. Le modèle pré-formé Llama 2 a été formé sur 2 billions de jetons avec deux fois la longueur de contexte de Llama 1, et son modèle affiné a été formé sur plus d'un million d'annotations humaines.

Ses performances seraient comparables à GPT-3.5, et il est également connu comme le meilleur grand modèle open source. Une fois la nouvelle publiée, les médias et l'industrie ont même conclu que la commercialisation open source de Llama2 allait changer le paysage concurrentiel dans le domaine des grands modèles. Quelle est l'ampleur de l'impact de cet incident ? Quel genre d'impact apportera-t-il à l'industrie? Nous avons invité deux personnes du secteur à discuter. L'une d'entre elles est Zhou Songtao, directeur général adjoint du centre de R&D produit de Leo Group Digital Technology Co., Ltd.. Il a dirigé l'équipe pour évaluer presque la plupart des intégrer de grands modèles au pays et à l'étranger, l'autre C'est Mme Jiao Juan, présidente de l'Institut de recherche cosmique Anxinyuan, qui observe en profondeur l'écologie de l'industrie technologique au pays et à l'étranger depuis de nombreuses années.

Voici les principaux points de vue des deux :

① Llama2 prend en compte les paramètres du modèle, la consommation de temps, la consommation d'énergie de calcul et d'autres aspects de manière exhaustive. Comparé à GPT-3.5, il est confiant.

② L'intelligence artificielle générative apportera des changements bouleversants à l'ensemble du système open source.

③ À l'avenir, l'open source et la source fermée se balanceront définitivement, et un modèle de jeux et de compétitions mutuels se formera dans ce domaine pendant assez longtemps.

④ L'open source commercial de Llama2 ne réduira pas nécessairement le coût d'utilisation des grands modèles pour les entrepreneurs, mais il peut amener les grands fournisseurs de services de modèles à déclencher une guerre des prix, ce qui est une bonne nouvelle pour les utilisateurs et les entrepreneurs.

⑤ La concurrence des géants étrangers dans le domaine de l'IA n'est plus aussi simple que le développement de la deuxième courbe. La concurrence est féroce et décisive, et même un peu salvatrice. Les raisons sous-jacentes méritent d'être méditées.

Voici une sélection de contenu de conversation :

**Technologie Tencent : Du point de vue des praticiens ou des applicateurs de l'industrie, comment évaluer un grand modèle ? **

Zhou Songtao : MMLU est le cadre d'évaluation de modèles à grande échelle le plus largement utilisé au monde. Il prend en compte les connaissances et les capacités globales de 57 disciplines, des sciences humaines aux sciences sociales en passant par les sciences et l'ingénierie. La plupart de nos évaluations sont basées sur ce cadre. Mais notre industrie est l'industrie de la publicité, basée sur les attributs de l'industrie de la publicité, nous ajouterons quelques autres éléments d'évaluation.

Nous avons également dit lors de la réunion de direction du groupe que l'industrie de la publicité ne se concentre pas sur la créativité, mais sur le contrôle. Les résultats générés doivent être cohérents à 100 % avec l'annonceur, ses performances produit, son apparence, son logo, etc. Ce n'est qu'une fois ces réductions réalisées qu'il peut y avoir place à la divergence et à l'imagination. Nous ferons donc un test séparé pour le contrôle de l'hallucination du grand modèle. Cependant, la plupart des grands modèles linguistiques et des modèles de diffusion pour la génération d'images sur le marché ont du mal à répondre pleinement aux besoins des annonceurs. Après la sortie du grand modèle à usage général, il reste encore un long chemin à parcourir avant qu'il ne soit pleinement commercialisé.

De plus, la chose la plus importante que nous considérons est la question du coût : le modèle de source fermée a un système de devis direct, et nous mesurons généralement le coût de milliers de Tokens. Pour le modèle open source, il y a plus de liens à mesurer et à calculer, du déploiement au réglage fin jusqu'au raisonnement final en ligne, la puissance de calcul consommée et le coût de développement et le coût des données investis dans le maintien de l'open source. modèle source.

Le retour d'information sur la qualité du grand modèle et l'estimation des coûts peuvent constituer une évaluation du modèle. En une phrase simple : Plus le coût est élevé, plus il est populaire.

Jiao Juan : De notre point de vue, ce qui compte le plus, c'est comment définir certaines exigences verticales. Parce qu'à l'échelle mondiale, qu'il s'agisse d'une entreprise de technologie dure ou d'une entreprise Internet, il n'y a peut-être pas trop d'entreprises qui sont vraiment capables de définir des exigences, donc cette proposition peut être convertie en ——** Si les entreprises modèles fixent elles-mêmes des exigences verticales, pouvons-nous travailler avec des partenaires écologiques pour explorer une meilleure direction de catégorie verticale. Bien sûr, il serait préférable que certaines entreprises puissent avoir leur propre accumulation de données et accumulation d'expérience dans une direction spécifique. C'est notre point de vue, du point de vue de l'application et de la définition des besoins des industries segmentées verticalement.

**Technologie Tencent : Llama2 peut-il vraiment surpasser ou égaler GPT-3.5 en termes de performances ? **

Zhou Songtao : Le grand modèle pour Llama2 est toujours en cours d'évaluation, et cela prendra environ 2 semaines. Mais à partir de notre étude du document et de quelques évaluations simples qui ont été faites jusqu'à présent, nous pouvons faire des comparaisons générales.

Il existe plusieurs différences entre l'étape de pré-formation et le modèle original de GPT, et ces modifications n'ont pas été apportées par d'autres sociétés modèles auparavant. La première consiste à changer le mécanisme d'attention multi-têtes du transformateur traditionnel en un mécanisme de groupe de fragments dans la phase de pré-formation. C'est un peu similaire ou imite la technologie de partitionnement que nous utilisions lorsque nous faisions du traitement de données volumineuses et traitions des données parallèles à grande échelle. Regroupez un grand nombre de requêtes (demandes) requises par l'attention en groupes, et placez chaque groupe dans une unité de formation, de sorte que l'efficacité et la rapidité du parallélisme seront théoriquement grandement améliorées. Je pense que cette partie est une nouvelle modification apportée par Meta sur la base de l'expérience précédente du traitement parallèle à grande échelle.

Sur la base de ce changement, je pense qu'ils sont théoriquement plusieurs fois plus élevés que les grands modèles existants en termes de puissance de calcul requise et de consommation de temps. J'estime que Llama2 débutera en janvier d'après leur déclaration.Calculé en fonction du temps de release, il devrait être plus court que le temps de pré-formation de Llama1 car il a un plus grand nombre de paramètres que Llama1. De cette manière, le cycle possible de plusieurs cycles de formation est compressé. Ceci est étroitement lié à la GQA mentionnée dans le document. À ce stade, il devrait dépasser GPT 4. Bien que nous ne connaissions pas le nombre spécifique de GPT-4, selon des spéculations extérieures, GPT-4 est beaucoup plus élevé que GPT-3 et GPT-3.5.

Pour GQA, nous estimons actuellement que la méthode de traitement de **GQA peut en effet améliorer la vitesse de formation pour les utilisateurs disposant de cartes de puissance de calcul suffisantes, en particulier les ressources de puissance de calcul parallèle GPU. **Cependant, des tests et des examens par les pairs ont révélé que cette fonction a des exigences élevées en termes de taille du pool de puissance de calcul et du matériel. Pour des raisons bien connues, les développeurs en Chine continentale disposent de peu de ressources de calcul parallèle GPU à grande échelle, donc **GQA peut avoir un impact négatif sur nous. C'est insipide. **

De plus, le deuxième point est que dans la phase d'ajustement, nous savons que le système GPT a effectué un traitement de données en couches lors de la normalisation, ce qui rend les résultats de l'apprentissage des données très précis, mais il consomme également beaucoup de puissance de calcul. Mais Llama2 utilise une solution différente, qui consiste à ajouter des coefficients de pondération sur la base d'un traitement en couches, ce qui est très utile pour améliorer l'efficacité et maintenir la précision, et est également utile pour économiser la puissance de calcul. Ces deux points sont des optimisations faites lors de la phase de pré-formation. **

De plus, le document mentionne également que la position d'intégration de Llama1 est fixe et ne peut pas être modifiée. Mais dans Llama2, cela peut être ajusté dynamiquement, ce qui est également un point positif. Nous sommes également très intéressés par cela et voulons savoir quel genre d'effet pratique cela peut produire.

En plus de cela, Llama2 a évidemment absorbé une certaine expérience d'ingénierie des séries Llama1 et GPT, c'est-à-dire que l'expérience réussie de l'étape RHLF a été réutilisée et devrait être grandement améliorée.

Le dernier concerne les paramètres de ratio. Ce que j'ai vu jusqu'à présent, ce sont les paramètres qu'il a divulgués sur son site Web officiel. Il y a plus d'un million de paramètres, y compris sa rétroaction artificiellement améliorée, et la partie affinée atteint plus de 100 000. S'il ose publier ces paramètres, cela signifie que Meta a la confiance nécessaire pour considérer de manière exhaustive les paramètres du modèle, la consommation de temps et la consommation d'énergie de calcul.

**Technologie Tencent : pourquoi le seuil de l'open source commercial est-il fixé à pas plus de 700 millions d'utilisateurs actifs par mois ? **

Jiao Juan : Je plaisante, je pense que ce règlement est "très ouvert" —— Meta a joué une carte brillante, puisqu'il ne peut pas empêcher les autres de faire des recherches, alors laissez-le aller. C'est essentiellement le résultat de jeux internes. Les indicateurs financiers de Meta ne sont pas très bons depuis le début de 2021, il recherche donc la deuxième courbe de croissance. En octobre 2021, Meta a changé son nom en All in Metaverse, mais il n'a constaté aucune amélioration substantielle. Il a lancé le grand modèle actuel, qui peut être intégré à son propre matériel. Cela équivaut à jouer une carte lumineuse. Cela nécessite du matériel, des logiciels et un système d'exploitation. Il espère avoir sa propre place à l'ère de l'IA, mais en même temps qu'open source, il ne veut pas être trop avantageux pour les concurrents. Comme vous pouvez le voir, les 700 millions de produits actifs mensuels incluent YouTube 2,5 milliards, Apple 1,8 milliard, Microsoft 1,4 milliard, Samsung 1 milliard, LinkedIn 900 millions, Snapchat 750 millions, etc.

**Technologie Tencent : Quelle est la différence essentielle entre l'open source commercial et les licences de recherche ? Quel impact pourrait-il y avoir sur l'écosystème open source ? **

Zhou Songtao : Après l'apparition du grand modèle de langage, la question de l'open source est également devenue très compliquée, tout le monde a fait beaucoup d'ajustements à la définition de l'open source et à cette règle. Cela impliquera que vous ouvriez l'algorithme lui-même, la recherche de données open source, etc. Pour le jugement de l'open source global du nouveau modèle de langage ou modèle génératif : d'abord, cela dépend si son code d'algorithme est open source, puis si son ensemble de numéros de formation sera open source. Le troisième est basé sur l'algorithme open source. Si je fais un réglage fin ou un autre traitement, quel type de contraintes aura votre politique d'autorisation. La quatrième consiste à utiliser les résultats de votre inférence de modèle, si le côté modèle a le contrôle. Nous jugeons généralement à partir de ces directions si le « open source » de ce modèle a vraiment une valeur d'application pour nous.

En ce qui concerne la recherche open source et l'open source commercial, je me souviens que l'exemple le plus typique est la société Stability AI. Je rappelle que deux semaines avant que LLama2 ne soit open source, la version XL de StabilityAI est également sortie, c'est-à-dire que seule la recherche est autorisée à être open source, et il est clairement stipulé que des modèles peuvent être utilisés. Faites des recherches avec des données, par exemple, si vous êtes chercheur ou appartenez à une certaine université, mais si vous utilisez ce modèle pour la commercialisation, c'est complètement interdit, et vous doivent demander une autorisation séparément pour l'utiliser.

L'autorisation open source de grands modèles, je pense, a beaucoup changé par rapport à la logique open source d'origine. Les liens et les processus sont mis en place avec beaucoup de soin. Il est possible que l'intelligence artificielle générative apporte des changements bouleversants à l'ensemble de l'open source. système source. **

**Technologie Tencent : quel type d'impact l'open source commercial de Llama2 aura-t-il sur le paysage concurrentiel des grands modèles ? **

Jiao Juan : Dans la compétition des géants d'outre-mer, il y a un style, qui consiste à rendre leurs produits et services reconnaissables, donc Meta s'appelle Metaverse, et Apple doit s'appeler New Universe. Si d'autres ferment la source, j'occuperai l'open source . L'open source dans le passé a peut-être été fait par des geeks avec un sens de la liberté, et la pensée était relativement simple. Mais maintenant qu'un si grand corps d'affaires dirige cette affaire, il s'agit davantage d'intérêts commerciaux.

Zhou Songtao : Je pense que les trois éléments du paysage concurrentiel du système d'intelligence artificielle générative (puissance de calcul, algorithmes et modèles) n'ont pas changé. En fait, le modèle ne rend compte que d'un tiers des facteurs concurrentiels. Si on change de modèle, il ne peut changer que d'un tiers ou d'un peu plus d'un tiers. J'estime qu'il est plus optimiste, et il peut atteindre environ 45 %. **

Le modèle au pays et à l'étranger n'est toujours pas le même, et le modèle au niveau de l'algorithme étranger est plus évident. Les données étrangères sont essentiellement nettoyées et vectorisées, le jeu de données d'entraînement est déjà suffisant et l'avantage concurrentiel en termes de données n'est pas évident, sauf si vous disposez de données propriétaires pour une certaine industrie. La puissance de calcul n'est pas un endroit où les géants étrangers peuvent creuser l'écart. Les géants ont en fait la force de se battre pour la puissance de calcul.

Tout d'abord, les entreprises nationales avec des algorithmes sous-jacents de base sont en fait très limitées ; deuxièmement, le degré de nettoyage et de vectorisation des données nationales n'est en fait pas élevé. Au début, si une entreprise investissait beaucoup de puissance dans le traitement de données structurées, elle pouvait en fait compenser le manque de puissance de calcul et d'algorithmes. Troisièmement, le pays manque en fait de puissance de calcul à court terme. Par conséquent, l'impact de l'open source LLama2 sur le paysage national n'est actuellement pas facile à juger.

D'ailleurs, à l'étranger, Google est le véritable pionnier de toute l'intelligence artificielle générative, puis il a failli se transformer en martyr. C'est parce que le document source de toute l'intelligence artificielle générative est "L'attention est tout ce dont vous avez besoin", et que le premier modèle open source T5 est en fait Google. Google était fier de la foule. De manière inattendue, un cheval noir, OpenAI, a été tué plus tard.Les premiers GPT-1 et GPT-2 étaient open source, et GPT-3 était une source fermée après avoir été open source. Lorsque OpenAI entre sur le marché, l'open source est le courant dominant de toute l'intelligence artificielle générative.

OpenAI a trouvé Microsoft à cette époque, et possédait également une puissance de calcul très coûteuse, devenant un concurrent sérieux de Google. À partir de 2022, le marché de l'intelligence artificielle générative commencera à entrer dans le système à source fermée. OpenAI a maîtrisé l'algorithme, ajouté la puissance de calcul et les données de Microsoft, et fermé le produit, et le produit est devenu un succès au niveau phénoménal, et Microsoft et OpenAI en ont profité. Je pense que lorsque Meta a décidé d'entrer dans ce domaine pour la première fois, on estime qu'il a soigneusement étudié l'historique du développement depuis le début. Maintenant qu'OpenAI s'est retiré du domaine de l'open source pour le fermer, alors j'utiliserai la méthode open source pour vaincre encore ta magie.

Avant cela, Meta a également vu la vitalité de plusieurs petites entreprises après l'open source, notamment Stability AI.Cette entreprise n'a pas de fondation profonde.La société a encore beaucoup de controverses.

Je me souviens que Llama1 a annoncé son open source en mars. À ce moment-là, il a également déclaré qu'il était "accidentellement open source". Ensuite, Stability AI a également déclaré que j'avais accidentellement divulgué le code, donc c'était également open source. La voie générale est que Google a donné le ton de l'open source, puis OpenAI et Microsoft l'ont retransformé en système à source fermée, puis Meta et Stability AI l'ont remis en open source. Je pense qu'à l'avenir, **Open La source et la source fermée doivent se balancer, et un modèle de jeux et de compétitions mutuels se formera dans ce domaine pendant longtemps. **

**Tencent Technology : La méta open source Llama2 est-elle un dernier recours ou un choix stratégique actif ? **

Jiao Juan : Ce doit être un choix stratégique actif, car les trois principaux concurrents dans le domaine de la RA, Meta, Microsoft et Google, se battent depuis plus de dix ans. Meta a rapidement lancé LLama2, au moins plus rapide que Google. Le choix de l'open source et de la source fermée ne supprimera pas certaines demandes d'intérêt essentielles, donc je pense qu'il n'est peut-être pas si significatif de changer complètement le modèle de concurrence. La seconde est que la situation intérieure est différente, de sorte que le modèle de concurrence intérieure doit être observé à nouveau.

Qu'il soit open source ou fermé, il s'agit essentiellement d'un choix stratégique entre ces entreprises du monde entier face à de nouvelles grandes opportunités. En faisant des efforts pour aménager le front, j'espère aussi capter au maximum l'arrière-pays de Bier. La concurrence des géants étrangers n'est plus aussi simple que de développer la deuxième ou nième courbe de croissance. La concurrence est féroce et décisive, voire un peu salvatrice.

Je pense que c'est la discussion la plus digne de chacun : Quel genre d'environnement ou de contexte se cache derrière leurs actions, pour qu'ils doivent le faire d'une manière aussi décisive, comme une course aux armements.

Il y a aussi eu des choses remarquables qui se sont produites récemment. La société X-AI de Musk a été créée. Elle veut re-comprendre le monde physique réel. Tous les géants regardent la réalisation réelle de l'AGI. Cette carte devient de plus en plus grande. Cependant, le nouveau monde des affaires et le nouveau paysage commercial nécessitent toujours de nouvelles applications et de nouveaux produits populaires pour les piloter, ce qui pourrait être difficile à réaliser en 2023. Nous pouvons placer notre espoir en 2024, peut-être que les lunettes MR d'Apple seront une nouvelle opportunité.

**Tencent Technology : Nous avons également vu que deux autres géants étrangers, Musk et Apple, n'ont pas fait d'annonces très médiatisées sur leurs progrès dans le domaine des modèles à grande échelle. Qu'en pensez-vous ? **

Jiao Juan : Ils se retiennent juste pour le moment, et ce qui est certain, c'est que ce qu'ils lancent ne s'appellera certainement pas un grand modèle. Je pense que nous pouvons nous concentrer sur le niveau suivant, l'intelligence incarnée. En ce sens, Musk est le moins inquiet. Le plus grand avantage d'Apple réside dans la combinaison de logiciels et de matériel.

Zhou Songtao : Nous l'avons à peu près testé nous-mêmes, et la puce **M2 peut rivaliser avec les cartes de Nvidia en termes de puissance de calcul en virgule flottante. ** Apple peut prendre l'intégration de logiciels et de matériel, ce qui est en fait au-delà du paysage concurrentiel actuel des grands modèles.

L'intelligence incarnée, je pense, pourrait être une nouvelle étape dans le développement de l'intelligence artificielle générale à l'avenir, car une fois que vous aurez une forte capacité de raisonnement, elle sera certainement étendue au monde physique, et le point central du contrôle du monde physique est de l'intégrer dans le corps Ou intégré dans des capteurs dans le monde physique, alors c'est un système qui devient l'intelligence incarnée. Comme M. Zhou l'a dit tout à l'heure, cela s'est transformé en une série de sociétés Musk.

Lorsque nous combinons logiciel et matériel ensemble pour examiner l'ensemble de l'intelligence artificielle générale, vous constaterez que le paysage de la concurrence a de nouveau changé. dans.

**Technologie Tencent : L'open source commercial de Llama2, est-il possible de réduire le coût de démarrage d'un modèle à grande échelle ? **

Zhou Songtao : Je n'en suis pas sûr maintenant, car même si cela permet d'économiser le coût de la location d'API, vous constaterez que la forte baisse de prix d'OpenAI le 15 juin est de près de 10 %, donc le modèle à source fermée se bat également contre un prix guerre. Au contraire, si le modèle open source est utilisé, combien de matériel, de puissance de calcul et de données seront nécessaires ? Les coûts cachés sont difficiles à estimer. En parlant simplement de l'open source de LLama2, je pense que ce n'est pas nécessairement une voie économique pour l'entrepreneuriat.

En ce qui concerne le coût de raisonnement, nous mesurons et combinons actuellement les articles d'évaluation de testeurs étrangers, et avons constaté que pour certains types spécifiques de tâches de raisonnement, telles que la classification ou le flux de travail langchain, l'efficacité du raisonnement et la consommation de temps de Llama2 sont réduites, mais pour d'autres types de tâches, **Si comparé à la version instantanée de GPT-3.5-turbo-0615, il n'est pas nécessairement moins cher (uniquement en termes de consommation d'énergie de calcul d'inférence) ; **La version originale actuelle est très fluide et précise dans la compréhension Chinois, mais l'expression chinoise est presque 0, ** Donc, les entrepreneurs chinois qui veulent utiliser pleinement Llama2 doivent dépenser beaucoup d'argent pour résoudre le réglage fin ou l'orientation de l'expression chinoise, ou attendre que la communauté open source fournisse une expression chinoise version... Ce coût n'est pas faible. **

De plus, l'open source commerciale de **Llama2 peut en effet amener les grands fournisseurs de services à déclencher une guerre des prix, ce qui est une bonne nouvelle pour les utilisateurs et les entrepreneurs. **

Jiao Juan : Franchement, j'attends toujours avec impatience certains modèles industriels ou modèles verticaux en Chine. J'ai personnellement sélectionné quelques entreprises prometteuses, qui se caractérisent par de solides performances dans ce secteur et une expérience dans l'accumulation continue de données et la construction de plateformes. De plus, je pense que ce tour n'est pas une question de savoir si le billet est cher ou non, mais si vous êtes cher ou non, tout le monde est confronté à une transformation.

Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)