La mêlée des gros modèles domestiques polyvalents est loin d'être terminée. Après une période d'inactivité d'environ six mois, la plupart des joueurs ont fait surface.
Parmi ceux-ci, quelqu'un accélère l'itération. Le 8 août, Baichuan Intelligent, fondée par Wang Xiaochuan, le fondateur de Sogou Search, a lancé son troisième produit modèle à grande échelle Baichuan-53B, avec 53 milliards de paramètres d'entraînement derrière lui. À cette époque, cela ne faisait que 4 mois que Wang Xiaochuan avait annoncé son entrée sur le champ de bataille des modèles à grande échelle, et la start-up progressait rapidement.
Ce n'est que le début. Baichuan Intelligent a révélé à Times Finance qu'il y aura un certain nombre de produits lancés à l'avenir, y compris des modèles à grande échelle avec des paramètres dépassant 100 milliards.
Il y avait aussi des sorties sombres. Fondée par Wang Huiwen, co-fondateur de Meituan, elle a attiré des institutions de capital-risque bien connues telles que Source Code Capital et Wuyuan Capital, ainsi que des investissements de géants de l'Internet tels que Wang Xing, fondateur de Meituan, et Su Hua, fondateur de Kuaishou Il était autrefois considéré par le marché C'est l'un des acteurs les plus puissants sur le champ de bataille national des modèles à grande échelle.
Cependant, comme Wang Huiwen a démissionné en raison de problèmes de santé fin juin et n'a pas pu continuer à être en charge à des années-lumière, cette startup à grande échelle très attendue a dû se vendre à Meituan, et un groupe d'investisseurs a également retiré leur actions.
D'autres ont trouvé une autre voie. Lanzhou Technology, fondée par l'expert en intelligence artificielle Zhou Ming, met l'accent sur les modèles légers, dans l'espoir de résoudre les problèmes de scène de la face B à moindre coût. You Yang, un jeune professeur qui a aidé Google à réduire le temps de formation du modèle BERT de 3 jours à 76 minutes, a créé Luchen Technology, essayant de percer avec une solution à faible coût pour la formation de grands modèles.
En revanche, les modèles à grande échelle développés par les grands fabricants se font attendre depuis longtemps. Ce n'est qu'au début du mois d'août que le grand modèle Hunyuan auto-développé de Tencent et le produit de dialogue AI de Byte, Grace, sont sortis des nouvelles de tests internes, et l'heure de lancement spécifique est encore inconnue.
Également encore en phase de test, il y a aussi l'entreprise AI 2.0 "01Wanwu" fondée par Kai-Fu Lee. Lors de la réunion sur les changes tenue le 3 juillet, Kai-fu Lee a révélé que la société avait réalisé des tests internes du modèle avec une échelle de 10 milliards de paramètres en trois mois, et qu'elle s'étendait actuellement à une échelle de 30 à 70 milliards de paramètres. . Cependant, le produit n'est pas encore ouvert sur le marché.
Le type de changements que ces produits à grande échelle inédits apporteront à l'industrie technologique mérite d'être attendu avec impatience. De ce point de vue, cette échauffourée risque de durer longtemps.
Attaque Wang Xiaochuan
Baichuan Intelligent, fondée par Wang Xiaochuan, attire l'attention du marché avec sa vitesse de sortie de produit incroyable.
Après avoir annoncé en avril qu'il finirait par construire un modèle à grande échelle, il n'a fallu que deux mois et cinq jours pour publier le modèle à grande échelle open source de 7 milliards de paramètres Baichuan-7B le 15 juin. En moins d'un mois, un autre grand modèle open source de 13 milliards de paramètres Baichuan-13B a été publié.
Le Baichuan-53B sorti le 8 août est déjà le troisième produit lancé par cette start-up de modèles à grande échelle en six mois, et Baichuan Intelligent progresse rapidement.
Le responsable de Baichuan Intelligence a répondu à Times Finance que l'entreprise avait déjà passé beaucoup de temps sur les préparatifs préliminaires avant sa création, et réfléchi clairement à la route et à la méthode dès le début.
Il a souligné que trois niveaux seront pris en compte lors de la réalisation d'un grand modèle : les données, l'algorithme et la puissance de calcul. Indépendamment de la puissance de calcul, les sociétés de recherche ont naturellement d'excellentes capacités de données.L'équipe principale de Baichuan Intelligence effectue la capture, l'extraction, le nettoyage, la déduplication, l'anti-spam et d'autres opérations de données depuis 20 ans, ce qui peut obtenir des données plus rapidement. ensembles de données de qualité.
L'algorithme est centré sur le traitement du langage naturel et l'ingénierie de l'algorithme est itérée. Il ne s'agit pas d'un problème d'ingénierie unique, mais piloté par des données textuelles, l'algorithme et l'ingénierie travaillent ensemble. Une expérience antérieure dans la recherche peut également jouer un bon rôle ici, en utilisant l'évaluation des données pour conduire l'amélioration du modèle.
"Avec des années de technologie et d'expérience accumulées, Baichuan Intelligent peut fabriquer rapidement et bien des produits modèles à grande échelle."
Cependant, lors de la conférence de presse, Wang Xiaochuan a également souligné que le grand modèle domestique à usage général actuel en est encore au stade de la classification et de la reproduction. Tous les fabricants se comparent essentiellement à OpenAI, et le problème de l'homogénéité se posera inévitablement.
Pour cette raison, à son avis, contrairement à la situation dans laquelle le modèle de tête du modèle à grande échelle à source fermée aux États-Unis a été fixé, il n'y a pas de conclusion sur "quel modèle à grande échelle est le meilleur en Chine" . Dans cette mêlée, l'argent est important, mais au final ce sont les gens, l'équipe et l'organisation qui prennent la décision. Les grandes entreprises ont plus d'argent, plus de personnel et plus de puissance de calcul, mais leur efficacité organisationnelle n'est généralement pas nécessairement suffisante.L'efficacité organisationnelle des entreprises en démarrage peut être bonne ou non.
"Tout le monde se bat pour des opportunités, et ils ne tombent pas nécessairement dans les grandes usines."
Wang Xiaochuan a également parlé de la sortie de Wang Huiwen dans l'interview. Il a souligné que Wang Huiwen est le seul parmi plusieurs modèles à grande échelle grand public en Chine qui n'a pas une solide formation technique, et le défi pour lui est plus grand que d'autres entreprises. Il y a beaucoup de décisions techniques à prendre dans le travail, comme qui recruter, quelle feuille de route technique suivre et combien de ressources informatiques sont nécessaires, et vous serez certainement confronté à beaucoup de pression décisionnelle.
"Ce n'est pas que faire un grand modèle soit stressant, c'est qu'il y a beaucoup de pression pour prendre des décisions sans connaissances techniques. Mais si la technologie est suffisante, c'est en fait assez agréable."
Tencent, Byte est attendu depuis longtemps
Au début de la mêlée des modèles à grande échelle, les géants de l'Internet étaient considérés comme de puissants concurrents car ils disposaient de plus de puissance de calcul, de talents, de fonds et de données.
Wenxin Yiyan, développé par Baidu, a été lancé pour la première fois fin mars de cette année ; Tongyi Qianwen d'Alibaba a suivi de près et a été annoncé lors du Alibaba Cloud Summit qui s'est tenu le 11 avril. Juste le jour avant qu'Ali ne libère Tongyi Qianwen, Wang Xiaochuan vient d'annoncer sa fin et de créer Baichuan Intelligent.
En revanche, Tencent et Byte, qui sont tous deux des fabricants de premier rang, sont beaucoup plus lents à lancer de grands modèles à usage général.
Le 3 août, selon les rapports de 36kr, le "Tencent Hunyuan Large Model" auto-développé de Tencent est entré dans la phase de test interne de l'application. Trois jours plus tard, le 6 août, Grace, le produit de dialogue IA de Byte, a également été exposé. Après deux mois de recherche et développement, il est finalement entré en phase de test.
À l'heure actuelle, cela fait 4 mois que Baidu a publié Wenxin Yiyan. En ce qui concerne la raison pour laquelle les produits modèles à grande échelle à usage général de Tencent sont plus lents, Ma Huateng a déclaré publiquement : « Tencent est également plongé dans la recherche et le développement, mais il n'est pas pressé de le terminer tôt et de montrer les produits semi-finis. .”
Cependant, Tencent, qui n'est "pas pressé", a pris les devants en annonçant la voie du "grand modèle industriel" à la mi-juin de cette année, lançant plus de 50 solutions pour 10 grandes industries en une seule fois. Par coïncidence, ByteDance a également lancé en juin une plate-forme de service de modèles à grande échelle "Volcano Ark". En intégrant les modèles à grande échelle de nombreuses entreprises de technologie d'IA et instituts de recherche scientifique, il fournit aux entreprises une gamme complète de services de plate-forme.
Le marché croyait autrefois que le modèle industriel à grande échelle deviendrait la méthode de percée de ces deux grands fabricants.
Mais ce n'est peut-être pas le cas. Il y a toujours le risque d'être remplacé par le modèle de grande industrie qui est actuellement prôné. Wu Xiaoru, président de HKUST Xunfei, a un jour fait remarquer à Times Finance qu'il y a 10 ans, dans la technologie de reconnaissance vocale, il existait de nombreux modèles spéciaux axés sur différents scénarios tels que les appels, la conduite et le travail de bureau.
"Je pense que les grands modèles traversent la même phase."
En revanche, dans une perspective à plus long terme, le grand modèle à usage général représente vraiment une grande opportunité au niveau de la plate-forme ou perturbatrice. C'est justement pour cela que ni Tencent ni Byte ne peuvent se permettre de manquer, même si la progression est lente, ils doivent insister pour être présents.
Certains initiés de Tencent ont fait remarquer à Times Finance que le plan de Tencent a toujours été de marcher sur deux jambes, et que GM et l'industrie vont de pair. C'est juste que par rapport à certains fabricants radicaux, Tencent, dont les produits couvrent le social, les jeux, la publicité, la création de contenu et d'autres domaines, est plus prudent.
Les entrepreneurs universitaires trouvent une autre voie
Sur le champ de bataille des modèles à grande échelle, les start-up académiques issues des universités et des instituts de recherche constituent le troisième pôle de concurrence.
Ce ne sont pas des têtes de série comme Wang Xiaochuan et Wang Huiwen. Au début de leur entreprise, ils peuvent attirer des centaines de millions de dollars d'investissements grâce à leurs relations, et s'en servir pour démarrer rapidement. Ce n'est pas non plus comme les grandes entreprises comme Tencent, Ali et Baidu, qui ont des avantages insurmontables en termes de puissance de calcul, de talents et de capital.
Mais en s'appuyant sur leur compréhension approfondie de la technologie de l'intelligence artificielle, ces entrepreneurs peuvent toujours trouver de nouvelles directions de développement sous l'attaque.
Par exemple, Lanzhou Technology, fondée par Zhou Ming, l'ancien vice-président de Microsoft Asia Research Institute, est différente des produits modèles à grande échelle sur le marché qui poursuivent des centaines de milliards, voire des milliards de paramètres. (Natural Language Processing) depuis 1980. L'expert chinois en intelligence artificielle espère résoudre le problème des scénarios côté B avec un modèle plus léger.
Le grand modèle Mencius qu'il a lancé utilisait autrefois un milliard de paramètres pour actualiser la liste CLUE de la référence d'évaluation faisant autorité pour la compréhension de la langue chinoise, qui était auparavant dominée par des modèles avec des paramètres de 10 milliards et 100 milliards de niveaux.
C'est une décision pragmatique. Pour des raisons de sécurité des données, la plupart des entreprises ne téléchargeront pas de données, mais nécessiteront un déploiement localisé, ce qui augmentera considérablement les coûts. Dans une interview avec les médias, Zhou Ming a souligné que même s'il ne s'agit que d'un déploiement local de l'inférence, en utilisant un grand modèle bien entraîné, un grand modèle avec 100 milliards de paramètres a encore besoin de 8 à 16 A100, soit au moins un ou deux millions de yuans d'investissement, "Pour de nombreux scénarios, les clients doivent être bon marché et abordables."
Luchen Technology, fondée par le jeune professeur You Yang, président de l'Université nationale de Singapour, espère utiliser la technologie des algorithmes pour réduire le coût d'appel de grands modèles.
De nos jours, qu'il s'agisse d'une grande usine ou d'une start-up, elle doit faire face au problème que la tendance à l'homogénéisation des modèles domestiques à grande échelle devient de plus en plus évidente. Si ce problème n'est pas résolu, les grands modèles à l'avenir tomberont probablement dans la situation difficile à faible marge à laquelle sont confrontés les fournisseurs de services cloud aujourd'hui.
You Yang a déclaré à Times Finance que c'était parce que le coût d'itération de la base technologique sous-jacente était trop élevé. Il a utilisé GPT comme exemple. Le coût de formation d'OpenAI s'élève à 60 millions de dollars américains à chaque fois. Il doit être formé tous les trois ou quatre mois, et il a besoin de quatre ou cinq formations pour une itération. Sur cette base, chaque itération du socle technique peut coûter 200 à 300 millions de dollars US.
Des coûts excessivement élevés conduisent à des bases technologiques extrêmement rares sur le marché. Fondamentalement, uniquement GPT, LLAMA et GLM domestique. Tous les fabricants imitent essentiellement ces grands modèles pour fabriquer des produits, ce qui a rendu le problème de l'homogénéité plus important.
You Yang, qui étudie depuis longtemps l'informatique haute performance, a créé la technologie Luchen. Le système open source Colossal-AI actuellement lancé par la société peut réduire considérablement les coûts de développement et d'application de la formation, de l'ajustement et du raisonnement des grands modèles d'IA grâce à des technologies telles que le parallélisme multidimensionnel efficace et la mémoire hétérogène.
You Yang pense que ce n'est que lorsque le coût de la formation de modèles à grande échelle chutera rapidement, ou lorsque de meilleures techniques d'optimisation seront adoptées pour contrôler les paramètres à environ 20 milliards, tout en obtenant le même effet que 100 milliards de paramètres, que les modèles à grande échelle vraiment s'épanouir ce jour-là.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Six mois de bataille acharnée pour les grands modèles, Tencent Byte se fait attendre depuis longtemps
Source originale : Times Finance
Auteur : Xie Silin
La mêlée des gros modèles domestiques polyvalents est loin d'être terminée. Après une période d'inactivité d'environ six mois, la plupart des joueurs ont fait surface.
Parmi ceux-ci, quelqu'un accélère l'itération. Le 8 août, Baichuan Intelligent, fondée par Wang Xiaochuan, le fondateur de Sogou Search, a lancé son troisième produit modèle à grande échelle Baichuan-53B, avec 53 milliards de paramètres d'entraînement derrière lui. À cette époque, cela ne faisait que 4 mois que Wang Xiaochuan avait annoncé son entrée sur le champ de bataille des modèles à grande échelle, et la start-up progressait rapidement.
Ce n'est que le début. Baichuan Intelligent a révélé à Times Finance qu'il y aura un certain nombre de produits lancés à l'avenir, y compris des modèles à grande échelle avec des paramètres dépassant 100 milliards.
Il y avait aussi des sorties sombres. Fondée par Wang Huiwen, co-fondateur de Meituan, elle a attiré des institutions de capital-risque bien connues telles que Source Code Capital et Wuyuan Capital, ainsi que des investissements de géants de l'Internet tels que Wang Xing, fondateur de Meituan, et Su Hua, fondateur de Kuaishou Il était autrefois considéré par le marché C'est l'un des acteurs les plus puissants sur le champ de bataille national des modèles à grande échelle.
Cependant, comme Wang Huiwen a démissionné en raison de problèmes de santé fin juin et n'a pas pu continuer à être en charge à des années-lumière, cette startup à grande échelle très attendue a dû se vendre à Meituan, et un groupe d'investisseurs a également retiré leur actions.
D'autres ont trouvé une autre voie. Lanzhou Technology, fondée par l'expert en intelligence artificielle Zhou Ming, met l'accent sur les modèles légers, dans l'espoir de résoudre les problèmes de scène de la face B à moindre coût. You Yang, un jeune professeur qui a aidé Google à réduire le temps de formation du modèle BERT de 3 jours à 76 minutes, a créé Luchen Technology, essayant de percer avec une solution à faible coût pour la formation de grands modèles.
En revanche, les modèles à grande échelle développés par les grands fabricants se font attendre depuis longtemps. Ce n'est qu'au début du mois d'août que le grand modèle Hunyuan auto-développé de Tencent et le produit de dialogue AI de Byte, Grace, sont sortis des nouvelles de tests internes, et l'heure de lancement spécifique est encore inconnue.
Également encore en phase de test, il y a aussi l'entreprise AI 2.0 "01Wanwu" fondée par Kai-Fu Lee. Lors de la réunion sur les changes tenue le 3 juillet, Kai-fu Lee a révélé que la société avait réalisé des tests internes du modèle avec une échelle de 10 milliards de paramètres en trois mois, et qu'elle s'étendait actuellement à une échelle de 30 à 70 milliards de paramètres. . Cependant, le produit n'est pas encore ouvert sur le marché.
Le type de changements que ces produits à grande échelle inédits apporteront à l'industrie technologique mérite d'être attendu avec impatience. De ce point de vue, cette échauffourée risque de durer longtemps.
Attaque Wang Xiaochuan
Baichuan Intelligent, fondée par Wang Xiaochuan, attire l'attention du marché avec sa vitesse de sortie de produit incroyable.
Après avoir annoncé en avril qu'il finirait par construire un modèle à grande échelle, il n'a fallu que deux mois et cinq jours pour publier le modèle à grande échelle open source de 7 milliards de paramètres Baichuan-7B le 15 juin. En moins d'un mois, un autre grand modèle open source de 13 milliards de paramètres Baichuan-13B a été publié.
Le Baichuan-53B sorti le 8 août est déjà le troisième produit lancé par cette start-up de modèles à grande échelle en six mois, et Baichuan Intelligent progresse rapidement.
Le responsable de Baichuan Intelligence a répondu à Times Finance que l'entreprise avait déjà passé beaucoup de temps sur les préparatifs préliminaires avant sa création, et réfléchi clairement à la route et à la méthode dès le début.
Il a souligné que trois niveaux seront pris en compte lors de la réalisation d'un grand modèle : les données, l'algorithme et la puissance de calcul. Indépendamment de la puissance de calcul, les sociétés de recherche ont naturellement d'excellentes capacités de données.L'équipe principale de Baichuan Intelligence effectue la capture, l'extraction, le nettoyage, la déduplication, l'anti-spam et d'autres opérations de données depuis 20 ans, ce qui peut obtenir des données plus rapidement. ensembles de données de qualité.
L'algorithme est centré sur le traitement du langage naturel et l'ingénierie de l'algorithme est itérée. Il ne s'agit pas d'un problème d'ingénierie unique, mais piloté par des données textuelles, l'algorithme et l'ingénierie travaillent ensemble. Une expérience antérieure dans la recherche peut également jouer un bon rôle ici, en utilisant l'évaluation des données pour conduire l'amélioration du modèle.
"Avec des années de technologie et d'expérience accumulées, Baichuan Intelligent peut fabriquer rapidement et bien des produits modèles à grande échelle."
Cependant, lors de la conférence de presse, Wang Xiaochuan a également souligné que le grand modèle domestique à usage général actuel en est encore au stade de la classification et de la reproduction. Tous les fabricants se comparent essentiellement à OpenAI, et le problème de l'homogénéité se posera inévitablement.
Pour cette raison, à son avis, contrairement à la situation dans laquelle le modèle de tête du modèle à grande échelle à source fermée aux États-Unis a été fixé, il n'y a pas de conclusion sur "quel modèle à grande échelle est le meilleur en Chine" . Dans cette mêlée, l'argent est important, mais au final ce sont les gens, l'équipe et l'organisation qui prennent la décision. Les grandes entreprises ont plus d'argent, plus de personnel et plus de puissance de calcul, mais leur efficacité organisationnelle n'est généralement pas nécessairement suffisante.L'efficacité organisationnelle des entreprises en démarrage peut être bonne ou non.
"Tout le monde se bat pour des opportunités, et ils ne tombent pas nécessairement dans les grandes usines."
Wang Xiaochuan a également parlé de la sortie de Wang Huiwen dans l'interview. Il a souligné que Wang Huiwen est le seul parmi plusieurs modèles à grande échelle grand public en Chine qui n'a pas une solide formation technique, et le défi pour lui est plus grand que d'autres entreprises. Il y a beaucoup de décisions techniques à prendre dans le travail, comme qui recruter, quelle feuille de route technique suivre et combien de ressources informatiques sont nécessaires, et vous serez certainement confronté à beaucoup de pression décisionnelle.
"Ce n'est pas que faire un grand modèle soit stressant, c'est qu'il y a beaucoup de pression pour prendre des décisions sans connaissances techniques. Mais si la technologie est suffisante, c'est en fait assez agréable."
Tencent, Byte est attendu depuis longtemps
Au début de la mêlée des modèles à grande échelle, les géants de l'Internet étaient considérés comme de puissants concurrents car ils disposaient de plus de puissance de calcul, de talents, de fonds et de données.
Wenxin Yiyan, développé par Baidu, a été lancé pour la première fois fin mars de cette année ; Tongyi Qianwen d'Alibaba a suivi de près et a été annoncé lors du Alibaba Cloud Summit qui s'est tenu le 11 avril. Juste le jour avant qu'Ali ne libère Tongyi Qianwen, Wang Xiaochuan vient d'annoncer sa fin et de créer Baichuan Intelligent.
En revanche, Tencent et Byte, qui sont tous deux des fabricants de premier rang, sont beaucoup plus lents à lancer de grands modèles à usage général.
Le 3 août, selon les rapports de 36kr, le "Tencent Hunyuan Large Model" auto-développé de Tencent est entré dans la phase de test interne de l'application. Trois jours plus tard, le 6 août, Grace, le produit de dialogue IA de Byte, a également été exposé. Après deux mois de recherche et développement, il est finalement entré en phase de test.
À l'heure actuelle, cela fait 4 mois que Baidu a publié Wenxin Yiyan. En ce qui concerne la raison pour laquelle les produits modèles à grande échelle à usage général de Tencent sont plus lents, Ma Huateng a déclaré publiquement : « Tencent est également plongé dans la recherche et le développement, mais il n'est pas pressé de le terminer tôt et de montrer les produits semi-finis. .”
Cependant, Tencent, qui n'est "pas pressé", a pris les devants en annonçant la voie du "grand modèle industriel" à la mi-juin de cette année, lançant plus de 50 solutions pour 10 grandes industries en une seule fois. Par coïncidence, ByteDance a également lancé en juin une plate-forme de service de modèles à grande échelle "Volcano Ark". En intégrant les modèles à grande échelle de nombreuses entreprises de technologie d'IA et instituts de recherche scientifique, il fournit aux entreprises une gamme complète de services de plate-forme.
Le marché croyait autrefois que le modèle industriel à grande échelle deviendrait la méthode de percée de ces deux grands fabricants.
Mais ce n'est peut-être pas le cas. Il y a toujours le risque d'être remplacé par le modèle de grande industrie qui est actuellement prôné. Wu Xiaoru, président de HKUST Xunfei, a un jour fait remarquer à Times Finance qu'il y a 10 ans, dans la technologie de reconnaissance vocale, il existait de nombreux modèles spéciaux axés sur différents scénarios tels que les appels, la conduite et le travail de bureau.
"Je pense que les grands modèles traversent la même phase."
En revanche, dans une perspective à plus long terme, le grand modèle à usage général représente vraiment une grande opportunité au niveau de la plate-forme ou perturbatrice. C'est justement pour cela que ni Tencent ni Byte ne peuvent se permettre de manquer, même si la progression est lente, ils doivent insister pour être présents.
Certains initiés de Tencent ont fait remarquer à Times Finance que le plan de Tencent a toujours été de marcher sur deux jambes, et que GM et l'industrie vont de pair. C'est juste que par rapport à certains fabricants radicaux, Tencent, dont les produits couvrent le social, les jeux, la publicité, la création de contenu et d'autres domaines, est plus prudent.
Les entrepreneurs universitaires trouvent une autre voie
Sur le champ de bataille des modèles à grande échelle, les start-up académiques issues des universités et des instituts de recherche constituent le troisième pôle de concurrence.
Ce ne sont pas des têtes de série comme Wang Xiaochuan et Wang Huiwen. Au début de leur entreprise, ils peuvent attirer des centaines de millions de dollars d'investissements grâce à leurs relations, et s'en servir pour démarrer rapidement. Ce n'est pas non plus comme les grandes entreprises comme Tencent, Ali et Baidu, qui ont des avantages insurmontables en termes de puissance de calcul, de talents et de capital.
Mais en s'appuyant sur leur compréhension approfondie de la technologie de l'intelligence artificielle, ces entrepreneurs peuvent toujours trouver de nouvelles directions de développement sous l'attaque.
Par exemple, Lanzhou Technology, fondée par Zhou Ming, l'ancien vice-président de Microsoft Asia Research Institute, est différente des produits modèles à grande échelle sur le marché qui poursuivent des centaines de milliards, voire des milliards de paramètres. (Natural Language Processing) depuis 1980. L'expert chinois en intelligence artificielle espère résoudre le problème des scénarios côté B avec un modèle plus léger.
Le grand modèle Mencius qu'il a lancé utilisait autrefois un milliard de paramètres pour actualiser la liste CLUE de la référence d'évaluation faisant autorité pour la compréhension de la langue chinoise, qui était auparavant dominée par des modèles avec des paramètres de 10 milliards et 100 milliards de niveaux.
C'est une décision pragmatique. Pour des raisons de sécurité des données, la plupart des entreprises ne téléchargeront pas de données, mais nécessiteront un déploiement localisé, ce qui augmentera considérablement les coûts. Dans une interview avec les médias, Zhou Ming a souligné que même s'il ne s'agit que d'un déploiement local de l'inférence, en utilisant un grand modèle bien entraîné, un grand modèle avec 100 milliards de paramètres a encore besoin de 8 à 16 A100, soit au moins un ou deux millions de yuans d'investissement, "Pour de nombreux scénarios, les clients doivent être bon marché et abordables."
Luchen Technology, fondée par le jeune professeur You Yang, président de l'Université nationale de Singapour, espère utiliser la technologie des algorithmes pour réduire le coût d'appel de grands modèles.
De nos jours, qu'il s'agisse d'une grande usine ou d'une start-up, elle doit faire face au problème que la tendance à l'homogénéisation des modèles domestiques à grande échelle devient de plus en plus évidente. Si ce problème n'est pas résolu, les grands modèles à l'avenir tomberont probablement dans la situation difficile à faible marge à laquelle sont confrontés les fournisseurs de services cloud aujourd'hui.
You Yang a déclaré à Times Finance que c'était parce que le coût d'itération de la base technologique sous-jacente était trop élevé. Il a utilisé GPT comme exemple. Le coût de formation d'OpenAI s'élève à 60 millions de dollars américains à chaque fois. Il doit être formé tous les trois ou quatre mois, et il a besoin de quatre ou cinq formations pour une itération. Sur cette base, chaque itération du socle technique peut coûter 200 à 300 millions de dollars US.
Des coûts excessivement élevés conduisent à des bases technologiques extrêmement rares sur le marché. Fondamentalement, uniquement GPT, LLAMA et GLM domestique. Tous les fabricants imitent essentiellement ces grands modèles pour fabriquer des produits, ce qui a rendu le problème de l'homogénéité plus important.
You Yang, qui étudie depuis longtemps l'informatique haute performance, a créé la technologie Luchen. Le système open source Colossal-AI actuellement lancé par la société peut réduire considérablement les coûts de développement et d'application de la formation, de l'ajustement et du raisonnement des grands modèles d'IA grâce à des technologies telles que le parallélisme multidimensionnel efficace et la mémoire hétérogène.
You Yang pense que ce n'est que lorsque le coût de la formation de modèles à grande échelle chutera rapidement, ou lorsque de meilleures techniques d'optimisation seront adoptées pour contrôler les paramètres à environ 20 milliards, tout en obtenant le même effet que 100 milliards de paramètres, que les modèles à grande échelle vraiment s'épanouir ce jour-là.