🔥 Gate 动态大使专属发帖福利任务第三期报名正式开启!🏆 第二期获奖名单将于6月3日公布!
👉️ 6月3日 — 6月8日期间每日发帖,根据帖子内容评级瓜分 $300奖池
报名即可参与:https://www.gate.com/zh/questionnaire/6761
报名时间:6月3日10:00 - 6月8日 24:00 UTC+8
🎁 奖励详情:
一、S级周度排名奖
S级:每周7日均完成发帖且整体帖子内容质量分数>90分可获S级,挑选2名优质内容大使每人$50手续费返现券。
二、A/B 等级瓜分奖
根据各位动态大使发帖数量及帖子内容质量获评等级,按评定等级获奖:
A级:每周至少5日完成发帖且整体帖子内容质量90>分数>80可获A级,从A级用户中选出5名大使每人$20手续费返现券
B级:每周至少3日完成发帖且整体帖子内容质量80>分数>60可获B级,从B级用户中选出10名大使每人$10手续费返现券
📍 活动规则:
1.每周至少3日完成发帖才有机会获奖。
2.根据发帖天数和整体发帖内容质量分数给予等级判定,分为S/A/B等级,在各等级下选择幸运大使获奖。
💡 帖子评分标准:
1.每帖不少于30字。
2.内容需原创、有独立见解,具备深度和逻辑性。
3.鼓励发布市场行情、交易知识、币种研究等主题,使用图例或视频可提高评分。
4.禁止发布FUD、抄袭或诋毁内容,违规将取
6000 字详解盘古大模型:能否撑起世界 AI 另一极?
华为在大模型领域狠狠秀了一把「肌肉」。
7 月 7 日,2023 华为开发者大会(HDC 2023)开幕。下午两个多小时的主题演讲里,华为云首次详细披露了盘古大模型的进展,不仅发布面向行业的盘古大模型 3.0,还详细介绍了华为发展大模型的基础技术能力。
盘古大模型 3.0 包括「5+N+X」三层架构,三层分别指 L0 层的 5 个基础大模型、L1 层的 N 个行业通用大模型、以及 L2 层可以让用户自主训练的更多细化场景模型。其采用完全的分层解耦设计,企业用户可以基于自己的业务需要选择适合的大模型开发、升级或精调,从而适配千行百业多变的需求。
华为是国内最早布局大模型的云服务商之一,早在 2021 年就已经发布了盘古大模型。在发展大模型的道路上,华为从最底层构建了以鲲鹏和昇腾为基础的 AI 算力云平台,以及异构计算架构 CANN、全场景 AI 框架昇思 MindSpore,AI 开发生产线 ModelArts 等技术能力。
除了大模型和算力底座,会上,华为云还重点介绍了盘古大模型与具体行业结合的典型案例,涉及的行业包括政务、气象、铁路、制造、金融,以及多个升级、重塑华为云旗下软件产品和服务的应用案例。
不论是基础的技术能力,AI **+ 云的产品服务体系,还是落到具体行业的应用案例,华为云均展示出了高度成熟、成体系化的业务能力,这着实给行业带来惊喜。**在大家还在争论谁是中国的 OpenAI 时,华为云已经开辟出了一条相当成熟的大模型发展道路。
华为在用自己的实践证明,大模型很重要,但更重要的是用大模型解决行业和产品的痛点问题,做出能让企业和用户买单的产品和服务,为千行百业真正创造价值。
01 盘古大模型 3.0:分层解耦架构
解耦,是今天发布的盘古大模型 3.0 的关键词。这也是过去几个月来,实际调用大模型的行业客户一个普遍的诉求。
一位头部 SaaS 厂商在发布自己的大模型升级应用时表示,「我们不自研大模型,而是在不同的业务场景中,哪个大模型擅长什么事情,就接那个模型。」为了可以在不同的大模型之间切换,「我们自身产品架构上要做到与底层大模型无关,或者说松耦合。」
「盘古大模型的解耦设计,就是为行业着想」,在华为开发者大会上,华为常务董事、华为云 CEO 张平安给出了盘古大模型的差异化路线。其核心是把盘古大模型的的各种层和能力解耦,让行业用户根据自己的需求去开发。
「5」代表 L0 层的五个基础大模型:包括自然语言、视觉、多模态、预测、科学计算大模型,提供满足行业场景中的多种技能需求。
盘古 3.0 为客户提供 100 亿参数、380 亿参数、710 参数和 1000 亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。同时提供全新能力集,包括 NLP 大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力,这些技能都可以供客户和伙伴企业直接调用。无论多大参数规模的大模型,盘古提供一致的能力集。
「5+N+X」三层架构中的「N」,代表 L1 层的 N 个行业大模型。行业大模型的提供方式有两种:一方面,华为云可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等大模型;另一方面,可以基于行业客户的自有数据,在盘古大模型的 L0 和 L1 层上,为客户训练自己的专有大模型。
张平安表示:「盘古一出生就是为行业服务,提供了多种大模型的部署、开发和推理形态,可以像华为生成盘古大模型一样,生成自己的行业大模型,只需要输入自己的私有数据。」并且,训练数据也和大模型解耦。
「5+N+X」中的 X,则代表 L2 层为客户提供了更多细化场景的模型,更加专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景,为客户提供「开箱即用」的模型服务。
通过**「**5+N+X」的这三层大模型,华为云构建了自己的大模型底座。
在昨天的世界人工智能大会上,华为轮值董事长胡厚崑形象地阐述道:「最基层对标的是通用大模型,我们叫做基础大模型。这层我们形象的叫做读万卷书,就是要做好海量的基础知识的学习。这一层之上还打造了行业模型和场景模型,叫做行万里路。从读万卷书到行万里路还有很多的挑战要克服,很关键的一点就是要把各行各业的知识与大模型进行充分的匹配和融合,华为正在和各个行业的伙伴一起进行努力。」
**此外,大模型的创新不仅仅是模型自身的创新,更依赖于 AI 的各项根技术创新。**会上,华为诺亚方舟实验室主任姚骏介绍了盘古大模型的技术底座。
华为在最底层构建了以鲲鹏和昇腾为基础的 AI 算力云平台,以及异构计算架构 CANN、全场景 AI 框架昇思 MindSpore,AI 开发生产线 ModelArts 等,为大模型开发和运行提供分布式并行加速,算子和编译优化、集群级通信优化等关键能力。基于华为的 AI 根技术,大模型训练效能可以调优到业界主流 GPU 的 1.1 倍。
同时,这些框架中 90% 的算子,都可以通过华为端到端的迁移工具平滑迁移到昇腾平台。例如,美图仅用 30 天就将 70 个模型迁移到了昇腾,同时华为云和美图团队一起进行了 30 多个算子的优化以及流程的并行加速,AI 性能较原有方案提升了 30%。
此外,在大模型训练过程中经常会遇到 GPU 故障,研发人员不得不经常重启训练,时间长,代价大。昇腾 AI 云服务可以提供更长稳的 AI 算力服务,千卡训练 30 天长稳率达到 90%,断点恢复时长不超过 10 分钟。
02 赋能千行百业
任正非此前曾表示,「人工智能软件平台公司对人类社会的直接贡献可能不到 2%,98% 都是对工业社会、农业社会的促进。但是应用平台不是我们的选项,我们会做 AI 的底层算力平台。」
让大模型走进千行百业,已经成为华为发展大模型的工作重心。会上,华为云介绍了盘古大模型在政务、铁路、气象、金融等七个领域的应用案例。
政务
华为云介绍,盘古政务大模型的核心,是认知能力。让城市公共系统从看得见到看得懂,完成从感知,到认知、处置的闭环。并根据不同场景,提供问答、文案生成、视频感知、多模态理解等不同的能力。
铁路
传统列检员每天要检测数百万张列车图片,检测铁路网络运行的货车是否存在故障问题。引入盘古大模型后,可以精准识别现网运行的 67 种货车、430 多种故障,无故障图片筛除率高达 95%。换言之,列检员只需要检测过去 1/20 的列车图片,相当于提高了 20 倍的工作效率。
煤矿
在煤矿领域,盘古矿山大模型已经在全国 8 个矿井规模使用,一个大模型可以覆盖煤矿的采、掘、机、运、通、洗选等业务流程下的 1000 多个细分场景,让更多的煤矿工人能够在地面上作业,不仅能让煤矿工人的工作环境更加舒适,而且可以极大地减少安全事故。
气象
金融
在金融领域,盘古大模型与工商银行合作,打造了一系列探索性的应用。
其中一个典型的场景是提高银行柜员的工作效率。工行在全国有数万个网点,20 万网点柜员。他们需要在各种业务间切换,这会浪费大量的时间。
而这只是最初级的应用,华为正在与金融行业探索,未来将大模型运用到信贷分析等更多的金融场景。
制造业
华为本身也是一家制造企业,其生产制造的硬件产品,涉及通信基站、手机、汽车、芯片等多个领域。基于过去积累的经验,华为将盘古大模型引入到生产制造领域。
药物研发
在药物研发领域,原来一款新药研发平均需要 10 年时间、花费 10 亿美金。盘古药物分子大模型助力西安交通大学第一附属医院刘冰教授团队发现全球 40 年来首个新靶点、新类别的抗生素,并将先导药物研发周期缩短至 1 个月、研发成本降低 70%。
03 大模型融入华为云产品体系
除了在千行百业的落地实践,华为云盘古大模型也深度融入了华为云的产品服务,重构产品创新。
盘古大模型+华为云服务
盘古大模型加持下,华为云一系列 B 端产品服务被升级重构。会上,华为云介绍了资料服务、云客服、BI、云搜索四项服务升级的细节。
盘古大模型+CodeArts 代码工具
该工具训练了 760 亿行精选代码、1300 万篇技术文档,具备智能生成、智能问答、智能协同三大核心功能,可以实现一句对话让代码生成、一次点击即可自动注释和生成测试用例,一条指令即可智能部署,让每个软件开发者都有自己的编程助手。
盘古大模型+数字人
基于这两大服务,开发者可以快速生成和驱动数字人模型,赋能在线教育、文娱直播、企业会议等行业应用,让每个企业员工实现「数字人自由」。例如,用户只需在华为云 MetaStudio 的服务页面上传 20 秒的个人视频,就可以快速生成个性化的数字人讲解视频,过去 3 个研发人员 3 天完成的工作,现在只需要 3 分钟就可以完成。
盘古大模型+具身智能
会上,华为云还提到了盘古大模型在机器人领域的应用,并演示了一段视频。
华为介绍,上述演示并非概念视频,而是来自真实的产品,并在 HDC 大会期间在会场展出。
04 总结和思考:华为能成 AI 另一极吗?
张平安表示,「为了帮助全球客户、伙伴、开发者训练和使用大模型,我们致力于为全球客户打造世界 AI 另一极,为所有 AI 开发者提供新的选择」。
甚至更早之前,早在今年 3 月,任正非就曾在公司内部表达过相似的意思。他表示 AI 大模型上会风起云涌,不只是微软一家。任正非的理由,其实也是今天华为云努力的方向,即人工智能软件平台公司对人类社会的直接贡献可能不到 2%,98% 都是对工业社会、农业社会的促进。
比如在中国、德国的工厂,都在推进人工智能对工业的促进,从而实现无人化的生产;比如天津港口的码头,货物装卸也试了无人化,代码一输入,从船上自动把集装箱搬运过来,然后用汽车运走;比如山西的煤矿,在地下采用 5G+人工智能后,人员减少了 60-70%,大多数人在地面的控制室穿西装工作。
这些都是过去数年 AI 已经大规模运用到产业侧的实例,这些产业的共同点是有庞大的规模和产值,一点点效率的提升都能带来巨大的收益。
**而大模型的出现,实质上是提供了更加高效的生产力工具。**一方面,对于这些原本已经在拥抱 AI 的产业,意味着更高的效率和更快的改造进程;而效率更高,也意味着对更多行业来说,更容易算好「经济账」,AI 有潜力从变革所谓几大行业,变成改造千行百业。
这是华为为什么要坚决走进产业的原因,实际上阿里云、腾讯云、火山云和百度云等国内主要的云服务大厂,也是相近的思路。而方向一致、起点接近的情况下,在这场竞赛中谁能跑的最快,比拼的就是从算力、大模型底座、平台、产品到具体解决方案的全链条能力。
因为众所周知的原因,华为拿不到当下公认的全球最先进的计算芯片,看起来在这场竞赛中先天不足。但从今天的发布会来看,华为完全看不到受上游掣肘而落后于人,在大模型的关键链条上,都拿出了成熟的产品、案例,解耦化的盘古大模型架构更是让人眼前一亮。事实上,考虑到今天国产化的需求,在算力上不落后于人的华为,被卡脖子的劣势,很可能变成自主可控的优势。
大模型成为华为的新机遇,看起来正在成为现实。