格局巨变,中国AI接下来怎么打?战术千万条敢打第一条

胡说成理 2025-04-17 02:46:57

美国全面封杀英伟达向中国出口H20芯片的消息,再一次说明,把中国AI发展的希望寄希望于别人身上,是十分危险的。

本轮封杀的确令不少业内人士感到意外,一方面,H20芯片是一款一再阉割的芯片,性能本就不算强大;另一方面,是此前一度传出消息,认为英伟达已经做通了特朗普政府的工作。

特别是路透社在4月9日援引美国全国公共广播电台(NPR)的一篇报道。这篇报道的主题是“海湖庄园晚宴后,特朗普政府放弃打击英伟达AI芯片H20“。

很多人据此认为,海湖庄园的主人已经“答应”黄仁勋,给H20一条生路。

而现在官方消息已经证实,美国封杀H20的态度极为坚决,这恰恰证明了,AI是中美科技博弈的核心高地;也说明了,美国对中国日益发展和进步的AI产业极为忌惮。

AI是移动互联网之后,最具希望的一次人类数字技术的范式转换,可能彻底改变人类的发展方式。在此前的若干次范式转换中,中国的核心科技从未有如此的在某一领域如此逼近美国的领先地位。

如果要赶超,就一定要有战略思维——找到我们最擅长的战场。事实证明,中国人找到了解决AI发展算力的办法——这一切,在4月10日华为云发布CloudMatrix 384超节点的一刻,已经开始。

——导语

01非标式赶超

我非常欣赏华为公司副总裁、中国云业务部部长张修征在今年华为云生态大会上的一段话,他说:“很多事情并不会等到我们做好准备再发生。在大机会也是大挑战面前,我有一句话就是——战术千万条,敢打第一条。华为云就是要打造中国最坚实的算力底座,为世界提供第二选择。”

当然,张修征如此有信心的站在台上说这番话,总有他的凭持。说得再具体一点,他的底气来自于刚发布的华为云CloudMatrix 384超节点——这可能是目前世界上性能最强的商用超节点。

此前,你可能不知道CloudMatrix 384超节点是什么,但你或许对英伟达的GB200 NVL72有一定的认知,这是一套是专为大规模AI和高性能计算(HPC)设计的革命性系统。

而你没听错的是:CloudMatrix 384的性能力压GB200 NVL72——没错,我们的确用了更多的芯片才换来更强的性能,准确的说就是384张卡。

但这种更强性能的优势的体现,绝不是堆芯片这么简单,而是华为云围绕建立超级强大的单体云服务器(也就是我们所说的超节点)这个目标,需要拉升方方面面的技术……从算力架构、超级带宽、智能调度、先进存储等等。

就像当年美国NASA研究航天飞机,有人说,一架航天飞机拉动了相关民用技术二十年的跨越。

但是,具体的细节我们稍后讲,我们先来聊点更宏观的东西。

科学界认识到GPU更适合于高度并行化的科学计算,是一个至少有20年或更久的话题。但直到需要千卡、万卡集群的AI特别是大模型的训练、推理需求爆发后,人们才发现在搭建此类集群上的需要的工程化能力是一个技术黑洞。

一直以来,搭建此类大集群一直是传统互联网巨头、软件巨头在自家地盘上的操作。应该说,从需求催生产品的角度说,这很合逻辑。但另一个问题是,这些巨头往往不是搞高性能计算和超算集群起家的,这使得这些企业自建的万卡大集群往往非常脆弱,持续运行时间甚至只能持续十几分钟到几个小时,能持续运转一两天已经非常惊人了。

另外,传统的服务器集群在架构也有许多天生不足,例如,受限于单卡或多卡间的通信带宽(如PCIe或早期NVLink),难以处理某些超大规模任务;另外,它们在体系架构、硬件、通讯、存力甚至散热、节能等方面的底层能力,也是相对薄弱的。

但是毕竟这些大厂有大把的工程师,所以能自己消化困难;但有这样多工程师的大厂有几个呢?特别是在大型政企、国企,以及绝大多数的大中型、中小型,很难玩转大模型所需的集群。

在这种背景下,由底层硬件也就是GPU或AI计算芯片的研发者,基于对底层技术的深入理解来开发一种高度集成、开箱可用,同时在稳定性、效率、易用性、总体拥有成本等方面具有明显优势的集中式的、高扩展性的节点级硬件系统,也就非常自然。

NVL 72就是这样的一种产品,但华为的CloudMatrix 384超节点则是对NVL 72的一种非对标式的赶超。

写到这里,我突然想到了我读过很多遍的《硅谷之火》——现在的AI赛道特别是在硬件赛道,很像上世纪70年代的那个充满活力的美国硅谷——大家都知道个人电脑是未来的方向,但绝大多数真正玩电脑的往往是工程师和程序员,而市面上存在数以百计的操作系统、软件和各种不同的“机型”,呈现出路径不固化、竞争很激烈、优秀创意层出不穷的局面。

然而,总有人来一统天下,所以IBM出现了,它统一了个人计算机的标准,使得PC变成一种标品……硬件上百花齐放的局面结束了,PC成为主流产品——它的真正意义在于,极大的降低了整个软件行业、硬件行业无序发展的局面,使人们能够基于某些通用标准进行创新,最终极大降低了重复造轮子的成本……至于最后的赢家,未必是IBM,但这并不重要。

我认为,随着DeepSeek和未来无数个类似DeepSeek这样的企业带来的跳跃式创新,AI应用将加速降临在我们的生活中。而AI对基础设施的渴求将难以想象。这种背景下,最有效率的建设中国算力基础设施的办法,就是用超节点这样的产品,来统一人们对超级单体智算服务器的标准。

这种“统一标准”,并不是说要用华为的标准来取代行业标准。而是行业对此类新生的“超级装置”尚没有标准,而华为384上的大部分特征都代表了这一领域的领先水平,所以它可以作为某种客观参照物,去照见行业发展的路径。

当然,如果我们更理性一点,谈到这个超级装置存在的核心意义,我认为至少有三个点要引起高度的重视:

首先,它的出现肯定了高度集成化的“超节点”存在的意义,那就是突破传统服务器架构/集群的性能和扩展性瓶颈,为万亿级甚至更高参数级的AI模型训练与推理提供全栈优化的支持,并以一个非常高完成度、集中度的产品形态来提供。每台这类装置都是中国算力长城上的一块“标准砖”。

更重要的是,CloudMatrix 384超节点,从底层硬件开始向上基本都是全面自主研发的,这意味着在未来的极限施压和技术封锁出现时,中国AI产业可以得到不受限的、持续的优质算力供给;

虽然在单卡算力上我们距离世界顶尖水平仍有差距,而CloudMatrix 384超节点通过集成更多的芯片,实现了同类设备上整体性能的赶超。

02CloudMatrix 384超节点的优势在哪里?

CloudMatrix 384超节点已在华为云的芜湖数据中心规模上线,成为国内唯一正式商用的大规模超节点集群。当我走进机房,看到CloudMatrix 384超节点的真身的时候,它的紧凑设计、出色外形所展现出的一种硬件科学的美感,在视觉上就有强大的冲击力。

事实上,自从在2018年10月的华为全联接大会上,昇腾310芯片与世人见面,同时基于昇腾310的华为云服务也正式上线,一轮加速跑就此开始了——在这个过程中,2019年,昇腾910正式发布,并在9月份发布了计算战略及Atlas900;2021年,华为发布了盘古大模型1.0;2023年9月,华为公司正式宣布全面智能化战略;而2024年6月,正式发布了盘古大模型5.0……某种程度上,今天我见到的一切,是华为云在AI技术上每一步都踩对技术节点后的集大成之作。

而CloudMatrix 384的发布,则意味着华为云开始从提供智能算力,走向了提供“先进智能算力”的升维之路。

从此,超节点将是华为AI宇宙中的基本粒子,这并非炫技,而是一种高度理性的判断。

如张修征所言——在单个芯片上,可能我们还会受制于不够先进的半导体制程带来的性能上限问题,故此更需要有整体战的思维。在算力、运力、存力到电力这四个要素上,动态运用我们的优势,使我们从算力单维的竞争跳到四维多要素的竞争,“以升维的方式和业界的竞争对手及美国算力竞争”。

当然,这是一种宏观思维,但当它具体落到CloudMatrix 384超节点上时,就需要有具象的技术优势。

令人印象深刻的首先是384的算力密度,简单说,它将传统各自为战的单节点8卡昇腾服务器,通过新型高速总线实现多台、多卡的紧耦合互联,打造成一个物理意义上的单一超级云服务器。具体来说,这种整合实现了算力规模的50倍提升,可支持更大参数模型统一训练。

但读者千万不要理解为这是简单的大力出奇迹,因为多卡、多台的紧耦合,虽然带来了算力提升,但也带来了许多的技术难点。

简单说就是,“大力”如果是通过“增肌”的方式来实现,那你就需要一个钢浇铁铸的“肉身”来承载这种大力,否则自身就会被压垮。

架构设计则将是决定性的因素,而华为云目前是业界唯一采用对等架构超节点技术提供算力服务的云厂商,384也是在对等架构(或称“对称架构”)设计思想下产生的超级云服务器。

对等架构,简言之,就是所有处理器在硬件和软件层面上都是等价的。这意味着每个处理器都可以访问相同的内存空间,并且具有相同的权限和能力来执行任务。

在华为云,这种设计思想落实为了一个短语“一切可池化”。你可以理解为,这种池化的本质,就是让CPU、NPU、GPU、高速内存等多样资源统一抽象,然后被放进一个资源池里。再基于精妙的调动,可以容纳更多的资源单元的池化融入,这是算力倍增的一个重要前提。

然而,“一切皆对等”并不容易实现,其中最大的问题就是一致性的问题——所有的资源从理论上是一体的,但实际却受制于带宽和调度因素,很难保持高度的一致性。

打个比方,某个城市因为交通运力不足而出现了乘车难,于是增加了50倍的车辆投入运营。然而,如果不同时拓阔城市道路、升级交通调度系统和交管能力,带来的首先将不是出行体验的提升,而是拥堵的出现甚至城市交通的崩溃。

当然,至关重要的首先是拓宽道路和提升通行速度,这方面,华为的技术显然是世界级的——通过超高带宽Scale-Up新型高速总线网络,实现了从“传统以太网”向“共享总线网络”演进,将资源互联带宽提升了10倍以上。

当然,一味提高路的宽度的边际成本会非常高。故此,华为还引入了很多黑科技,它们类似于智能化的交通设施,通过每一个细节的优化,提升了整体的性能。

例如,目前GPU上堆砌HBM内存已经到了“丧心病狂”的程度,而大家都知道的是,HBM作为一种超低延迟的介质非常昂贵。为此,华为超节点中则应用了EMS内存存储服务,通过“内存补显存”,使得相同大模型训练算力消耗降低50%。

还有,超节点还融合了华为的存储黑科技,大模型训练的两个典型的“吃存储”性能的环节——分别是天量的数据加载和中途建立恢复点(check point)及断点恢复。华为存储提供的SFS Turbo存储分级,使得训练数据加载速度提升20倍。秒级故障监控和自动恢复可以在10分钟内恢复训练作业,而业界平均水平为60分钟。

以上种种,无论是超高速总线、超高速内度以及超高速存储,不仅可以使AI训练错误概率更小,断点恢复(checkpoint)更快,而且在一定程度更接近于“存算一体化”这个长期目标,而这是当下AI领域乃至超算领域都在研究的热门课题,华为则默默的将之融入了超节点中。

更可贵的是,超节点以及对等超节点网络不仅能够扛下最艰巨、最庞大的运算需求,也可以展现出”大象跳舞”式的高弹性,这就是“一切可组合”——具体来说,这是指通过“瑶光智慧云脑”,提供NPU、GPU、CPU、内存等资源按需组合,让用户需求智能的去匹配最优的算力组合,无论是百亿参数模型需要的灵活资源,还是万亿级模型训练所需的庞大资源,超节点都可以高弹性的实现。用一个华为的比喻就是,算力是“可以切片”的。

必须记住的一个指标是——40天,这是华为基于超节点组成的集群在万亿级参数模型训练中能够持续运转、不中断的时间,相对来说,很多企业自用的集群在调试早期,经常运行几分钟、十几分钟就会中断,而即使经过多次迭代,平均可持续水平也不超过3天。其韧性和稳定性,是业界标准的十几倍乃至几十倍。

华为云还宣布CloudMatrix 384超节点集群正式上线昇腾AI云服务,提供超大规模、性能卓越、稳定可靠的AI算力集群,以满足复杂大模型训练、推理需求。这也就是说通过昇腾AI云服务,所有企业都能用上这一集大成的AI算力基础设施。

业界反应也很迅速,大会现场,硅基流动即宣布率先上线CloudMatrix 384超节点昇腾AI云服务,实测显示在保证单用户20 TPS水平前提下,单卡Decode吞吐突破1920 Tokens/s,可比肩H100部署性能。

值得一提的是,除了算力底座的升级,昇腾AI云服务还在资源调度、推理服务和集群可靠方面实现升级。

容器级Serverless资源调度,实现高并发应用场景时,系统能够依据实时的AI业务任务负载,动态地调整算力资源分配,算力资源利用率平均提升50%;全新升级分布式弹性推理服务,深度融合资源调度优化、弹性推理机制及智能路由等技术,MoE+CoT模型推理有效吞吐提升50%;昇腾云脑-全栈故障诊断模型,实现万卡集群故障分钟级感知、定界与恢复。在实际的模型训练环境中,通过昇腾云脑实现单集群日均硬件故障次数由2.5次降至至0.15次,提升客户集群训练的可用度。

华为云昇腾AI云服务特别是超节点的优势,很难用一篇文章覆盖。但总而言之,基于自主创新的AI底层硬件,为大模型的训练,推理,AI 应用的开发、运行了提供稳定可靠的全栈算力保障。

同时,我也相信,中国先进智算能力的市场绝不会只有华为一个玩家,但华为超节点的发布,对提升整个行业的技术水平和竞争强度都有深远的意义,其技术亮点也势必被产业链的其它玩家所学习、吸收、应用,从而带来中国智算能力的整体进步,这才是华为云的技术进步,超乎于服务其自身商业运营之外的更大社会意义。

03运用之妙 存乎一心

在AI发展中,超节点和先进智算云服务是锋利无匹的利器,但如何发挥最大价值,需要与用户的长期沟通。

可以肯定的是,一些AI赛道头部的超级大厂仍会坚持自研、自建大集群,一方面这涉及到保护此前的投资,另一方面也有很多具体的业务考量,但这样的企业一只手就可以数得过来。

对于更普遍的用户而言,用云的方式获取AI算力,性价比远远大于自建智算中心,这毋庸置疑。

而随着超节点的快速普及,这种优势将是压倒式的——因为自建模式不仅建设成本高、费时费力,还要面对技术复杂、保障困难、芯片更新换代等等问题,这些成本将吃掉用户大量的经费,但更重要的是浪费了时间,而时间在竞争中是无价之宝。

当然,用户也可能自建超节点,华为云的CloudMatrix 384也不是非卖品,但此类超节点运维难度很高。尤其因为其架构复杂,涉及到的运维工具更多,也需要更多元化的运维人员的参与。反之,华为云自己运维自家的超节点,会达到一个普通用户无法想象的稳定程度,让超节点长期、稳定的智能运维,能更好地帮助客户解决问题。

此外,我们曾经提到过对等架构,这种架构并不只是运用于单一的云服务器上,而是贯穿在整个华为云的智算云服务中——基于超节点的普及,数以百万的服务器将实现更高层面的对等架构。这样的最终目的就是,用户始终可以基于一个单一的界面和框架,来简便易行的架构自己所需要的训练、推理、应用开发、计算机仿真等。而完全不用考虑其背后的物理架构是如何运行的,这使得用户能够把更多的精力集中于研发创新本身,而非保障自身算力系统不轻易崩溃。

当然,如果你把华为云当作一个仅仅提供优质算力的平台,那就会极大窄化对华为AI能力的认知。事实上,作为一个全栈AI服务平台,华为云在框架、工具、生态上都可圈可点。

仅就此次令人印象深刻的一些重磅产品来说,KooSearch作为一款即开即用的RAG(检索增强生成)解决方案,去年在业界向量数据库检索精准度ANN benchmark中拔得头筹。它的向量搜索性能卓越,还支持多模态检索,实现图文并茂的交互,是有效帮助AI跳出“幻觉”的强有力工具。

大模型的安全隐患很多,华为云的办法则是“用魔法打败魔法”——通过安全大模型守护大模型的安全。张修征表示,华为云在业界率先推出了端到端大模型安全方案,构筑了一个中心、七层防线的“AI+全栈式云原生安全体系”,实现AI推理安全、保障训练语料安全、守护AI 环境安全。

04应用落地 成果批量化产出

如果说DeepSeek带来了一轮AI普及风暴,极大的催生了全社会对AI应用开发的积极性。那么,华为云则已经远远超出了许多AI厂商还在开发单点式、示范性的AI应用的阶段,在应用开发上已经展示了自己的“流水线”级的应用开发赋能体系,并充分的向用户开放。

盘古大模型坚定向B端赋能,打造行业解决方案,而软件开发生产线CodeArts,则是AI+赋能的颠覆之作。

很多人都认为用AI写代码是软件工程人员提高个体劳动输出的利器,但事实上,真正的软件开发流程非常之长,覆盖需求与设计、开发、测试、部署、运维等软件交付全生命周期环节,我们说的写代码只是其中“开发”这一个环节。

华为云软件开发生产线CodeArts的核心能力,源于华为30年研发实践积累,是一个典型的华为“能力外溢”的项目。

大名鼎鼎的德邦快递,省市区覆盖率达到99%,但在规模化背后,数字化能力建设的短板仍然存在,“怎么建设数字化”成为了其所关切的问题。

德邦快递此前使用的系统,由第三方公司基于开源组件开发,历史遗留问题颇多。加之整体维护成本较高,存在安全隐患及不稳定威胁等,在软件生产线高可用、备份等方面能力都不够完善。

而通过与华为云CodeArts的合作,实现了在效率、质量、安全、组织认知四个方面,全面赋能德邦快递快速实现数字化转型。

例如,针对德邦快递跨团队管理、可视化的全景规划、多维度的度量统计等需求,CodeArts可谓是从无到有,提供了精细化的用户管理方案,不仅能快速复用,还有15+维度测试指标度量,支撑企业全方位决策;同时,优化了测试设计,提升测试流程线上化程度,实现需求、用例、缺陷、报告整体可追溯,在代码开发阶段对代码质量和安全问题进行自动化检查,实现研发效率提升30%。

而德邦获得的不仅仅是流程的自动化,还有组织认知和运作层面的提升,通过敏捷的需求管理,专业标准的敏捷Scrum项目协作和看板流程,支持多项目组合管理,从会用到用好,从根本上改变了这家企业对数字化的看法,从基因上融入了AI原生的价值观。

DeepSeek兴起后,一种新的观点是,“将来换模型会像衣服换季一样高频”。这句话起初只是针对C端而言,但华为云察觉到了用户对多模型协同、比较、探索的需求,在CodeArts开始支持客户自定义接入DeepSeek等多种业界SOTA模型,开发者可在业务操作中灵活切换,用最适合的模型高效解决研发问题。

甚至,华为云还持续外溢自身的智能化研发实践,把公司内部智能化研发的最佳实践和特性能力通过CodeArts共享出去,使得用户可以分享业界SOTA模型的场景化调优经验和黄金语料。

数字人是数字内容领域的亮点,但在实践中,不同企业开发的数字人能力相差极大,而华为云则将之打包成了一条“智能交互数字人”的生产线。

具体来说,是将数字人的能力解耦成几个主要的技术栈——从视觉角度,基于盘古数字人大模型、音频大模型及昇腾AI芯片,实现口型匹配度>95%、表情自然度提升40%,动作驱动时延低至1.5秒;从多模态交互角度,可以支持语音驱动、文本驱动、视觉驱动及动捕设备混合控制。

更重要的,是“智能”属性的提升。

这其中的关键,是通过DeepSeek大模型增强语义理解能力,而针对DeepSeek比较突出的幻觉问题,则通过支持检索增强生成(RAG)与企业知识库对接,使得问答准确率提升至92%。

看上去,这是DeepSeek的“功劳”,但在我看来,其核心价值在于华为云对“智能”的深入理解和充分应用,也就是将传统数字人的“单向应答”升级为“主动认知+场景驱动”的智能服务,这种思维力的升维才是真正的宝贵财富。

结语

中美之间最大的竞争之一,是AI的创新策源地之争,这是一次全方面的pk。

前面说过,目前来讲,中国虽然紧随美国之后,但主要的基础理论和基础工具,还是基于美国等国家此前的基础研发。

而华为超节点的发布,其实只是其AI产业链中突出的一环,虽然这一环本身的份量并不轻,已经意味着我们有可能在自主、自研的基础设施层面实现智算能力的后发但至。

如果说DeepSeek的爆火,是继AI战胜人类棋手、大模型横空出世之后,AI又向真实世界应用迈出的关键一步,那么其背后隐藏的是对算力特别是先进算力的极度渴求。

DeepSeek的出现并没有让规模法则失效(规模法则:通过增加参数规模如从千亿到万亿级,和训练数据量提升性能),有科学家认为,目前的大模型和算力需求在1000倍以内还将遵循这一法则。

黄仁勋也提到过,推理模型需要更多的计算,因为模型更复杂。R1的尺寸是6800亿个参数,它的下一代版本可能有数万亿个参数。Agentic AI应用是无数次调用类似DeepSeek-R1做推理的过程,需要的计算只会更多。

从这个角度来看,超节点的出现,既是算力领域的好消息,是孵化AI产业的“黑土地”,但“作物”要茁壮成长,还需要方方面面的努力,由此我们也看到,华为云主动外溢了大量自己的AI领域Know-how,为的就是搞好发展AI应用生态的土壤和生态环境,以及配套的整个工具链。

如果说阿里通过通义的开源极大增加了自身的渗透率,那百度就在超前十年的时间优势上试图厚积薄发,豆包则凭借极为厚实的C端生态建立应用规模......那么,华为云就主打的是一个全产业链的全家桶式的闭环,而且坚定不碰应用、不做C端,最典型的就是盘古大模型,此次华为云生态大会更重申坚定To B战略,坚定深耕行业……它们都代表或部分代表了中国AI发展的一面,也都是中国AI兴旺发达的重要表征。

“自古知兵非好战”,中国的AI产业不畏惧真正的全球竞争,不仅仅是因为我们有道义上的优势,还因为中国有华为、华为云这样的企业和业务群体,它们用十几年的时间默默的在很多方面储备了能力——最终的华为AI生态能力,是这种高压强创新一以贯之的追求底层技术创新结果,而并不是为了一场战斗发明了什么具体武器

0 阅读:124

胡说成理

简介:关于智能时代和智能时代的生意逻辑的小天地。