不是哥们,你来真的啊?短短几年你就超过我了?!
国际知名半导体研究和咨询机构 SemiAnalysis 发布专题报告称,华为云最新推出的 AI 算力集群解决方案 CloudMatrix 384(以下简称 CM384)在多项关键指标上超越了英伟达的旗舰产品 GB200 NVL72。
总之一句话:华为算力已超过英伟达!
不过得说清楚,华为是靠堆数量+系统架构创新才实现反超的,简单说就是“单挑打不过,群架能赢”。
来具体看看是怎么回事。
1.首先从硬件配置上来看
华为的CM384 是基于 384 颗昇腾芯片构建的,采用了全互连拓扑架构,这使得芯片之间能高效协同工作。而英伟达 GB200 NVL72 系统呢,最大支持 72 卡集群,相比之下,CM384 的规模优势就非常明显了。
2.在算力方面
CM384 可提供高达 300 PFLOPs 的密集 BF16 算力,这个数值接近英伟达 GB200 NVL72 系统的两倍。不过,这里要说明一下,单颗昇腾芯片性能约为英伟达 Blackwell 架构 GPU 的三分之一。这就好比是单个“小工”干活的速度比不上“大工”,但华为通过巧妙的规模化系统设计,让大量“小工”协同合作,从而实现了整体算力的显著提升,这就是所谓的“人多力量大”效应。
3.再就是内存方面
CM384 的总内存容量超出英伟达方案 3.6 倍,内存带宽也达到 2.1 倍。内存容量大,就好比仓库空间大,能存放更多的货物(也就是数据),方便随时调用;内存带宽高,则意味着数据传输的通道更宽,数据能更快地进出,这样一来,整个系统在处理大规模 AI 训练和推理任务时,效率自然就更高了。
因为华为在设计上已经实现了网络架构(“超节点”架构)、光学互联和软件优化等多方面的创新,这才让 CM384 能够充分发挥集群算力,在超大规模模型训练和实时推理等场景中展现出其绝对强大的竞争力。
传统AI服务器如同单兵作战的散兵游勇,每个8卡服务器都是独立作战单元。而华为通过新型高速总线将384颗芯片紧密耦合,形成跨16个机架的“集团军”,实现算力资源的统一调度。
不得不说,这一招确实高明!
根据披露的数据信息来看,目前CM384系统功耗高达559千瓦,是英伟达方案的3.9倍。
有业内人士调侃:“这相当于用三峡电站3天的发电量才能训练出类似GPT-5的模型。”
但中国不缺电力资源,缺的是如何在现有工艺条件下持续满足算力需求。
这种“以空间换性能”的策略,恰恰契合中国的特殊国情。当西方国家还在为淘汰煤电争吵不休时,中国每年新增的清洁能源装机可能就相当于整个英国的电力系统了,有这个底气就已经够了!
一方面,它打破了国外在高端 AI 算力领域的长期垄断,给国内相关产业注入了一剂强心针。以前,我们在这一领域总是被“卡脖子”,以至于差点都要形成离谱的受虐倾向了,这次华为的突破,总算是让我们看到了国产 AI 算力崛起的希望,也能让国内企业在 AI 应用开发等方面拥有更多自主权,不再受制于人!
另一方面,CM384 的成功也将推动整个 AI 行业的发展,就像deepseek横空出世时候的那样。随着其在市场上的应用推广,有望为更多企业、国家甚至是穷国提供高效、强大的算力支持,从而加速 AI 技术在医疗、教育、交通、金融等众多领域的落地应用,让 AI 更好地服务社会,改变人们的生活。
换句话说,有了华为这个“搅局者”,英伟达或许还能更卖力地加快研发的脚步,又或者,把他那该死的显卡降到白菜价!
----