又赢了？国际权威机构报告称：华为算力已超过英伟达！

不是哥们，你来真的啊？短短几年你就超过我了？！

最近，一则重磅消息在科技圈炸开了锅：

国际知名半导体研究和咨询机构 SemiAnalysis 发布专题报告称，华为云最新推出的 AI 算力集群解决方案 CloudMatrix 384（以下简称 CM384）在多项关键指标上超越了英伟达的旗舰产品 GB200 NVL72。

总之一句话：华为算力已超过英伟达！

不过得说清楚，华为是靠堆数量+系统架构创新才实现反超的，简单说就是“单挑打不过，群架能赢”。

华为Ascend910c Cloud Matrix384对比英伟达GB200 NVL72 芯片和封装级不过很多人都在疑惑：英伟达在 AI 领域的地位这么稳固，华为到底凭什么能反超？不会又是炒作吧？

来具体看看是怎么回事。

1.首先从硬件配置上来看

华为的CM384 是基于 384 颗昇腾芯片构建的，采用了全互连拓扑架构，这使得芯片之间能高效协同工作。而英伟达 GB200 NVL72 系统呢，最大支持 72 卡集群，相比之下，CM384 的规模优势就非常明显了。

2.在算力方面

CM384 可提供高达 300 PFLOPs 的密集 BF16 算力，这个数值接近英伟达 GB200 NVL72 系统的两倍。不过，这里要说明一下，单颗昇腾芯片性能约为英伟达 Blackwell 架构 GPU 的三分之一。这就好比是单个“小工”干活的速度比不上“大工”，但华为通过巧妙的规模化系统设计，让大量“小工”协同合作，从而实现了整体算力的显著提升，这就是所谓的“人多力量大”效应。

3.再就是内存方面

CM384 的总内存容量超出英伟达方案 3.6 倍，内存带宽也达到 2.1 倍。内存容量大，就好比仓库空间大，能存放更多的货物（也就是数据），方便随时调用；内存带宽高，则意味着数据传输的通道更宽，数据能更快地进出，这样一来，整个系统在处理大规模 AI 训练和推理任务时，效率自然就更高了。