在昨天开源 FlashMLA 后,DeepSeek 开源周又打响了第二枪:从数十亿到数万亿参数,用 DeepEP 突破高效通信的瓶颈。这是首个用于 MoE 模型训练和推理的 EP 通信库。
“春运”般的 AI 算力,用 DeepEP 书写交通规则
在传统分布式训练中,GPU集群常陷入“算力空转”的困境:当A卡完成计算时,B卡还在等待数据传输。就像高峰期的地铁换乘站,再强的算力也会被人流堵塞消解。
而 DeepEP 有以下亮点:
高效和优化的多对多通信
节点/跨节点都支持NVLink和RDMA
用于训练和推理预填充的高吞吐量内核
用于推理解码的低延迟内核
原生支持FP8调度
灵活GPU资源控制,实现计算与通信的高效重叠
DeepEP的突破在于重构了数据流的“交通规则”:通过 FP8 智能压缩技术,将原本需要 10 车道的数据货车瘦身为 8 车道,配合预填充机制提前规划传输路线。实测显示,在千卡集群中,这种“错峰出行+绿色通道”的组合拳,能让通信等待时间再度下降。 全网好评:每天都像 100 年 截止 14 时,Github 上的 Star 已经有 2.7k,还在不断增长。



