Llama4开源：参数减半，性能比肩，H100可跑

深夜，Meta如期发布了全新的开源大型模型系列——Llama 4，并未出现任何“跳票”传闻中的推迟情况！

此次发布也标志着Meta与近来崛起的开源新王 DeepSeek 正面硬刚。Meta官推更是表示：表示：“今天开启了原生多模态AI创新的新时代”。

Llama 4共有三款模型，Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。全部具备多模态处理能力，能够原生支持文本、图像和视频等多种输入形式。

Llama 4 系列包含三款定位各异的模型，覆盖从单机部署到超大规模推理的不同需求：

Llama 4 Scout：小型高性能模型，约17B的活跃参数，背后由16个专家模型组成，总参数量109B。Scout原生支持多模态，拥有业界领先的1000万Token上下文窗口，相当于可一次处理约15,000页文档的内容。如此惊人的上下文长度使其特别擅长长文档摘要、大型代码库分析等任务。值得一提的是，Scout能够在单张NVIDIA H100 GPU上运行（经INT4量化），部署非常方便，这体现了Meta对模型易用性的重视。Llama 4 Maverick：中等规模的旗舰多模态模型，17B活跃参数由128个专家模型提供支持，总参数规模达400B。Maverick面向通用对话和推理任务，被Meta称为“同级别中全球最好的多模态模型”，在多个基准上超越了OpenAI的GPT-4o和Google的Gemini 2.0等对标模型。与新发布的 DeepSeek v3.1（45.8B活跃参数）相比，Maverick以不到一半的活跃参数量达到相当的推理与编码性能。它支持100万Token上下文（约1,500页文本），在代码生成、复杂问答等领域表现优异。据Meta介绍，Maverick可以在单台配备8卡H100的DGX服务器上完成推理。Llama 4 Behemoth：真正的“巨兽”级模型，拥有288B活跃参数，16个专家模型，总参数量接近2万亿。Behemoth是Meta迄今训练的最强大模型，被视作新一代模型的“教师”或奠基模型。根据Meta内部测试，Behemoth在许多科学、数学基准上表现超群，性能碾压同类AI产品。例如，它在MATH-500数学竞赛数据集上的得分高达95.0，在复杂问答基准GPQA上也远超竞争对手。

不过，由于训练难度极高，Llama 4 Behemoth目前仍在训练过程中，尚未正式开放下载。而Scout和Maverick两款模型则已经开放下载，可通过官方提供的Llama.com网站或Hugging Face获取。

业界对Llama 4给予了高度评价，英伟达高级研究经理 Jim Fan 指出，“对于开源模型而言，易于部署正变得比一味追求模型规模更重要”。

Llama 4 ：Meta 首批MoE架构模型

与前代模型不同，Llama 4 系列在架构上进行了彻底的重新设计。三款模型全部采用了当前炙手可热的Mixture of Experts（MoE，专家混合）架构，成为Meta首批大规模MoE模型。MoE的核心思想是将许多子模型（“专家”）集成到一个统一架构中，由一个路由（Router）网络在每次处理请求时动态选择少数几个相关“专家”参与推理，从而避免每次都动用模型的全部参数。

这种稀疏激活机制带来了巨大的效率优势。正如Meta在博客中解释的那样，Llama 4模型的所有参数虽然都常驻内存，但实际推理时每个token只需激活一小部分参数。例如，拥有400B总参数的Llama 4 Maverick，每次推理仅需调用其中约17B的活跃参数（128个专家中每次只用到少数几个）据Meta估算，Maverick的推理开销约为每百万Token 0.19~0.49美元，而同等能力的封闭模型GPT-4o大约需要4.38美元——前者性价比高出一个数量级。在这样的优化下，Maverick甚至可在单机（8卡）H100服务器上运行完成推理，通过分布式推理则能进一步提升吞吐。

小型的Scout更是能在单卡H100上跑通，极大降低了应用门槛。可以说，MoE架构使Llama 4系列在保障性能的同时，将推理效率推向了新高度。

Meta首个原生多模态的大模型系列

除了架构上的MoE革新，Llama 4还是Meta首个原生多模态的大模型系列。与上一代纯文本的Llama 3不同，Llama 4 从训练之初就融合了文本、图像、视频三种模态的数据。

Meta并未简单地在模型后期“拼接”视觉模块，而是采用了早期融合（Early Fusion）策略，将图像像素、视频帧等信息编码为特征向量后，与文本Token一同输入统一的Transformer-MoE架构中联合训练。据透露，Llama 4 在预训练时一次可输入多达48张图像或视频帧与文本混合，使模型学会在多模态信息之间建立联系。在实际能力上，Llama 4 可以同时处理多张图片并理解其中的语义关联。

例如，对于给定的一组图片加上文本提示，它能够输出语义一致的回答，甚至解释一张搞笑图片“有趣在哪儿”，或推理多幅图表的下一步演变。

需要指出的是，Llama 4 当前尚未涉及音频/语音模态，这可能是未来版本的拓展方向。

综合来看，原生多模态+MoE是Llama 4架构的两大亮点。一方面，MoE大幅提升了模型的推理效率和可扩展性，让超长上下文和超大参数成为可能；另一方面，原生多模态训练赋予模型同时理解图文视频的能力，使其在视觉问答、多模态推理等任务上具有天然优势。正因如此，Meta在官方博客中将Llama 4誉为“全新的原生多模态AI创新时代的开端”。

超低价API，Meta也要拼性价比了

Meta官方写道，Llama 4 Maverick 超越了同类模型，为开发者提供了无与伦比的性能与价值。

从图上看Llama 4 Maverick提供了比AI界拼多多DeepSeek更有吸引力的价格。

成本的降低与Llama 4的升级的训练策略密不可分。

Llama 4是如何炼成的？

在训练策略上，Meta为Llama 4系列量身定制了一套全新方案，以充分发掘模型潜力并控制巨大的训练成本。

首先，Meta在监督微调（SFT）数据上进行了大幅“瘦身”。他们剔除了50%以上的简单提示，只保留相对困难、有挑战性的指令和问题进行微调。这是因为对于像Behemoth这样超强的模型而言，过于简单的样本已无法提供有效学习价值，反而可能让模型养成敷衍应付的习惯。据悉，Meta采用了一种“自我批判”式的数据筛选方法：利用模型早期训练的checkpoint充当“批评家”，自动评估标注数据中哪些样本太过简单冗余，并将它们过滤掉。这一过程相当于让模型“自己批改作业”，确保留在训练环节中的都是能推动模型进步的高质量数据。

其次，在微调之后的强化学习阶段，Meta引入渐进式强化学习循环来提高模型性能。具体而言，他们逐步提升训练过程中提示的复杂度和多样性，模拟从易到难的“课程学习（curriculum learning）”过程。一开始模型接受相对简单的强化学习任务，随着能力提高，再逐步增加任务难度，如此循环往复。这种多阶段的训练避免了一次性给模型过大压力，又能不断挑战模型的上限，让Llama 4在推理、编码等复杂任务上获得显著提升。

另一个重大创新是Meta自研的MetaP技术。这是一种全新的超参数智能调节方法，旨在让不同规模的模型在训练时保持行为一致。简单来说，MetaP可以将小模型上调试出的优化超参数（如分层学习率等）推广应用到大模型上，使得后者无需从零开始反复试错。

这一突破大幅提高了训练效率——研究人员只需在较小的模型上尝试找到理想的配置，然后直接在庞大的Behemoth上采用类似策略即可。据业内专家评价：“这能省下大量时间和资金——不必在大模型上反复试错”。在Llama 4 Behemoth的训练中，MetaP发挥了关键作用：由于Behemoth规模空前（采用FP8精度，调用多达32,000颗GPU，训练了超过30万亿个token），通过MetaP的指导，Meta团队才能在有限的试验预算内成功完成训练。不仅如此，MetaP还帮助不同模态的token在训练中达到更好的均衡，使多模态融合更加顺畅。

写在最后

Llama 4的按时发布和卓越表现，不仅是Meta自身的重要里程碑，也为整个AI行业的发展方向提供了启示。展望未来，我们不禁要问：下一代的GPT-5、DeepSeek R2等重量级模型，是否还会坚持“Reasoning First（推理优先）”的技术路线？亦或是在推理能力与模型规模之间寻求新的平衡？

从当前动向看，“大而通用”与“深度思考”这两条路线或将逐渐融合。OpenAI方面，尽管GPT-4已经展现出强大的通用能力，但在明确的链式推理上仍有提升空间，可以预期GPT-5将进一步强化模型的内在逻辑推理与工具使用能力，以应对越来越复杂的任务需求。而DeepSeek作为开源阵营的异军突起，其R1模型证明了小模型通过自我进化也能掌握复杂推理，这一理念很可能会延续到DeepSeek R2，并通过与大模型DeepSeek V3的结合，形成规模+推理兼备的新范式。

就像谷歌CEO今天所感叹的那样：AI世界，从不平淡。让我们拭目以待吧。

玩酷网

Llama4开源：参数减半，性能比肩，H100可跑

程序员咋不秃头