
深夜,Meta如期发布了全新的开源大型模型系列——Llama 4,并未出现任何“跳票”传闻中的推迟情况!

此次发布也标志着Meta与近来崛起的开源新王 DeepSeek 正面硬刚。Meta官推更是表示:表示:“今天开启了原生多模态AI创新的新时代”。
Llama 4共有三款模型,Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。全部具备多模态处理能力,能够原生支持文本、图像和视频等多种输入形式。

Llama 4 系列包含三款定位各异的模型,覆盖从单机部署到超大规模推理的不同需求:
Llama 4 Scout:小型高性能模型,约17B的活跃参数,背后由16个专家模型组成,总参数量109B。Scout原生支持多模态,拥有业界领先的1000万Token上下文窗口,相当于可一次处理约15,000页文档的内容。如此惊人的上下文长度使其特别擅长长文档摘要、大型代码库分析等任务。值得一提的是,Scout能够在单张NVIDIA H100 GPU上运行(经INT4量化),部署非常方便,这体现了Meta对模型易用性的重视。Llama 4 Maverick:中等规模的旗舰多模态模型,17B活跃参数由128个专家模型提供支持,总参数规模达400B。Maverick面向通用对话和推理任务,被Meta称为“同级别中全球最好的多模态模型”,在多个基准上超越了OpenAI的GPT-4o和Google的Gemini 2.0等对标模型。与新发布的 DeepSeek v3.1(45.8B活跃参数)相比,Maverick以不到一半的活跃参数量达到相当的推理与编码性能。它支持100万Token上下文(约1,500页文本),在代码生成、复杂问答等领域表现优异。据Meta介绍,Maverick可以在单台配备8卡H100的DGX服务器上完成推理。Llama 4 Behemoth:真正的“巨兽”级模型,拥有288B活跃参数,16个专家模型,总参数量接近2万亿。Behemoth是Meta迄今训练的最强大模型,被视作新一代模型的“教师”或奠基模型。根据Meta内部测试,Behemoth在许多科学、数学基准上表现超群,性能碾压同类AI产品。例如,它在MATH-500数学竞赛数据集上的得分高达95.0,在复杂问答基准GPQA上也远超竞争对手。不过,由于训练难度极高,Llama 4 Behemoth目前仍在训练过程中,尚未正式开放下载。而Scout和Maverick两款模型则已经开放下载,可通过官方提供的Llama.com网站或Hugging Face获取。
业界对Llama 4给予了高度评价,英伟达高级研究经理 Jim Fan 指出,“对于开源模型而言,易于部署正变得比一味追求模型规模更重要”。

与前代模型不同,Llama 4 系列在架构上进行了彻底的重新设计。三款模型全部采用了当前炙手可热的Mixture of Experts(MoE,专家混合)架构,成为Meta首批大规模MoE模型。MoE的核心思想是将许多子模型(“专家”)集成到一个统一架构中,由一个路由(Router)网络在每次处理请求时动态选择少数几个相关“专家”参与推理,从而避免每次都动用模型的全部参数。
这种稀疏激活机制带来了巨大的效率优势。正如Meta在博客中解释的那样,Llama 4模型的所有参数虽然都常驻内存,但实际推理时每个token只需激活一小部分参数。例如,拥有400B总参数的Llama 4 Maverick,每次推理仅需调用其中约17B的活跃参数(128个专家中每次只用到少数几个)据Meta估算,Maverick的推理开销约为每百万Token 0.19~0.49美元,而同等能力的封闭模型GPT-4o大约需要4.38美元——前者性价比高出一个数量级。在这样的优化下,Maverick甚至可在单机(8卡)H100服务器上运行完成推理,通过分布式推理则能进一步提升吞吐。
小型的Scout更是能在单卡H100上跑通,极大降低了应用门槛。可以说,MoE架构使Llama 4系列在保障性能的同时,将推理效率推向了新高度。
Meta首个原生多模态的大模型系列除了架构上的MoE革新,Llama 4还是Meta首个原生多模态的大模型系列。与上一代纯文本的Llama 3不同,Llama 4 从训练之初就融合了文本、图像、视频三种模态的数据。
Meta并未简单地在模型后期“拼接”视觉模块,而是采用了早期融合(Early Fusion)策略,将图像像素、视频帧等信息编码为特征向量后,与文本Token一同输入统一的Transformer-MoE架构中联合训练。据透露,Llama 4 在预训练时一次可输入多达48张图像或视频帧与文本混合,使模型学会在多模态信息之间建立联系。在实际能力上,Llama 4 可以同时处理多张图片并理解其中的语义关联。
例如,对于给定的一组图片加上文本提示,它能够输出语义一致的回答,甚至解释一张搞笑图片“有趣在哪儿”,或推理多幅图表的下一步演变。

需要指出的是,Llama 4 当前尚未涉及音频/语音模态,这可能是未来版本的拓展方向。
综合来看,原生多模态+MoE是Llama 4架构的两大亮点。一方面,MoE大幅提升了模型的推理效率和可扩展性,让超长上下文和超大参数成为可能;另一方面,原生多模态训练赋予模型同时理解图文视频的能力,使其在视觉问答、多模态推理等任务上具有天然优势。正因如此,Meta在官方博客中将Llama 4誉为“全新的原生多模态AI创新时代的开端”。
超低价API,Meta也要拼性价比了Meta官方写道,Llama 4 Maverick 超越了同类模型,为开发者提供了无与伦比的性能与价值。
从图上看Llama 4 Maverick提供了比AI界拼多多DeepSeek更有吸引力的价格。

成本的降低与Llama 4的升级的训练策略密不可分。
Llama 4是如何炼成的?在训练策略上,Meta为Llama 4系列量身定制了一套全新方案,以充分发掘模型潜力并控制巨大的训练成本。
首先,Meta在监督微调(SFT)数据上进行了大幅“瘦身”。他们剔除了50%以上的简单提示,只保留相对困难、有挑战性的指令和问题进行微调。这是因为对于像Behemoth这样超强的模型而言,过于简单的样本已无法提供有效学习价值,反而可能让模型养成敷衍应付的习惯。据悉,Meta采用了一种“自我批判”式的数据筛选方法:利用模型早期训练的checkpoint充当“批评家”,自动评估标注数据中哪些样本太过简单冗余,并将它们过滤掉。这一过程相当于让模型“自己批改作业”,确保留在训练环节中的都是能推动模型进步的高质量数据。
其次,在微调之后的强化学习阶段,Meta引入渐进式强化学习循环来提高模型性能。具体而言,他们逐步提升训练过程中提示的复杂度和多样性,模拟从易到难的“课程学习(curriculum learning)”过程。一开始模型接受相对简单的强化学习任务,随着能力提高,再逐步增加任务难度,如此循环往复。这种多阶段的训练避免了一次性给模型过大压力,又能不断挑战模型的上限,让Llama 4在推理、编码等复杂任务上获得显著提升。
另一个重大创新是Meta自研的MetaP技术。这是一种全新的超参数智能调节方法,旨在让不同规模的模型在训练时保持行为一致。简单来说,MetaP可以将小模型上调试出的优化超参数(如分层学习率等)推广应用到大模型上,使得后者无需从零开始反复试错。
这一突破大幅提高了训练效率——研究人员只需在较小的模型上尝试找到理想的配置,然后直接在庞大的Behemoth上采用类似策略即可。据业内专家评价:“这能省下大量时间和资金——不必在大模型上反复试错”。在Llama 4 Behemoth的训练中,MetaP发挥了关键作用:由于Behemoth规模空前(采用FP8精度,调用多达32,000颗GPU,训练了超过30万亿个token),通过MetaP的指导,Meta团队才能在有限的试验预算内成功完成训练。不仅如此,MetaP还帮助不同模态的token在训练中达到更好的均衡,使多模态融合更加顺畅。
写在最后Llama 4的按时发布和卓越表现,不仅是Meta自身的重要里程碑,也为整个AI行业的发展方向提供了启示。展望未来,我们不禁要问:下一代的GPT-5、DeepSeek R2等重量级模型,是否还会坚持“Reasoning First(推理优先)”的技术路线?亦或是在推理能力与模型规模之间寻求新的平衡?
从当前动向看,“大而通用”与“深度思考”这两条路线或将逐渐融合。OpenAI方面,尽管GPT-4已经展现出强大的通用能力,但在明确的链式推理上仍有提升空间,可以预期GPT-5将进一步强化模型的内在逻辑推理与工具使用能力,以应对越来越复杂的任务需求。而DeepSeek作为开源阵营的异军突起,其R1模型证明了小模型通过自我进化也能掌握复杂推理,这一理念很可能会延续到DeepSeek R2,并通过与大模型DeepSeek V3的结合,形成规模+推理兼备的新范式。
就像谷歌CEO今天所感叹的那样:AI世界,从不平淡。让我们拭目以待吧。