2025 年 3 月6日,国产 AI 智能体 Manus 的发布在科技界掀起轩然大波。这款由初创公司蝴蝶效应开发的 AI Agent,宣称在 GAIA 基准测试中超越 OpenAI 的同类产品,能独立完成简历筛选、旅行规划、数据分析等复杂任务,甚至生成完整的 PPT 和报告。
其官网演示视频中,用户只需输入简单指令,Manus 即可通过云端异步工作模式自动执行多步操作,无需实时干预。这一颠覆性的表现迅速点燃了市场热情,官网注册页面被挤爆,邀请码在二手平台炒至 5 万元高价。

然而,赞誉与质疑几乎同时而至。部分开发者指出,Manus 的核心架构与 Anthropic 的 “ComputerUse” 高度相似,其 “自主性” 可能依赖现有大模型(如 GPT-4)的工具链拼接,而非底层技术突破。例如,股票分析案例中,Manus 通过调用雅虎金融 API 和 Python 脚本生成图表,本质仍是工具集成。此外,邀请码机制被质疑为 “饥饿营销”,而自媒体将其与 “国家科技实力象征” 挂钩的过度宣传,也引发了行业对技术真实性的担忧。

Manus 的技术亮点主要体现在三个方面:
多智能体协作架构:通过分工明确的 “特种部队式” 代理团队(代码编写、数据检索、结果校验等),实现复杂任务的并行处理,效率较传统模型提升 20%。例如,在简历筛选场景中,Manus 可自动解压文件、提取关键信息并生成排名表,甚至计算候选人通勤距离。跨平台任务执行能力:支持 Python 代码运行、多文件格式解析及外部环境调试,能直接交付完整成果(如 PPT、网站部署),而非仅提供建议。GAIA 基准测试表现:在权威测试中,Manus 在三个难度级别均刷新纪录,超越 OpenAI 的 Operator 和智谱 AI 的 Phone Use,被视为国产 AI 在通用智能体领域的重要突破。三、技术架构的范式革命Manus 的核心突破在于其动态任务编排系统,通过多智能体协作架构实现了复杂任务的自主分解与执行。该系统将任务拆解为 "规划 - 执行 - 验证" 三大子模块,每个模块由独立的语言模型或强化学习模型驱动:
战略决策层:基于目标导向的规划代理,利用蒙特卡洛树搜索算法生成最优任务路径。例如在旅行规划中,系统会自动计算景点关联性、交通时间成本等参数,生成多版本行程方案。战术执行层:包含代码编写、数据检索、结果渲染等特种代理,支持 Python 脚本运行、浏览器自动化和多文件格式解析。实测显示,其在简历筛选场景中可自动解压文件、提取 NLP 特征并生成结构化报告,效率较传统工具提升 40%。质量控制层:通过动态验证代理实现结果校验,例如在股票分析中交叉验证多个数据源,确保数据一致性。GAIA 基准测试显示,其在金融分析场景的错误率仅为 OpenAI 同类产品的 1/3。这种分层架构突破了传统大模型的线性输出模式,实现了任务执行的异步化、并行化与智能化。其云端异步处理机制允许用户关闭设备后继续运行任务,服务器崩溃后仍可断点续传,这一特性在行业内尚属首次。
四、与全球前三 AI Agent 的对比分析
当前 AI Agent 领域的头部产品包括:
OpenAI Operator:依托 ChatGPT 的语言理解能力,支持浏览器任务自动化(如填表、购物),但任务完成度和跨平台能力弱于 Manus。Anthropic ComputerUse:强调安全性和可控性,采用类似 Manus 的虚拟机环境,但应用场景相对单一。智谱 AI Phone Use:专注于移动端任务处理,如信息整理和多轮对话,技术路径与 Manus 存在差异。产品
技术路径
核心优势
局限性
Manus
多代理协作 + 工具链集成
任务复杂度高(支持 40 + 场景)、自主决策能力强
底层依赖外部工具调用
OpenAI Operator
浏览器自动化 + LLM 驱动
用户基数大、生态整合度高
任务完成度低(仅支持表单填写等基础操作)
Anthropic ComputerUse
安全沙盒 + 受限工具调用
可解释性强、隐私保护严格
应用场景单一(主要用于代码审查)
智谱 AI Phone Use
移动端任务优化 + 多轮对话
手机端适配性强、交互体验流畅
跨平台能力弱
Manus 的差异化竞争力体现在任务深度与自主性:在房产筛选案例中,其不仅能调用 Zillow API 获取房源数据,还会自动分析社区犯罪率、学校评分等衍生指标,生成包含热力图的综合报告。相比之下,Operator 仅能完成网页填表等机械操作,而 ComputerUse 在复杂决策场景中表现保守。

尽管 Manus 宣称 "全球首款通用 AI Agent",但行业质疑主要集中在两个层面:
技术原创性:部分开发者指出其架构与 Anthropic 的 ComputerUse 存在相似性,均采用虚拟机环境执行工具调用。但 Manus 的创新在于动态任务路由算法,其通过强化学习不断优化代理协作路径,在 GAIA 测试中实现了 20% 的效率提升。自主性边界:目前 Manus 的 "自主决策" 仍依赖预定义规则,例如在代码编写中若检测到死循环问题,系统会触发预设的安全响应机制,而非真正意义上的自主推理。这反映出当前 AI Agent 技术的共性局限 —— 决策逻辑仍需人类预先设定。
Manus 的技术实践揭示了 AI Agent 发展的三大趋势:
架构模块化:多代理协作将成为复杂任务处理的标配,企业需构建灵活可扩展的技术中台。场景垂直化:通用型 Agent 难以满足专业领域需求,金融、医疗等行业需要定制化解决方案。工具生态化:能否有效整合第三方工具(如 ERP 系统、数据分析平台)将成为竞争关键。从长期看,真正的 AI Agent 应具备动态目标理解与环境自适应能力,例如在旅行规划中根据实时天气调整行程。Manus 的技术突破虽未完全实现这一愿景,但其架构创新为行业提供了重要参考。未来的竞争将聚焦于底层模型的推理能力提升、多模态交互技术突破,以及伦理安全体系的完善 —— 这才是 AI Agent 从 "工具集成" 迈向 "智能体" 的关键跨越。
七、网络舆情与行业反思Manus 的爆火反映了市场对 AI Agent 的强烈期待。DeepSeek 等产品的成功让公众渴望本土 AI 原生应用的突破,而 Manus 的出现恰好填补了这一心理空白。然而,争议背后暴露出行业的浮躁:
过度营销与技术泡沫:自媒体将 Manus 捧为 “国产 AI 之光”,甚至与国家荣誉绑定,导致公众期待与现实脱节。技术真实性存疑:部分开发者质疑其 “套壳海外技术”,而团队对技术细节的模糊回应加剧了信任危机。资本驱动下的短视行为:概念股涨停、邀请码炒作等现象表明,市场急于寻找下一个 “爆款”,但技术打磨才是长远发展的关键。Manus 的出现标志着国产 AI 在智能体领域的重要尝试。其自动化任务执行能力和多场景适配性,确实展现了 AI Agent 的未来方向。然而,技术争议、封闭策略及行业浮夸风,为其发展蒙上阴影。
从长远看,AI Agent 的核心竞争力在于底层架构创新和场景深度整合,而非简单的工具链拼接。Manus 若能在质疑中持续优化技术、开放验证,并回归用户价值本位,或有望成为 AI 时代的 “超级应用”;反之,若沉迷于营销噱头,则可能重蹈 “昙花一现” 的覆辙。在这场技术竞赛中,真正的王者终将属于那些既能脚踏实地,又敢于突破边界的探索者。