OpenAI发布具备全工具访问权限的新型模拟推理模型

周三，OpenAI宣布推出两款集模拟推理能力与网络浏览、代码编写等功能访问于一体的新型号——o3和o4-mini。这是OpenAI首次实现以推理为核心定位的模型能够同步使用所有ChatGPT工具，包括视觉分析和图像生成功能。

OpenAI早在去年12月就预告了o3型号，此前仅推出性能较弱的衍生型号"o3-mini"和"03-mini-high"。此次发布的新型号将全面取代前代产品o1和o3-mini。

企业用户和教育机构用户将于下周获得访问权限。免费用户可通过在提问前选择"思考"选项试用o4-mini。OpenAI CEO Sam Altman在推特透露："我们计划在未来几周向专业用户推出o3-pro版本。"

对于开发者群体，即日起可通过Chat Completions API和Responses API使用这两款模型，但部分机构需要完成验证流程。

性能提升方面，OpenAI官网声明："这是我们迄今发布的最智能模型，将为从普通用户到专业研究人员的所有使用者带来ChatGPT能力的阶跃式提升。" 新模型在成本效益上也优于前代产品，且定位分工明确：o3专攻复杂分析任务，而作为下一代SR模型"o4"（尚未发布）精简版的o4-mini则侧重速度和成本优化。

与GPT-4o和GPT-4.5等现有产品的核心差异在于其模拟推理能力。该技术通过模拟人类逐步思考过程解决问题，并动态决定何时及如何调用辅助工具处理多步骤任务。例如在回答加州未来能源使用量预测时，模型可自主完成公用事业数据检索、Python预测模型构建、可视化图表生成及关键因素解析等全套流程。

值得关注的是新模型的多模态能力突破——不仅能解析视觉输入，还能将图像直接整合到推理过程中进行"视觉化思考"。这项革新使模型能够解读白板内容、教科书图表和手绘草图，即使图像模糊或质量欠佳也能有效处理。

但OpenAI延续了其产品命名体系混乱的传统：o3虽编号较低但性能优于o4-mini，且与公司的非推理型AI模型（如GPT-4o）易产生混淆。Ars Technica撰稿人Timothy B. Lee在X平台指出："将模型命名为GPT-4o和o4，这真是个惊人的品牌决策。"

性能评估与用户反馈

沃顿商学院教授、AI领域资深评论员Ethan Mollick在Bluesky平台对比测试后认为："经过实际使用，我认为Gemini 2.5与o3处于同一水平区间（需注意智能体能力仍需更多测试）。两者各有特色，但与其他模型存在明显差距。"

在今日的直播发布会上，OpenAI总裁Greg Brockman宣称："这是首批获得顶尖科学家认可、能够产出真正优质创新观点的模型。"免疫学家Derya Unutmaz在X平台反馈："o3展现出接近天才水平的思维能力，能够按要求生成极具洞察力的复杂科学假设。其针对临床医学难题的回应质量堪比顶级专科医师。"

基准测试数据显示：在2025年美国数学邀请赛（AIME）中，o4-mini取得92.7%准确率；编程测试SWE-Bench Verified中，o3达到69.1%准确率；在衡量大学水平视觉问题解决能力的MMMU测试中，o3斩获82.9%的优异成绩。OpenAI特别指出，启用网络浏览功能的模型需防范在"人类终极考试"等基准测试中通过在线检索"作弊"的可能。

独立AI实验室Transluce对预览版o3的评估发现，该模型存在声称本地运行代码、虚构硬件参数等杜撰行为，推测可能源于其无法访问先前对话中的推理过程。Transluce在推特警告："尽管在数学和编程任务中表现惊人，但o3默认不具备真实性保障机制。"

定价策略与开发工具

ChatGPT订阅用户可免费使用新模型。API接口定价方面：o3输入/输出token价格分别为每百万10/10/40，缓存输入享受2.5/百万优惠价，较前代o1降价332.5/百万优惠价，较前代o1降价331.1/$4.4。

同步发布的实验性终端应用CodexCLI被定位为"轻量级编程助手"，这款开源工具可将模型与用户本地代码库连接。OpenAI为此配套推出百万美元资助计划，为使用该工具的项目提供API积分。该产品与Anthropic二月推出的Claude Code形成直接竞争，两者均支持终端操作、本地代码库交互和命令行执行功能。

CodexCLI的推出标志着OpenAI在开发自主执行多步复杂任务的智能体方向上又迈进一步。但专家提醒，在缺乏严格人工监督的情况下，应谨慎对待其生成的高风险应用代码。

关注【黑客联盟】带你走进神秘的黑客世界

玩酷网

OpenAI发布具备全工具访问权限的新型模拟推理模型

黑客部落