OpenAI发布具备全工具访问权限的新型模拟推理模型

黑客部落 2025-04-20 16:35:03

周三,OpenAI宣布推出两款集模拟推理能力与网络浏览、代码编写等功能访问于一体的新型号——o3和o4-mini。这是OpenAI首次实现以推理为核心定位的模型能够同步使用所有ChatGPT工具,包括视觉分析和图像生成功能。

OpenAI早在去年12月就预告了o3型号,此前仅推出性能较弱的衍生型号"o3-mini"和"03-mini-high"。此次发布的新型号将全面取代前代产品o1和o3-mini。

企业用户和教育机构用户将于下周获得访问权限。免费用户可通过在提问前选择"思考"选项试用o4-mini。OpenAI CEO Sam Altman在推特透露:"我们计划在未来几周向专业用户推出o3-pro版本。"

对于开发者群体,即日起可通过Chat Completions API和Responses API使用这两款模型,但部分机构需要完成验证流程。

性能提升方面,OpenAI官网声明:"这是我们迄今发布的最智能模型,将为从普通用户到专业研究人员的所有使用者带来ChatGPT能力的阶跃式提升。" 新模型在成本效益上也优于前代产品,且定位分工明确:o3专攻复杂分析任务,而作为下一代SR模型"o4"(尚未发布)精简版的o4-mini则侧重速度和成本优化。

与GPT-4o和GPT-4.5等现有产品的核心差异在于其模拟推理能力。该技术通过模拟人类逐步思考过程解决问题,并动态决定何时及如何调用辅助工具处理多步骤任务。例如在回答加州未来能源使用量预测时,模型可自主完成公用事业数据检索、Python预测模型构建、可视化图表生成及关键因素解析等全套流程。

值得关注的是新模型的多模态能力突破——不仅能解析视觉输入,还能将图像直接整合到推理过程中进行"视觉化思考"。这项革新使模型能够解读白板内容、教科书图表和手绘草图,即使图像模糊或质量欠佳也能有效处理。

但OpenAI延续了其产品命名体系混乱的传统:o3虽编号较低但性能优于o4-mini,且与公司的非推理型AI模型(如GPT-4o)易产生混淆。Ars Technica撰稿人Timothy B. Lee在X平台指出:"将模型命名为GPT-4o和o4,这真是个惊人的品牌决策。"

性能评估与用户反馈

沃顿商学院教授、AI领域资深评论员Ethan Mollick在Bluesky平台对比测试后认为:"经过实际使用,我认为Gemini 2.5与o3处于同一水平区间(需注意智能体能力仍需更多测试)。两者各有特色,但与其他模型存在明显差距。"

在今日的直播发布会上,OpenAI总裁Greg Brockman宣称:"这是首批获得顶尖科学家认可、能够产出真正优质创新观点的模型。"免疫学家Derya Unutmaz在X平台反馈:"o3展现出接近天才水平的思维能力,能够按要求生成极具洞察力的复杂科学假设。其针对临床医学难题的回应质量堪比顶级专科医师。"

基准测试数据显示:在2025年美国数学邀请赛(AIME)中,o4-mini取得92.7%准确率;编程测试SWE-Bench Verified中,o3达到69.1%准确率;在衡量大学水平视觉问题解决能力的MMMU测试中,o3斩获82.9%的优异成绩。OpenAI特别指出,启用网络浏览功能的模型需防范在"人类终极考试"等基准测试中通过在线检索"作弊"的可能。

独立AI实验室Transluce对预览版o3的评估发现,该模型存在声称本地运行代码、虚构硬件参数等杜撰行为,推测可能源于其无法访问先前对话中的推理过程。Transluce在推特警告:"尽管在数学和编程任务中表现惊人,但o3默认不具备真实性保障机制。"

定价策略与开发工具

ChatGPT订阅用户可免费使用新模型。API接口定价方面:o3输入/输出token价格分别为每百万10/10/40,缓存输入享受2.5/百万优惠价,较前代o1降价332.5/百万优惠价,较前代o1降价331.1/$4.4。

同步发布的实验性终端应用CodexCLI被定位为"轻量级编程助手",这款开源工具可将模型与用户本地代码库连接。OpenAI为此配套推出百万美元资助计划,为使用该工具的项目提供API积分。该产品与Anthropic二月推出的Claude Code形成直接竞争,两者均支持终端操作、本地代码库交互和命令行执行功能。

CodexCLI的推出标志着OpenAI在开发自主执行多步复杂任务的智能体方向上又迈进一步。但专家提醒,在缺乏严格人工监督的情况下,应谨慎对待其生成的高风险应用代码。

关注【黑客联盟】带你走进神秘的黑客世界

0 阅读:2

黑客部落

简介:计算机安全技术分享,网络安全攻防技术分享