谷歌的“双子星”，正在围剿一众大模型

继昨天凌晨OpenAI推出满血o3、o4-mini之后，没想到谷歌迈着“LLM王者”的步伐给出了自家的模型SOTA研究Gemini2.5 Flash。

如果说o3主打的是“干实事”，那么谷歌这次的新发布则是告诉我们：什么是“成本可控”的极致性价比。

这次的发布以后立马引来一众开发者的讨论，不过这次不是负面的，而是全面的好评。

1.Gemini 2.5 Flash的最大卖点控制大模型的思考预算

今天刚刚推出来的谷歌的新模型，是通过Google AI Studio和Vertex AI以预览版形式发布的。

从官网发布的博客来看，个人看来最大的亮点在于：可开启或关闭思考+给大模型引入了“思考预算”的可控机制。这种机制可以让开发人员指定在生成响应之前应分配多少计算能力用于推理复杂问题。

个人认为，这是谷歌一个非常务实的战略性举措，重要性不亚于昨天OpenAI发布的能干实事的o3、o4-mini。

因为采用“思考预算”这种方法非常契合解决如今AI市场的一个根本矛盾：更复杂的推理，通常以更高的延迟和更高的价格为代价，进而影响了先进模型的采用和普及。

具体到Gemini 2.5 Flash的思考预算是如何制定的？

谷歌为了给开发者提供足够的灵活性，特别添加了“思考预算设置”，可以精细控制模型在思考时能够生成的最大token数量。更高的预算允许模型进一步推理，从而提高质量。

图表显示，随着思维预算的增加，推理质量有所提高

更重要的是，预算设置了 Gemini 2.5 Flash 的思考能力上限，但如果任务不需要，模型不会用尽全部预算。据了解，思考预算可以从0调整到24,576个token，作为一个最大限制而不是固定分配。根据谷歌的说法，模型会根据任务的复杂性智能地决定使用多少预算，在不需要复杂推理时节省资源。

有了这些，开发者就可以在质量、成本和延迟之间找到合适的平衡点。

2.思考与不思考：6倍价格差

价格方面，在Gemini 2.5 Flash中，每百万个token的输入成本为0.15美元。输出成本则根据推理设置而存在显著差异：关闭思考功能时每百万token为 0.6美元，而启用推理功能时则为每百万token 3.5美元。

推理输出的近六倍价格差异反映了“思考”过程的计算强度，其中模型在生成响应之前会评估多种潜在路径和考虑因素。

Gemini 2.5 Flash 性价比对比

图源：谷歌整理的每百万token价格和性能的帕累托图

这里值得注意的是，单纯关注定价变化已经意义不大，小编认为更大的意义上在于，谷歌做了一件值得思考的动作，即，谷歌给出了一种让公司老板或者独立开发者们非常方便的大模型的成本考量尺度：用推理输出的价格差异来度量“思考”过程的计算强度。

正如谷歌Gemini产品总监在采访中所提到的：“客户需要为模型生成的任何思考和输出token付费。在 AI Studio UX 中，你可以在响应之前看到这些思考。在 API 中，我们目前不提供对这些思考的访问权限，但开发人员可以查看生成的token数量。”

3.根据提示词自动调整思考时长

当然，除了思考预算设置，Gemini 2.5 Flash 还有一项“思考时长”的感知能力。据谷歌介绍，该模型经过训练可以知道对于给定的提示需要思考多长时间，因此可以根据感知到的任务复杂性自动决定思考多少。

也就是说，根据你所问的问题的复杂程度，自动调整推理程度，从而可以更快地回答更简单的请求。此外，即使即使关闭“思考”，开发者也能保持 2.0 Flash 的快速运行速度，并提升性能。

谷歌将提示词按照需要推理能力的强弱分成了三种：较少推理能力、中等推理能力、高级推理能力。具体粒度究竟如何？可以看下面几个示例。

需要较少推理能力的提示：加拿大有多少个省？（可以理解成“事实性”拷问）

需要中等推理能力的提示：你掷两个骰子。它们加起来等于 7 的概率是多少？（高中数学题）

还有一个不错的提示示例：

我的健身房每周一至周五上午 9 点至下午 3 点以及周二和周六下午 2 点至晚上 8 点安排篮球训练。如果我每周工作 5 天，上午 9 点至下午 6 点，并且希望在工作日打 5 个小时篮球，请为我制定一个时间表，确保一切顺利。（简单的办公规划）

需要高度推理的提示：计算于梁应力、开发者常用的复杂函数编程等复杂工程问题。

编写一个evaluate_cells(cells: Dict[str, str]) -> Dict[str, float]计算电子表格单元格值的函数。

每个单元格包含：

一个数字（例如"3"）"=A1 + B1 * 2"或者像使用+、、和其他单元格-的公式。*/

要求：

解决单元格之间的依赖关系。处理运算符优先级（*/之前+-）。检测循环并提出ValueError("Cycle detected at <cell>")。不要使用eval()。仅使用内置库。

4.R1、Sonnet3.7被比下去了

Gemini 2.5 Flash在关键基准测试中展现出极具竞争力的性能，同时保持了比其他同类产品更小的模型规模。

在一项旨在评估推理和知识的严格测试“人类的最后考试”中，Gemini 2.5 Flash 的得分为 12.1%，优于 Anthropic 的Claude 3.7 Sonnet（8.9%）和DeepSeek R1（8.6%），但略低于 OpenAI 近期推出的o4-mini（14.3%）。

该模型在博士级水平的科学问题评估GPQA Diamond（78.3%）和AIME 数学考试（2025 年测试中为 78.0%，2024 年测试中为 88.0%）等技术基准上也取得了优异的成绩。

据了解，Doshi对自己的作品信心满满，“企业应该选择 2.5 Flash，因为它在成本和速度方面提供了最佳价值。同时，它在数学、多模态推理、长上下文和其他几个关键指标方面都比竞争对手更加强大。”

言外之意，很简单，谷歌的模型比同行在关键指标性能上更强大，而在成本上更便宜，速度上更快。没有理由不选择谷歌。

还有一个重要的风向变化。谷歌这次除了狠狠地命中了企业开发者在使用LLM时的成本、性能、速度的“死亡三角”的痛点，同时还在高校学生侧发力了。

据悉，Gemini 2.5 Flash的发布正值谷歌AI周，今天除了发布 2.5 Flash 之外，谷歌还宣布所有美国大学生在 2026 年春季之前都可以免费使用 Gemini Advanced。

谷歌开始明目张胆地在学生侧发起冲锋，可以被视作这样一种信号：谷歌准备一场长线的战斗，因为这些高效学生都是未来的知识型员工，而知识型员工正是大模型市场的必争之地。当然，学生使用一款大模型的惯性或者说忠诚度究竟如何，尚有待考证。

5.网友热议：谷歌正在赢下LLM比赛

随着Gemini2.5发布以来，越来越多的开发者开始重新审视LLM玩家在自己心中的地位。

“谷歌正在悄悄地赢得AI竞赛”的声音越来越多。一位网友表示：Gemini Flash系列模型的宣传水分是最少的，以自己的生产经验来看，谷歌提供了最好的性价比体验和多模态工具。

同样，在知乎上，同样也抛出了类似的问题。

这条帖子下面有网友用“龟兔赛跑”来比喻现在的LLM竞赛，用兔子来形容优势明显的谷歌：数据顶级、人才顶级、算力不愁，只不过这场LLM竞赛显然不是短跑，而是一场足以让谷歌中途打盹醒过来快速超过对手的长途马拉松。

这位答主已经说得非常形象，这里不再赘述。

但这里想从另一种视角来聊这种现象。在两年前甚至去年上半年时，大家对于谷歌的印象还停留在“狼狈不堪”的防守姿态上。OpenAI每次都成功截胡谷歌的新发布，而且每次新发布都伴随着这样或那样的质疑的声音。

但近四个月以来，我们会发现这种现象已经消失了。取而代之的则是一片“叫好”的口碑。

就比如这次的模型发布后，hackernews下方很多网友表示：Gemini的输出质量和风格相较于OpenAI的o1和Anthropic的Claude都有很大的不同，印象深刻。

别的模型往往卑躬屈膝，而Gemini则表现得更像是一位“谏议大夫”，“Gemini似乎不太愿意同意我的观点。它做出了一些小的改进，而Claude和ChatGPT则会接受最初的提议，直到被特别要求才会做出改进。”

“跟Gemini 2.5 Pro对话，感觉就像是和一个知识渊博、聪明绝顶的人在辩论。”

这其实很直接的就能表明：谷歌的大模型，已经在赶上甚至超越同行。注重大模型用户的切实需求和体验，正在让谷歌赢得用户的认可。

此外，值得注意的是，谷歌正在摸索自己的大模型演进路径。而不是以往被动追赶的姿态。此次OpenAI的o3发布走的是“大模型使用工具”的风格，但谷歌似乎并不care，将自己认为正确的“细粒度的思考预算控制”功能摆到台面上切作为最大亮点进行推出。

可以看出谷歌已经开始触到了那根大模型产品演进的主线脉络。

不过，或许从模型层面上看，谷歌的Gemini虽然可圈可点，但从日活数据上看，还远远没有达到赢得竞赛的程度。据第三方分析称， ChatGPT每周用户超过 8 亿，而 Gemini每月用户估计为 2.5 亿至 2.75 亿。

但长远看，基础模型的领先加上极致可控的性价比，Gemini的用户势必会迎来新一波的暴涨。

正如下面这位转向使用Gemini的网友所说：我同意Claude非常好，但我从未觉得它在实际工作中很舒服，3.7中有很多过度设计而半生不熟的解决方案，而这使得自己付出API的费用物失所值。

可以想象在一年后的某天，几个开发者调侃某个大模型产品或功能：“不是XX我买不起，而是XX家的更有性价比！”

到那时候，大模型的生态才算是尘埃落定了。

参考链接：

https://developers.googleblog.com/en/start-building-with-gemini-25-flash/

https://news.ycombinator.com/item?id=43720845

玩酷网

谷歌的“双子星”，正在围剿一众大模型

技术创新发展界