埃隆・马斯克旗下的人工智能公司xAI正式发布了新一代人工智能模型——Grok3,马斯克将其称为“地球上最聪明的人工智能”。
Grok3实际上是一个模型家族,除了基本模型Grok3外,还有轻量级版本Grok3 mini,在牺牲一定准确度的情况下能够更快地响应问题。此外,它还推出了推理模型Grok3 Reasoning和Grok3mini Reasoning,能够仔细“推理”问题,在给出结果之前会彻底自我核实,避免其他模型易犯的错误。Grok3还引入了名为“DeepSearch”的新型搜索引擎,这是类似代理功能的早期版本,可以扫描互联网内容和X(原Twitter)平台,分析信息并针对问题提供摘要。

在X上直播的Grok3发布会直播截图Grok3比上一代的Grok2提升了一个数量级。在不久前召开的迪拜世界政府峰会上,马斯克直言:“Grok3的推理架构设计让AI第一次具备人类级别的逻辑自检能力。当它在数学竞赛中因误读题目而失分时,系统会像学生订正试卷一样,通过反刍训练数据重新推导正确答案。”这一说法得到AI伦理研究者Timnit Gebru的验证:“我们在Chatbot Arena盲测中发现,Grok3对错误答案的自我修正频率比其他模型高37%,这是思维链技术(CoT)落地的显著标志。”DeepMind联合创始人Mustafa Suleyman则表示:“当马斯克声称‘这是最后一次AI超越Grok’时,他实际上在暗示模型已逼近数据训练的理论上限——这或许意味着整个行业将转向耗能更低的推理优化赛道。”性能表现与技术突破

(一)基准测试领先于对手Grok3在多个基准测试中击败了OpenAI的GPT-4o、Anthropic的Claude3.5、DeepSeek的V3以及谷歌的Gemini2 Pro。其在数学推理(AIME测试)、科学知识(GPQA测试)和编程任务中的得分均创历史新高,成为首个在Chatbot Arena盲测中评分超过1400分的模型。1、编码能力:Grok3能够生成复杂的三维动态代码(如超立方体中弹跳球的建模),但在处理大规模并发任务时仍存在不稳定性(例如生成100个小球同时运动的代码时表现逊于OpenAI的o3-mini)。2、推理模式:新增“Grok3 Think”和“Grok3 Big Brain”两种模式,通过多步骤逻辑拆解提升复杂问题解决能力,被AI专家Andrej Karpathy评价为“接近OpenAI顶级模型o1-pro水平”。(二)模型架构升级1、推理能力增强:通过“思维链”(Chain of Thought)技术,Grok3可将问题分解为多步骤进行逻辑推演,并引入“Big Brain”模式实现更深入的思考。2、多模态支持:除文本外,Grok3还能生成3D动画轨迹图、实时解决行星际轨迹计算等任务,展现跨领域创造力。(三)十倍算力的“硬核”支撑Grok3的训练依赖于xAI的“Colossus”超级计算机集群,其算力规模达到20万颗NVIDIA H100/H200 GPU,是前代Grok2的10倍。这一数据中心仅用122天建成,并通过液冷技术、特斯拉Megapack储能系统等创新方案实现高效能运作,被英伟达CEO黄仁勋称为“工程奇迹”。(四)功能创新:从搜索到语音1、深度搜索:整合互联网与X平台数据,生成结构化信息摘要,直接对标Perplexity和Google的AI搜索功能2、语音模式:支持自然对话交互,补足与ChatGPT的体验差距市场发布策略与订阅模式

一是分阶段发布:当前版本为Grok3测试版,语音交互功能预计将于一周后上线,此外,xAI计划在Grok3稳定后,开源其前代模型Grok2。马斯克在直播中重申:“我们将在Grok3稳定后开源Grok2,就像Linux对抗Windows那样打破技术霸权。”对此,Linux基金会AI项目主席Ibrahim Haddad指出:“xAI的开源节奏明显落后于中国厂商——DeepSeek去年已开源参数规模相当V2模型,这种‘延迟开源’策略的本质是商业护城河建设。”二是用户覆盖与定价:Grok3优先向X Premium+订阅用户开放,订阅费从2023年的16美元/月大幅上涨至40美元/月(涨幅150%),此外,还新增“Super Grok”独立订阅服务,提供最先进版本,但价格尚未公布。针对X Premium+订阅费150%的涨幅,硅谷风投a16z合伙人Marc Andreessen在X平台评论:“当模型训练成本呈指数级增长(Grok3耗电量为前代10倍),订阅制是维持商业闭环的唯一选择。但40美元/月的定价能否被C端接受,将检验生成式AI的泡沫硬度。”而订阅用户@TechInsider_Maria反馈:“为Grok3支付的溢价中,至少有30%是在为马斯克‘对抗OpenAI垄断’的情怀买单。”随着开源模型的性能逼近,用户是否愿意为“边际提升”买单仍是未知数。

目前Grok3尚未完全开放/xAI官网界面截图目前的行业竞争格局

(一)与OpenAI的博弈马斯克曾试图以974亿美元收购OpenAI未果,转而通过Grok系列直接竞争。Grok3的发布被视作对OpenAI主导地位的挑战,尤其在推理能力上已接近其顶级模型(如o1-pro)。面对来自Grok3和DeepSeek的双重压力,OpenAI紧急调整策略:1、加速迭代:宣布GPT-4.5进入测试阶段,CEO山姆·奥特曼称其“带来接近AGI的体验”2、试探开源:发起用户投票探讨开源小型模型的可能性,试图平衡闭源商业化和开源生态的竞争力但前OpenAI董事会成员Helen Toner认为:“马斯克通过收购X获得的海量社交数据(日均4亿条推文)正在重构竞争格局——这是其他公司难以复制的实时语料库优势。”(二)来自DeepSeek的挑战DeepSeek通过开源策略和低算力需求模型(如V3/R1)抢占市场,其技术论文揭示了一种更高效的训练框架,直接动摇了硅谷“算力垄断”的根基,迫使xAI加速迭代。Grok3的开发周期仅15个月,反映出行业技术壁垒的快速消解。DeepSeek CEO周靖人在接受《南华早报》专访时透露:“我们的V3模型通过神经架构搜索(NAS)将能耗降低至Grok3的1/5,这证明美国芯片封锁反而倒逼出算法创新。”对此,斯坦福HAI研究院学者Percy Liang分析:“中美国AI竞赛已分化为两条路径——美国依赖算力堆砌,中国侧重效率优化,Grok3与DeepSeekV3正是这两种范式的具象化对抗。”争议与隐忧

(一)算力竞赛训练Grok3的成本远超Grok2,加之推理所需的额外算力,是订阅费上涨的主因。英伟达CEO黄仁勋在GTC大会上证实:“xAI订购的20万块H100 GPU中,有35%被专项用于Grok3的思维链训练,这种‘暴力计算’模式正在重塑数据中心架构。”Colossus数据中心曾因使用高污染燃气轮机供电引发环保抗议,凸显AI发展与环境成本的矛盾。AMD AI业务负责人Vamsi Boppana警告:“当单个模型的训练能耗相当于一座核电站年发电量时,行业必须反思——欧盟已计划对超算级AI项目征收碳税,这可能迫使xAI等公司迁移数据中心至能源成本更低的地区。”马斯克坚信“算力即护城河”,因此,他的应对策略是:1.寻求100亿美元融资,推动xAI估值至750亿美元,与OpenAI的竞争进入白热化阶段;2计划将Colossus的GPU规模从20万扩展至100万,并筹建第二个数据中心。此外,美国对华芯片出口限制促使中国厂商优化算力效率,这将进一步加剧行业竞争。

Grok手机界面图(二)伦理与监管困境Grok3在测试中表现出对复杂伦理问题的“过度敏感”,例如拒绝回答涉及价值观判断的开放式提问。AI伦理学者Emily M. Bender在《自然》(Nature)杂志撰文指出:“Grok3演示中‘自主编写射击游戏代码’的能力,实质是自动化武器研发的技术前奏。马斯克一边警告AI末日论,一边加速军备竞赛,这种矛盾暴露出科技巨头的监管套利本质。”对此,马斯克在直播中反驳:“我们将Grok的武器相关功能设为严格禁区,就像给ChatGPT加装'宪法AI'过滤层——但完全阻断恶意使用就像要求印刷机不印假钞一样不可能。”(三)马斯克的“双重角色”马斯克身兼特朗普政府科技顾问与xAI掌舵者双重角色,正引发"技术政治化"的尖锐争议。马斯克试图通过Grok3扩大在公共政策领域的影响力——力推Grok3接入政府决策系统,宣称该模型能"模拟政策推演的百万种可能性",却在国会听证会上回避“训练数据是否包含选民隐私”的质询。这种矛盾在《数字主权法案》立法进程中尤为凸显:马斯克一面建议收紧AI军事应用监管,一面推动国防部采购Grok3用于战场模拟系统开发,被《华盛顿邮报》揭露其团队与五角大楼签订的价值12亿美元订单存在“旋转门”利益输送嫌疑。伦理学家约书亚·本吉奥指出:“当同一个体既制定规则又参与竞赛,民主制衡机制便形同虚设。”这种双重身份正催化新型权力形态——Grok3凭借实时解析3.7亿X用户行为数据的能力,既为政府提供舆情预警,又通过精准推送影响选民立场。马斯克在科技与政治间的“双重角色”,或将重塑数字时代的政商关系范式。