四道题错仨,百度深度思考大模型文心X1数学能力不一般

3月16日，百度正式发布文心大模型X1，在文心一言官网即可免费使用。

据介绍，文心大模型X1为深度思考模型，性能对标DeepSeek-R1，这消息当然很令用户激动。但激动归激动。文心X1真有如此强悍？

为了验证文心X1的真实能力，笔者在第一时间体验了它的数学能力。之所以要先拿它的数学能力开刀，是因为众所周知，推理大模型不同于传统语言大模型的地方就在于它的“长思维链”。

“长思维链”能力使得推理大模型在训练时更看重在逻辑推理、因果推断以及结构化知识应用等能力方面的培养。也因此，才使得推理大模型具有了类人思考能力，在生成回答时能更有逻辑，更具推理性，而这一能力，在数学问题、代码生成以及科学推理等方面表现得更明显。

因此，一款推理大模型的数学能力强弱，实际上也反映了其推理和逻辑能力的强弱，很难想象，一个连10以内加减法都搞不定的人，会在高等数学上展示出惊人天分。

这里所用的测试题目很正规，全部来自《2024年全国中学生数学奥林匹克竞赛（预赛）暨2024年全国高中数学联合竞赛一试（A卷）》，选题原则是先易后难，随机选取了四道题，分别是两道填空题和两道解答题。其中两道解答题难度一般，分值是20分。

试题1：

该题正确答案是4049，遗憾的是文心X1没有解出。

没有解出的原因文心X1认为题目中可能存在打字错误或符号错误，“如果题目确实如你所提供，那么可能需要更高级的数学知识或特殊的技巧来求解，在这种情况下，我建议寻求数学老师或专家的帮助”。

而实际上，该题不可能输入错误，原因有二：一是为保证输入准确率领，笔者在此次测试中采用的全是原题截图上传的方法，避免了手工操作可能带来的失误。

二是原题不存在错误。证据是同样一张图，当笔者将其上传其它两款国产深度大模型上时，均被正确识别并解答。

国产深度推理大模型1：

国产深度推理大模型2：

试题2：

该题的正确答案是(−1/4,0)∪(0,2)，这题文心X1没让人失望，解答正确。

试题3：

该题的正确答案是2√2，但文心X1认为所有可能值是1或√2。

那么其它两款国产大模型是不是也会像文心X1这么认为？答案是不是。其它两款大模型都给出了正确结果。

国产深度大模型1

国产深度大模型2

试题4：

这道题的正确答案是8√5-16，文心X1第三次回答错误，给出的答案是4。除它之外，其余两款国产深度大模型都给出了正确答案。

国产深度大模型1

国产深度大模型2

仅仅四道题，文心X1毫不客气地错了三道。脸可以不要，题可以做错，但由此引发的后果谁来承担？

要知道人们使用大模型的目的，主要是要对工作、学习、生活有所帮助，是想让大模型成为自己的得力助手，拓展知识，解疑释惑。如果大模型本身就错误连连，像文心X1这样，四道题错仨，错误码率高达75%，又怎么保证它提供给用户的帮助是正向的。

写到这里，很悲哀地想到孩子，想到正在求学的祖国的花朵。随着人工智能的不断发展，大模型已渐渐成为它们的良师益友，成为他们课后获取知识和帮助的重要途径。如果他们不幸信任了文心X1，用它来解答不会的数学题，那会不会适得其反，最后连会的问题也整不会了？

要知道，所有试图用大模型获取知识，获得答案的用户（尤其是孩子），绝大多数是没有对错的判断能力的。除非他们像笔者此次做测试一样，提前找了一份有正确答案的试卷。

推理大模型最为擅长的数学能力尚且如此，文心X1的其它能力可想而知。

玩酷网