3月16日,百度正式发布文心大模型X1,在文心一言官网即可免费使用。
据介绍,文心大模型X1为深度思考模型,性能对标DeepSeek-R1,这消息当然很令用户激动。但激动归激动。文心X1真有如此强悍?
为了验证文心X1的真实能力,笔者在第一时间体验了它的数学能力。之所以要先拿它的数学能力开刀,是因为众所周知,推理大模型不同于传统语言大模型的地方就在于它的“长思维链”。
“长思维链”能力使得推理大模型在训练时更看重在逻辑推理、因果推断以及结构化知识应用等能力方面的培养。也因此,才使得推理大模型具有了类人思考能力,在生成回答时能更有逻辑,更具推理性,而这一能力,在数学问题、代码生成以及科学推理等方面表现得更明显。
因此,一款推理大模型的数学能力强弱,实际上也反映了其推理和逻辑能力的强弱,很难想象,一个连10以内加减法都搞不定的人,会在高等数学上展示出惊人天分。
这里所用的测试题目很正规,全部来自《2024年全国中学生数学奥林匹克竞赛(预赛)暨2024年全国高中数学联合竞赛一试(A卷)》,选题原则是先易后难,随机选取了四道题,分别是两道填空题和两道解答题。其中两道解答题难度一般,分值是20分。
试题1:
该题正确答案是4049,遗憾的是文心X1没有解出。
没有解出的原因文心X1认为题目中可能存在打字错误或符号错误,“如果题目确实如你所提供,那么可能需要更高级的数学知识或特殊的技巧来求解,在这种情况下,我建议寻求数学老师或专家的帮助”。
而实际上,该题不可能输入错误,原因有二:一是为保证输入准确率领,笔者在此次测试中采用的全是原题截图上传的方法,避免了手工操作可能带来的失误。
二是原题不存在错误。证据是同样一张图,当笔者将其上传其它两款国产深度大模型上时,均被正确识别并解答。
国产深度推理大模型1:
国产深度推理大模型2:
试题2:
该题的正确答案是(−1/4,0)∪(0,2),这题文心X1没让人失望,解答正确。
试题3:
该题的正确答案是2√2,但文心X1认为所有可能值是1或√2。
那么其它两款国产大模型是不是也会像文心X1这么认为?答案是不是。其它两款大模型都给出了正确结果。
国产深度大模型1
国产深度大模型2
试题4:
这道题的正确答案是8√5-16,文心X1第三次回答错误,给出的答案是4。除它之外,其余两款国产深度大模型都给出了正确答案。
国产深度大模型1
国产深度大模型2
仅仅四道题,文心X1毫不客气地错了三道。脸可以不要,题可以做错,但由此引发的后果谁来承担?
要知道人们使用大模型的目的,主要是要对工作、学习、生活有所帮助,是想让大模型成为自己的得力助手,拓展知识,解疑释惑。如果大模型本身就错误连连,像文心X1这样,四道 题错仨,错误码率高达75%,又怎么保证它提供给用户的帮助是正向的。
写到这里,很悲哀地想到孩子,想到正在求学的祖国的花朵。随着人工智能的不断发展,大模型已渐渐成为它们的良师益友,成为他们课后获取知识和帮助的重要途径。如果他们不幸信任了文心X1,用它来解答不会的数学题,那会不会适得其反,最后连会的问题也整不会了?
要知道,所有试图用大模型获取知识,获得答案的用户(尤其是孩子),绝大多数是没有对错的判断能力的。除非他们像笔者此次做测试一样,提前找了一份有正确答案的试卷。
推理大模型最为擅长的数学能力尚且如此,文心X1的其它能力可想而知。