从DeepSeek引发的：推理大模型背后的思考

自DeepSeek R1发布以来，关注AI的业界、学界、用户、媒体、政界，都在高密度地讨论和评价它。它卷起了许多话题，从推理模型、成本资源、开源开放乃至「中美差距」，还让人看到了理想主义的微弱星光。

不同的立场和知识背景，往往会带来不同的视角解读。今天，让我们一起来看看清华大学交叉信息研究院助理教授、前OpenAI研究员吴翼老师对DeepSeek背后技术的深度思考？

以下是访谈的摘录……

1.如何客观评价DeepSeek V3、R1的技术能力，我们应该关注哪些Benchmark（基准/评估标准）和Dataset（数据集）去评估模型的推理能力？

吴翼老师：

第一，这个模型到底好不好？我觉得DeepSeek之所以能反复出圈，很重要的原因是，大家试了以后确实好。大家可以在Benchmark上看到，它的推理能力和o1是一个水平的。

第二，怎么判断一个模型真的好？我们应该关注最难的Benchmark，要说一个模型特定能力好，首先要在最难的Benchmark上确实很好。另外，Benchmark不一定能反映所有真实的使用效果，所以最简单的方式就是自己去玩一玩，出一些题，聊一聊。我觉得试一试是最重要的点，如果真的是强化学习训练出来的优质模型，你会感受到它具备很好的泛化能力。

2.有一篇文章说「现在的评测已经跟不上模型发展的速度了」，评测的最高分不一定是模型的极限，那么未来在「模型测评」方面需要补齐哪些能力？

吴翼老师：

评测是一个极为困难的问题。首先这件事凭“良心”，其次它依赖高质量评测数据集的构建，这远比大家想的重要。做算法的同学最喜欢的一件事可能是「给我一个问题，我去解决这个问题」，大家很享受解决问题的快乐。但大模型的评测集到底是什么，其实很难。可能以后大家要想的事情是，大模型能用什么角度来评测，这会花非常多力气，也需要非常聪明的同学去做这样的工作。

我们自己也在做这样的探索——什么问题适合提升模型的推理能力。比如你给高中生做小学生的题目，那没意义，你不可能指望一个小学题能提升高中生的能力。所以怎么给模型好的问题，很难。也希望以后有更多人可以加入一起探索。

3.对于V3公开的训练成本，我们应该怎样去看待？这会不会成为行业的一个Benchmark？成本利润率高达545%，该怎么解读，要达到极致高性价比需要克服哪些卡点？

吴翼老师：

这些数字一定会成为行业的Benchmark，基本上就是一个标杆，大家能对照看到gap的大小。

第一，怎么看待这个成本？

首先，这个成本真的是低。就算它把所有的recipe都告诉你，不把基础设施给你，我们肯定是做不到500万美金的。这就是一个很低的成本，所以你得承认这个差距。

第二，成本是不是这么多？

那肯定不是，你要做实验的。你第一次探索的时候，不可能这么低。但是你做完了，recipe确定了再来实现一次，是可以做到比较低的。

第三，如何解读545%的利润？

首先我们要正确看待这组数据，这是基于特定条件下的“理论”计算，没有算资金投入成本和其他overhead，它是非常理想状态的成本。

其次，这个数值和模型设计有关系。DeepSeek是在极致的MoE架构下去做优化。所以即使你用它开源的库，但你的MoE架构不好或不适配，你也做不到。所以这件事情大家得有个客观的认识。

而且，很少有一个团队能坚持去做选型，把能够想到的各项工程优化，这么大的工作量，一个一个按部就班地做，这件事是不容易的。任何一个对工程模型架构很熟悉、比较专业的人都能做出判断，但问题就是有没有一个团队能把它一个个全部实现。

4.很多大模型的厂商都在走推理模型这条路，那么推理是不是走向AGI的必经之路或唯一的路？我们会不会错过什么？

吴翼老师：

我觉得要站在一个更宏观的立场上来看，Rich Sutton在《The Bitter Lesson》中提过一个核心观点：AI的突破基本上和算力的投入，计算、数据的投入成正比，也就是Scaling Law。

以过去的经验来看，一个正确的范式应该是一个可以scaling的范式。这是目前来看我觉得唯一的「范式」——通过增加数据和算力来提升智能。

我认为前提还是要找到一个scalable路径，就像爬梯子，有很多阶梯——比如说预训练是第一个阶梯，丢数据进去做预训练可以看到Scaling Law，然后发现Scaling Law放缓了，爬不上去了。

当OpenAI就开始探索做强化学习，Scaling Law又能再往上爬。我觉得它本质是在统一的路线上，第一个梯子放缓了，第二个梯子接着爬，那第二个梯子爬到头以后会不会有第三个，我觉得应该会有。

从微观层面上，大家至少看到了两个大的技术范式，一个是pre-training（预训练），一个是RL（强化学习）scaling。当然这里有个变化是，对于pre-training来说，人标注的数据要求越来越多，那强化学习需要人标注的数据量比预训练要少好几个量级。

接下来会不会有第三个范式是「人只要说十句话，模型自己就能创新了」，也是有可能的。这个梯子也不是必须一级一级地跨，我的态度是哪个有用就继续用，这里唯一的principle（原则）是要有一个scaling的路径。

5.您认为我们应该怎么看待蒸馏技术？这个技术难度是怎样的？

吴翼老师：

大家总觉得蒸馏是我有答案了，我让这个模型记住，这件事很简单。但什么题目、什么数据能带来最好的蒸馏效果？怎么用数据才能带来强化学习scaling的效果？这是未知的。所以蒸馏很看技术，如果你蒸馏出一个比原来的模型更厉害的，那我觉得好伟大，目前我们也在摸索怎样的数据用于微调效果最佳。

客观来说，蒸馏肯定能帮助模型少走一些弯路，试错时能少踩坑，找到正确的算法流程。但蒸馏本质是监督微调（Supervised Fine-Tuning，简称SFT），仅提供正确答案；而强化学习是一个自我探索的过程，它有正负反馈。所以强化学习训练得出的模型泛化能力是比SFT好的——如果你能做正确的强化学习，那么强化学习会带来更好的泛化效果。

6.到底什么样的数据能够真正提升模型的能力？数据标注或者SFT的地位，会不会逐渐被弱化？你怎么看待这个问题？

吴翼老师：

首先SFT本身不会弱化，因为它就是最简单的微调方式。但确实好的开源模型变多了之后，再加上模型能力的提升，所以简单标答案的工作需求会减少。

以后标注重不重要？标注重要。就目前来看，数据标注的市场还是很大。只是可能本来这个世界上有1万个人可以去做标注工作，现在只剩1000或100个人。因为我们现在需要标的是非常困难的题，标注需求已经转向“高质量数据”，所以产生高质量数据的人，TA的收入也会变得很高，数据的单价会高非常多倍，这也是数据的范式导致的。

今天的对话让我们看到，大模型能力跃迁的背后，隐藏着的技术密码。感谢吴翼老师的硬核分享，后面我们也会带给大家更多更前沿的分享。

玩酷网

从DeepSeek引发的：推理大模型背后的思考

普通人如何用Deepseek一年时间, 快速将1万变成100万?

DeepSeek 又放大招, 真是中国国运呀!

一个AI搬运工