人工智能第一次，从“表现会做题”，走向“结构上知道怎么做题”

我们终于看到了AI“思考”的内部电路图。

美国旧金山的一家人工智能公司Anthropic的研究团队，用了一套叫“稀疏自编码器（SAE）”的机制，把语言大模型内部模糊不清的神经元活动，转化为可读、可控、可解释的特征电路图。那些我们一度以为只能靠经验调参、黑盒运行的模型，现在暴露出了结构性的“推理路径”。

第一步，研究者不是看模型输出什么，而是看它内部哪个神经元在什么时候激活。最早的发现是——单个神经元是“多义”的。它们会同时在莎士比亚和壁纸两个话题中激活，完全不能作为推理单元使用。但组合神经元，却可以。某些特定组合的神经元只在特定话题上激活，比如金门大桥，只要这个组合激活，模型就会往那个方向输出。这种组合就是“特征（feature）”。

于是，一个不可分辨的模型，突然变得局部可解。输入“Texas capital?”，模型激活“德州”特征神经元，再激活“首都”神经元，最终导向“奥斯汀”神经元。这个过程可以被完整追踪，甚至可以被人为干预。

如果我们“钳住”德州的特征神经元不激活，模型仍会回答一个首府，但不是德州的。而如果我们人为激活“California”而不是“Texas”，模型会改口说“Sacramento”。说明它并不是死记硬背某个问答对，而是沿用一个通用的“找首辅”电路，用不同的上下文信号，引导输出不同结果。这就是电路的可泛化性。

它还会“多跳”推理。

输入“达拉斯所在州的首府是？”模型会先识别“达拉斯”→“德州”，然后才继续使用“德州”→“奥斯汀”的路径。这是两层跳跃，中间过程是隐式完成的。电路图清晰呈现了这个过程，不是模糊判断，不是打标签，是推理路径。

它甚至会规划。

给出诗歌的第一句，它在开始生成第二句第一个词前，就已经在其内部激活多个“押韵候选词”。例如它知道第一句最后是“habit”，在处理“换行符”token时，它就开始在“rabbit”“habit”等词上提高神经元激活值。这不是简单回溯，而是目标导向式生成——知道最后要什么，反推前面怎么写。

这本质上打破了我们对自回归模型只能“从前往后”生成的刻板印象。它们可以用前缀规划后缀，再用这个目标反作用于当前词的选择。这就是规划能力的雏形。

这些电路不是硬编码的，而是通用的。问“中国的首都在哪”，和“法国的首都是哪”走的是同一条“国家→首都”的电路，只是输入特征不一样。模型会“组合使用”不同的电路子模块来生成新回答，而不是每个问题都新训练一条路径。

它还具备语言无关性。

不管你是用英语、中文还是西班牙语问，它内部激活的电路是一样的，只是在输入层加了一个“翻译+标准化”模块。这意味着它具备一种抽象层级的语义中枢。不同语言只是输入层皮肤，核心推理走的是统一机制。

在数学上，它的行为也有分层。

模型会直接记住1+1=2，但不会死记住1927+3482是多少。对于复杂加法，它会调用一个“加法电路”，里面包括进位处理、位移、顺序记忆。虽然不是手工写出来的算法，但其结构已经能匹配基础算术模块的逻辑流程。

同理，在医学推理中，它会先识别症状→激活可能疾病路径→输出诊断建议。它不是穷举模板，而是激活一条“问诊路径”。这套路径也可以被可视化为多层神经元组合——病因模块、症状模块、反馈模块、排除模块。

最关键的，是可干预性。

我们可以“拧掉”某个特征，模型就不会表现出对应行为。Anthropic用这种方法“钳住”某些特征后，模型的输出立刻变化。这给模型“对齐”带来了极大的潜力。过去我们只能靠调数据、加规则、罚分控制行为，现在我们可以直接“剪断”电路。

也就是说，我们可以从行为结果的层面，推进到结构干预的层面。这是AI研究中罕见的“中道突破”——不是理论空转，不是调参试错，而是真正理解模型怎么做出判断，从而实现控制。

但别高兴得太早。

研究也表明，模型依然在大量场景中依赖“模式记忆”。ByteDance的研究指出，仅仅是轻微改变提示词的顺序或语气，模型就会崩溃，无法调用正确电路，表现出明显的过拟合痕迹。

所以这不是通向通用智能的圣杯，而是一个复杂推理系统刚刚出现结构性可解释性的信号。我们才刚刚开始理解，AI不是“有意识”，也不是“懂”，它只是“组合神经元”更聪明了。

换句话说：AI开始“想了”，虽然不是我们那种“想”。

未来的发展很可能不靠堆参数，而靠改进算法结构。这些电路的形成，是训练过程中自然涌现的结果。想让它们更精准、更少冗余、更易泛化，就得做出新的机制创新。不是更大的GPT，而是更好的内部逻辑。

这是AI工程的“解剖学时代”。我们开始从大脑的外壳，进入神经回路，从“它表现出什么”，进入“它内部怎么形成这种表现”。当一个黑箱开始透明，它就不再只能被崇拜或恐惧，而是可以被理解、控制，乃至重构。

这就是Anthropic这项研究最大的价值。这是人工智能第一次，从“表现会做题”，走向“结构上知道怎么做题”。

玩酷网

人工智能第一次，从“表现会做题”，走向“结构上知道怎么做题”

老胡懂点星