人工智能第一次,从“表现会做题”,走向“结构上知道怎么做题”

老胡懂点星 2025-04-05 15:00:34

我们终于看到了AI“思考”的内部电路图。

美国旧金山的一家人工智能公司Anthropic的研究团队,用了一套叫“稀疏自编码器(SAE)”的机制,把语言大模型内部模糊不清的神经元活动,转化为可读、可控、可解释的特征电路图。那些我们一度以为只能靠经验调参、黑盒运行的模型,现在暴露出了结构性的“推理路径”。

第一步,研究者不是看模型输出什么,而是看它内部哪个神经元在什么时候激活。最早的发现是——单个神经元是“多义”的。它们会同时在莎士比亚和壁纸两个话题中激活,完全不能作为推理单元使用。但组合神经元,却可以。某些特定组合的神经元只在特定话题上激活,比如金门大桥,只要这个组合激活,模型就会往那个方向输出。这种组合就是“特征(feature)”。

于是,一个不可分辨的模型,突然变得局部可解。输入“Texas capital?”,模型激活“德州”特征神经元,再激活“首都”神经元,最终导向“奥斯汀”神经元。这个过程可以被完整追踪,甚至可以被人为干预。

如果我们“钳住”德州的特征神经元不激活,模型仍会回答一个首府,但不是德州的。而如果我们人为激活“California”而不是“Texas”,模型会改口说“Sacramento”。说明它并不是死记硬背某个问答对,而是沿用一个通用的“找首辅”电路,用不同的上下文信号,引导输出不同结果。这就是电路的可泛化性。

它还会“多跳”推理。

输入“达拉斯所在州的首府是?”模型会先识别“达拉斯”→“德州”,然后才继续使用“德州”→“奥斯汀”的路径。这是两层跳跃,中间过程是隐式完成的。电路图清晰呈现了这个过程,不是模糊判断,不是打标签,是推理路径。

它甚至会规划。

给出诗歌的第一句,它在开始生成第二句第一个词前,就已经在其内部激活多个“押韵候选词”。例如它知道第一句最后是“habit”,在处理“换行符”token时,它就开始在“rabbit”“habit”等词上提高神经元激活值。这不是简单回溯,而是目标导向式生成——知道最后要什么,反推前面怎么写。

这本质上打破了我们对自回归模型只能“从前往后”生成的刻板印象。它们可以用前缀规划后缀,再用这个目标反作用于当前词的选择。这就是规划能力的雏形。

这些电路不是硬编码的,而是通用的。问“中国的首都在哪”,和“法国的首都是哪”走的是同一条“国家→首都”的电路,只是输入特征不一样。模型会“组合使用”不同的电路子模块来生成新回答,而不是每个问题都新训练一条路径。

它还具备语言无关性。

不管你是用英语、中文还是西班牙语问,它内部激活的电路是一样的,只是在输入层加了一个“翻译+标准化”模块。这意味着它具备一种抽象层级的语义中枢。不同语言只是输入层皮肤,核心推理走的是统一机制。

在数学上,它的行为也有分层。

模型会直接记住1+1=2,但不会死记住1927+3482是多少。对于复杂加法,它会调用一个“加法电路”,里面包括进位处理、位移、顺序记忆。虽然不是手工写出来的算法,但其结构已经能匹配基础算术模块的逻辑流程。

同理,在医学推理中,它会先识别症状→激活可能疾病路径→输出诊断建议。它不是穷举模板,而是激活一条“问诊路径”。这套路径也可以被可视化为多层神经元组合——病因模块、症状模块、反馈模块、排除模块。

最关键的,是可干预性。

我们可以“拧掉”某个特征,模型就不会表现出对应行为。Anthropic用这种方法“钳住”某些特征后,模型的输出立刻变化。这给模型“对齐”带来了极大的潜力。过去我们只能靠调数据、加规则、罚分控制行为,现在我们可以直接“剪断”电路。

也就是说,我们可以从行为结果的层面,推进到结构干预的层面。这是AI研究中罕见的“中道突破”——不是理论空转,不是调参试错,而是真正理解模型怎么做出判断,从而实现控制。

但别高兴得太早。

研究也表明,模型依然在大量场景中依赖“模式记忆”。ByteDance的研究指出,仅仅是轻微改变提示词的顺序或语气,模型就会崩溃,无法调用正确电路,表现出明显的过拟合痕迹。

所以这不是通向通用智能的圣杯,而是一个复杂推理系统刚刚出现结构性可解释性的信号。我们才刚刚开始理解,AI不是“有意识”,也不是“懂”,它只是“组合神经元”更聪明了。

换句话说:AI开始“想了”,虽然不是我们那种“想”。

未来的发展很可能不靠堆参数,而靠改进算法结构。这些电路的形成,是训练过程中自然涌现的结果。想让它们更精准、更少冗余、更易泛化,就得做出新的机制创新。不是更大的GPT,而是更好的内部逻辑。

这是AI工程的“解剖学时代”。我们开始从大脑的外壳,进入神经回路,从“它表现出什么”,进入“它内部怎么形成这种表现”。当一个黑箱开始透明,它就不再只能被崇拜或恐惧,而是可以被理解、控制,乃至重构。

这就是Anthropic这项研究最大的价值。这是人工智能第一次,从“表现会做题”,走向“结构上知道怎么做题”。

0 阅读:0

老胡懂点星

简介:感谢大家的关注