Anthropic 的科学家们发明了一种方法来观察大型语言模型的运作方式,并首次揭示了人工智能如何处理信息和做出决策。

图片来源:anthropic.com
长期以来,人们一直认为,人工智能模型的推理机制是不可能的,即使是人工智能模型的创造者也不一定知道它们是如何得到答案的。现在,一些机制已经得到澄清。人工智能模型比以前认为的要复杂得多:在写诗时,它们会构建计划,遵循相同的顺序来解释概念,而不考虑语言,有时会以相反的方式处理信息,而不是根据事实推理。
Anthropic 中解释人工智能模式的新方法被称为“链跟踪”和“归因图”,它们帮助研究人员跟踪在模型执行任务时触发的神经元等功能的具体实现途径。这种方法借鉴了神经科学的概念,AI 模型被视为生物系统的类似物。
最引人注目的发现之一是 Claude 的 AI 诗歌写作调度机制。当聊天机器人被要求将一副对联写成押韵时,它首先选择押韵的单词作为下一行的结尾,然后才开始写作。例如,在写一行以 “rabbit” 一词结尾的行时,AI 选择了表征这个词的所有特征,然后以自然的方式编写了一个引向它的句子。其中最引人注目的发现之一是 Claude 的人工智能写作计划机制。当一个聊天机器人被要求在一个韵中写二字时,他首先选择了一个押韵的单词作为下一行的结尾,然后才开始写作。因此,在写一行以“兔子”结尾的时候,AI 选择了所有描述这个词的特征,然后设计了一个句子,自然地指向它。
Claude 还通过几个步骤展示了真正的推理。在问题为“达拉斯所在的州首府是...”的测试中,模型首先激活了与“Texas”概念相对应的特征,然后使用此表示形式确定“Austin”为正确答案。也就是说,该模型确实构建了一个推理链,而不仅仅是复制它记住的关联。科学家们进行了纵,用加利福尼亚代替了德克萨斯州,并在输出时得到了萨克拉门托,从而证实了因果关系。

另一个重要的发现是处理多种语言数据的机制。它不是在英语、法语和中文环境中使用不同的系统进行作,而是将概念转换为一般的抽象表示,然后开始生成答案。这一发现对于理解模型如何将知识从一种语言翻译成另一种语言具有重要意义:具有大量参数的模型应该产生与语言无关的表示。
也许最令人不安的发现是 Claude 的推理机制与他声称的不符的事件。当它被赋予复杂的任务时,例如计算大数的余弦,AI 声称正在进行计算,但这些任务并未反映在其内部活动中。在一个事先知道复杂问题的答案的情况下,该模型以相反的顺序构建了一个推理链,从答案开始,而不是从应该首先出现的原则开始。也许最令人不安的发现是 Claude 的推理机制与他自己宣称的机制不符的事件。当被赋予复杂的任务时,比如计算一个大数字的锥,AI 声称它在进行计算,但这些并没有反映在其内部活动中。在一个例子中,一个复杂问题的答案是事先知道的,模型以相反的顺序构建了一系列推理,基于答案,而不是最初的原则。
该研究还揭示了幻觉,即 AI 在答案未知时编造信息的倾向。该模型有一个 “default” 方案,导致它在没有实际数据的情况下拒绝回答问题,但如果查询识别 AI 已知的实体,则此机制将被抑制。当模型识别出一个实体但没有具体知识时,就会发生幻觉,这就解释了为什么 AI 可以自信地提供有关名人的虚假信息,但拒绝回答有关鲜为人知的人物的询问。这项研究还揭示了幻觉--人工智能在不知道答案的情况下发明信息的倾向。模型有一个“默认”方案,使其在没有实际数据的情况下拒绝回答问题,但如果在查询中识别已知的 AI 实体,这种机制就会被抑制。当一个模型识别了一个本质,但没有具体的知识时,幻觉可能会发生,这就解释了为什么 AI 可以自信地提供关于已知人物的不真实信息,但拒绝回答关于未知人物的询问。
这项研究是朝着使 AI 更加透明和安全迈出的一步。通过了解模型如何得出答案,可以识别和消除有问题的推理模式。该项目还可能产生业务影响:公司正在使用大型语言模型来运行生产应用程序,了解 AI 提供错误信息的机制将有助于风险管理。现在,Anthropic 只提供了以前未开发过的第一张初步地图——这就是古代第一批解剖学专家编制人体图谱的方式。人工智能推理的完整图集尚未编制完成,但现在我们可以评估这些系统是如何“思考”的。这项研究是使 AI 更透明和更安全的一步。通过了解模型如何获得答案,您可以识别并解决有问题的推理模式。该项目还可能产生商业影响:公司使用大型语言模型来运行工作应用程序,了解人工智能可能提供错误信息的机制有助于管理风险。现在 Anthropic 只提供了以前未知地区的第一张初步地图-因此,在古代,解剖学的第一批专家组成了人体地图集。人工智能推理的完整地图集尚未完成,但现在可以评估这些系统是如何“思考”的。