GPT-4.5，第一个通过真实图灵测试的AI模型

GPT-4.5 成功地让人们相信，在原始图灵测试的真实配置中，它有 73% 的时间是人类。

科学家们说，GPT-4.5 是第一个通过严格的三方图灵测试的 LLM，此前它成功地让人们在 73% 的时间内说服它是人类。（图片来源：VLADGRIN 来自 Getty Images）

科学家们说，大型语言模型（LLM）在伪装成人类方面越来越好，GPT-4.5 现在完全通过了图灵测试。

在 3 月 31 日发表在 arXiv 预印本数据库但尚未经过同行评审的新研究中，研究人员发现，在参加三方图灵测试时，GPT-4.5 可以在 73% 的情况下欺骗人们认为它是另一个人。在这项研究中，科学家们比较了不同人工智能（AI）模型的混合物。

虽然另一个科学家团队之前曾报道过 GPT-4 通过了两方图灵测试，但这是 LLM 首次通过计算机科学家艾伦·图灵（Alan Turing）的“模仿游戏”更具挑战性和原始配置的配置。

“那么 LLM 是否通过了图灵测试？我们认为这是他们这样做的有力证据。人们在区分人类与 GPT-4.5 和 LLaMa（使用角色提示）方面并不比机会好。4.5 甚至被认为比真正的人类更频繁地被判断为人类！“该研究的合著者、圣地亚哥大学语言和认知实验室的研究员卡梅伦·琼斯（Cameron Jones）在社交媒体网络 X 上说。

GPT-4.5 是这项研究的领跑者，但 Meta 的 LLaMa-3.1 也被测试参与者判断为 56% 的人类，这仍然超过了图灵的预测，即“普通审讯者在询问 5 分钟后做出正确识别的机会不会超过 70%。

战胜图灵测试

图灵测试的核心思想不是证明机器可以思考，而是它们是否可以模仿人类;因此，该测试通常被称为“模仿游戏”。

图灵最初的提议是，人类的“审讯者”会向两个看不见的实体提出问题，其中一个是人类，一个是计算机。根据各种提示和答案，审讯者会决定哪些是人类，哪些不是。计算机或 AI 系统可以通过有效地假装是人类并模仿类似人类的反应来通过测试。

虽然 LLM 在与审讯员的一对一情况下通过了测试，但之前当涉及第二个人时，他们无法令人信服地通过图灵测试。圣地亚哥大学的研究人员从在线数据库 Prolific 中挑选了 126 名本科生和 158 人，并将他们进行了三方图灵测试。这包括与人类和选定的 LLM 同时进行 5 分钟的问答交流，他们都试图让参与者相信他们是人类。

LLM 收到了基线提示：“您即将参加图灵测试。你的目标是让审讯者相信你是人类。然后，被选中的 LLM 会得到第二次提示，让他们采用一个内向、了解互联网文化并使用俚语的年轻人的角色。

这是 LLM 第一次通过计算机科学家 Alan Turing 的“模仿游戏”更具挑战性和原始性的配置。（图片来源：来自 Getty Images 的历史图片）

在分析了 1,023 个游戏中，中位长度为 8 条消息，持续 4.2 分钟后，研究人员发现，带有两种提示的 LLM 最能让参与者相信他们是人类。

然而，那些没有得到第二个角色提示的 LLM 的表现要差得多;这凸显了 LLM 需要有明确的提示和上下文，以充分利用这种以 AI 为中心的系统。

因此，采用特定的角色是 LLM（尤其是 GPT-4.5）击败图灵测试的关键。“在测试的三人公式中，每个数据点都代表模型和人类之间的直接比较。要成功，机器必须做的不仅仅是看起来似乎是人类：它必须比每个真实的人看起来更人性化，“科学家们在研究中写道。

当被问及为什么选择将主题识别为 AI 或人类时，参与者提到了语言风格、对话流程和社会情感因素，例如个性。实际上，参与者更多地根据他们与 LLM 互动的 “氛围” 做出决定，而不是他们所询问的实体所表现出的知识和推理，这些因素在传统上更与智力相关。

最终，这项研究代表了 LLM 通过图灵测试的新里程碑，尽管需要警告，因为需要提示和角色来帮助 GPT-4.5 取得令人印象深刻的结果。赢得模仿游戏并不表示真正的类人智能，但它确实展示了最新的 AI 系统如何准确地模仿人类。

这可能会导致 AI 代理具有更好的自然语言通信。更令人不安的是，它还可能产生基于 AI 的系统，这些系统可能成为通过社会工程和模仿情感来利用人类的目标。

面对 AI 的进步和更强大的 LLM，研究人员提出了一个发人深省的警告：“LLM 的一些最严重危害可能发生在人们不知道他们正在与 AI 而不是人类交互的情况下。

玩酷网

GPT-4.5，第一个通过真实图灵测试的AI模型

日新月异的前沿