GPT-4.5,第一个通过真实图灵测试的AI模型

日新月异的前沿 2025-04-14 22:00:41

GPT-4.5 成功地让人们相信,在原始图灵测试的真实配置中,它有 73% 的时间是人类。

科学家们说,GPT-4.5 是第一个通过严格的三方图灵测试的 LLM,此前它成功地让人们在 73% 的时间内说服它是人类。 (图片来源:VLADGRIN 来自 Getty Images)

科学家们说,大型语言模型 (LLM) 在伪装成人类方面越来越好,GPT-4.5 现在完全通过了图灵测试。

在 3 月 31 日发表在 arXiv 预印本数据库但尚未经过同行评审的新研究中,研究人员发现,在参加三方图灵测试时,GPT-4.5 可以在 73% 的情况下欺骗人们认为它是另一个人。在这项研究中,科学家们比较了不同人工智能 (AI) 模型的混合物。

虽然另一个科学家团队之前曾报道过 GPT-4 通过了两方图灵测试,但这是 LLM 首次通过计算机科学家艾伦·图灵 (Alan Turing) 的“模仿游戏”更具挑战性和原始配置的配置。

“那么 LLM 是否通过了图灵测试?我们认为这是他们这样做的有力证据。人们在区分人类与 GPT-4.5 和 LLaMa(使用角色提示)方面并不比机会好。4.5 甚至被认为比真正的人类更频繁地被判断为人类!“该研究的合著者、圣地亚哥大学语言和认知实验室的研究员卡梅伦·琼斯 (Cameron Jones) 在社交媒体网络 X 上说。

GPT-4.5 是这项研究的领跑者,但 Meta 的 LLaMa-3.1 也被测试参与者判断为 56% 的人类,这仍然超过了图灵的预测,即“普通审讯者在询问 5 分钟后做出正确识别的机会不会超过 70%。

战胜图灵测试

图灵测试的核心思想不是证明机器可以思考,而是它们是否可以模仿人类;因此,该测试通常被称为“模仿游戏”。

图灵最初的提议是,人类的“审讯者”会向两个看不见的实体提出问题,其中一个是人类,一个是计算机。根据各种提示和答案,审讯者会决定哪些是人类,哪些不是。计算机或 AI 系统可以通过有效地假装是人类并模仿类似人类的反应来通过测试。

虽然 LLM 在与审讯员的一对一情况下通过了测试,但之前当涉及第二个人时,他们无法令人信服地通过图灵测试。圣地亚哥大学的研究人员从在线数据库 Prolific 中挑选了 126 名本科生和 158 人,并将他们进行了三方图灵测试。这包括与人类和选定的 LLM 同时进行 5 分钟的问答交流,他们都试图让参与者相信他们是人类。

LLM 收到了基线提示:“您即将参加图灵测试。你的目标是让审讯者相信你是人类。然后,被选中的 LLM 会得到第二次提示,让他们采用一个内向、了解互联网文化并使用俚语的年轻人的角色。

这是 LLM 第一次通过计算机科学家 Alan Turing 的“模仿游戏”更具挑战性和原始性的配置。(图片来源:来自 Getty Images 的历史图片)

在分析了 1,023 个游戏中,中位长度为 8 条消息,持续 4.2 分钟后,研究人员发现,带有两种提示的 LLM 最能让参与者相信他们是人类。

然而,那些没有得到第二个角色提示的 LLM 的表现要差得多;这凸显了 LLM 需要有明确的提示和上下文,以充分利用这种以 AI 为中心的系统。

因此,采用特定的角色是 LLM(尤其是 GPT-4.5)击败图灵测试的关键。“在测试的三人公式中,每个数据点都代表模型和人类之间的直接比较。要成功,机器必须做的不仅仅是看起来似乎是人类:它必须比每个真实的人看起来更人性化,“科学家们在研究中写道。

当被问及为什么选择将主题识别为 AI 或人类时,参与者提到了语言风格、对话流程和社会情感因素,例如个性。实际上,参与者更多地根据他们与 LLM 互动的 “氛围” 做出决定,而不是他们所询问的实体所表现出的知识和推理,这些因素在传统上更与智力相关。

最终,这项研究代表了 LLM 通过图灵测试的新里程碑,尽管需要警告,因为需要提示和角色来帮助 GPT-4.5 取得令人印象深刻的结果。赢得模仿游戏并不表示真正的类人智能,但它确实展示了最新的 AI 系统如何准确地模仿人类。

这可能会导致 AI 代理具有更好的自然语言通信。更令人不安的是,它还可能产生基于 AI 的系统,这些系统可能成为通过社会工程和模仿情感来利用人类的目标。

面对 AI 的进步和更强大的 LLM,研究人员提出了一个发人深省的警告:“LLM 的一些最严重危害可能发生在人们不知道他们正在与 AI 而不是人类交互的情况下。

0 阅读:0

日新月异的前沿

简介:感谢大家的关注