MIT研究表明AI并无稳定价值观对齐难度远超预期

科技太平洋 2025-04-17 00:53:46

【太平洋科技快讯】麻省理工学院(MIT)的一项最新研究对人工智能(AI)的价值观问题提出了新的见解。此前,有研究曾提出,随着AI系统的复杂性不断增加,可能会形成一种优先考虑自身而非人类利益的“价值体系”。然而,MIT的这项研究对该观点提出了质疑,揭示了AI系统在价值观方面的复杂性和不确定性。

MIT的研究团队对当前多个领先的AI模型进行了深入研究,这些模型来自Meta、谷歌、Mistral、OpenAI和Anthropic等知名机构。研究团队试图探究这些模型在多大程度上表现出强烈的“观点”和价值观,例如个人主义与集体主义等。此外,他们还考察了这些观点是否可以通过某种方式被“引导”或修改,以及模型在不同情境下对这些观点的坚持程度。通过这种方式,研究团队试图揭示AI系统在价值观方面的内在机制和表现形式。

研究结果令人意外且具有重要意义。研究发现没有任何一个模型在其偏好上表现出一致性。根据提示的措辞和框架的不同,这些AI模型会表现出截然不同的观点。这表明AI模型高度“不一致且不稳定”,甚至可能根本无法内化类似人类的偏好。MIT博士生指出,AI本质上是一个模仿系统,其回应大多是“捏造”或“轻率”的产物,而非基于内在信念。

此外,研究还表明,使AI系统“对齐”,即确保模型以人们期望的、可靠的方式行事,可能比通常认为的更具挑战性。现有的AI模型会产生“幻觉”并进行模仿,这使得它们在很多情况下难以预测。

0 阅读:0

科技太平洋

简介:感谢大家的关注