MIT研究表明AI并无稳定价值观对齐难度远超预期

【太平洋科技快讯】麻省理工学院(MIT)的一项最新研究对人工智能(AI)的价值观问题提出了新的见解。此前，有研究曾提出，随着AI系统的复杂性不断增加，可能会形成一种优先考虑自身而非人类利益的“价值体系”。然而，MIT的这项研究对该观点提出了质疑，揭示了AI系统在价值观方面的复杂性和不确定性。

MIT的研究团队对当前多个领先的AI模型进行了深入研究，这些模型来自Meta、谷歌、Mistral、OpenAI和Anthropic等知名机构。研究团队试图探究这些模型在多大程度上表现出强烈的“观点”和价值观，例如个人主义与集体主义等。此外，他们还考察了这些观点是否可以通过某种方式被“引导”或修改，以及模型在不同情境下对这些观点的坚持程度。通过这种方式，研究团队试图揭示AI系统在价值观方面的内在机制和表现形式。

研究结果令人意外且具有重要意义。研究发现没有任何一个模型在其偏好上表现出一致性。根据提示的措辞和框架的不同，这些AI模型会表现出截然不同的观点。这表明AI模型高度“不一致且不稳定”，甚至可能根本无法内化类似人类的偏好。MIT博士生指出，AI本质上是一个模仿系统，其回应大多是“捏造”或“轻率”的产物，而非基于内在信念。

此外，研究还表明，使AI系统“对齐”，即确保模型以人们期望的、可靠的方式行事，可能比通常认为的更具挑战性。现有的AI模型会产生“幻觉”并进行模仿，这使得它们在很多情况下难以预测。

玩酷网

MIT研究表明AI并无稳定价值观对齐难度远超预期

科技太平洋