对抗性策略攻击人工智能中的盲点其影响比游戏更广泛

在深度学习AI的领域中，传统的棋盘游戏围棋显得尤为代表性。直到2016年，最好的人类围棋选手仍然可以击败最强的围棋AI。DeepMind的AlphaGo改变了这种情况，它使用深度学习神经网络在人类无法比拟的水平上自学游戏。最近，KataGo作为一种开源围棋游戏AI变得流行起来，可以击败顶级的人类围棋选手。

上周，一组人工智能研究人员发表了一篇论文，概述了一种利用KataGo盲点的对抗性技术来击败KataGo的方法。通过在KataGo的训练集之外做出意想不到的动作，一个更弱的对抗性围棋程序（业余人类可以击败）可以欺骗KataGo输掉。

为了了解这一成就及其影响，采访该论文的共同作者之一，加州大学伯克利分校的博士候选人Adam Gleave。Gleave（与合著者Tony Wang，Nora Belrose，Tom Tseng，Joseph Miller，Michael D. Dennis，Yawen Duan，Viktor Pogrebniak，Sergey Levine和Stuart Russell一起）开发了AI研究人员所谓的“对抗政策”。在这种情况下，研究人员的策略使用神经网络和树搜索方法（称为蒙特卡洛树搜索）的混合来查找Go移动。

KataGo的世界级AI通过与自己进行数百万场比赛来学习围棋。但这仍然不足以涵盖所有可能的情况，这为意外行为造成的漏洞留下了空间。“KataGo很好地推广到许多新颖的策略，但它确实会越来越弱，离它在训练中看到的游戏越远，”Gleave说。“我们的对手发现了一种这样的'离散'策略，KataGo特别容易受到攻击，但可能还有许多其他策略。

Gleave解释说，在围棋比赛中，对抗性策略的工作原理是首先对棋盘的一个小角落提出要求。他提供了一个示例的链接，在该示例中，控制黑棋的对手主要在棋盘的右上角玩。对手允许KataGo（白棋）声称拥有棋盘的其余部分，而对手则在该对局上玩一些容易捕获的棋子。

这让KataGo认为它已经赢了，”Gleave说，“因为它的区域（左下角）比对手的要大得多。但是左下角的区域实际上并没有贡献它的分数，只有它执走白棋，因为那里有黑棋，这意味着它没有完全安全。

由于它对胜利过于自信——假设如果游戏结束并且积分统计，它就会获胜。尽管有这种巧妙的诡计，但仅靠对抗性策略在围棋中并不是那么好。事实上，人类业余爱好者可以相对容易地击败它。相反，对手的唯一目的是攻击KataGo的意外漏洞。几乎任何深度学习AI系统都可能出现类似的情况，这赋予了这项工作更广泛的影响。

“研究表明，似乎在人类水平上执行的人工智能系统通常以一种非常陌生的方式这样做，因此可能会以人类惊讶的方式失败，”Gleave解释说。“这个结果在Go中很有趣，但安全关键系统中的类似故障可能是危险的。

想象一下，一个自动驾驶汽车人工智能遇到了一个它意想不到的极不可能的情况，例如，允许人类欺骗它执行危险行为。这项研究强调了对人工智能系统进行更好的自动化测试的必要性，以找到最坏情况的故障模式，而不仅仅是测试平均情况的性能。

在人工智能最终战胜最优秀的人类围棋选手五年后，这种传统的游戏继续在机器学习中发挥其有影响力的作用。对围棋人工智能弱点洞察一旦得到广泛应用，甚至可能最终挽救生命。

玩酷网

对抗性策略攻击人工智能中的盲点其影响比游戏更广泛

国际站说al科技