你好,这里是学ai网,继续跟你分享人工智能相关的新鲜见闻。
今天分享的是AI在谈判策略方面的进展,主角是来自Facebook母公司Meta开发的一个叫“西塞罗”的AI模型,它在一款由多名真人玩家参与的谈判策略战棋类游戏中,超过了大部分人的表现。
早在1997年深蓝在国际象棋比赛中击败加里·卡斯帕罗夫之前,棋盘游戏就已经成为衡量人工智能成就的一个有用指标。
2016年,谷歌AlphaGo击败世界围棋冠军李世石,将此类AI带到一个新的高度。
此前,AI的成功主要体现在纯粹的对抗性环境中,如国际象棋、围棋和扑克。在这些环境中,与对手交流没有价值,AI可以不断和自己进行游戏来学习,即通过具有足够计算和模型能力的自我游戏能力来解决问题。
但这款游戏不同,过去被认为是人工智能难以克服的挑战,因为需要掌握理解其他玩家的动机和观点,并制定复杂的计划以自然语言与其他人类玩家完成协议,在过程中还需要不断调整策略,最终创建伙伴关系和联盟,才有可能胜利。
这款游戏叫《外交》,是一款在海外风靡了60多年的,主打谈判和策略的战棋类游戏。
游戏《外交》的画面(来自官网webdiplomacy.net)
游戏背景设定在一战前的欧洲,一般有4—7名玩家参与,他们各自扮演不同的欧洲国家英、法、德、意、奥匈、俄国和土耳其,拥有棋盘上的一部分“领土”和“兵力”。
在每一回合游戏开始之前,玩家之间可以通过公开或者私下谈判,讨论是否形成联盟、宣战,或是设定一些外交底线。在商量完策略之后,游戏回合正式开始,玩家们既可以按照之前承诺的方式调动兵力,也可以选择欺骗和背叛。
在多个回合之后,谁能够在棋盘上获得超过一半的“领土”,谁就胜出。
可以看出,游戏规则本身并不复杂。真正复杂的,是参与游戏的真人玩家之间,通过对话,探讨行动策略,取得相互信任,乃至达成协议的过程。
这种跟真人谈判的工作,在过去被认为是最不适合AI从事的工作之一。
这里面的难点主要有三个。
首先是要求AI能够根据游戏进展,制定出符合玩家共同利益,且让自己获胜的策略。
其次,要运用恰当的语言表述,取得其他玩家的信任,使得其他玩家按照AI指定的策略来行动。
第三,当然是不能被别的玩家发现自己只是一个算法。
那么,这个叫“西塞罗”的算法是怎么做到的呢?
这个算法主要包含两部分:策略推理(类似于AlphaGo)和自然语言处理(类似于GPT-3)。
先说策略推理部分。在每一回合开始之前,“西塞罗”会运用“策略推理”模块,根据棋盘上各个玩家的当前“兵力分配”,计算出一套可以取胜的行动策略。进一步地,“西塞罗”还会把这套策略实施之后其他玩家可能的反应也纳入考虑。经过反复迭代之后,最终形成一个最有可能获胜,而且容易获得其他玩家支持的行动策略。确定策略之后,接下来就是说服工作。
“西塞罗”会将“策略推理”模块得出的结论输入到“自然语言处理”模块中,这个模块负责将冷冰冰的行动策略,转化成容易被真人玩家听懂并且信任的谈判语言。
这个过程可不仅仅是把AI的策略翻译成顺畅的人话这么简单。AI的表达还要考虑到之前跟这个玩家已经达成了哪些共识、有哪些合作或者背叛记录等等,根据对方的行事风格,来做出更有针对性的谈判。
“西塞罗”在游戏中与人类对话
在经过4万多盘游戏数据的训练之后,“西塞罗”在今年的8—10月被“悄悄”放到了线上平台去参与游戏。
进行中的游戏界面
在《外交》游戏的40场匿名在线比赛中,“西塞罗”的平均得分是人类选手的两倍多,在72小时的比赛中,它发送了5277条信息,在不止一场比赛中排名前10%,最终的成绩超过了90%的真人玩家。
当然,Meta公司研发“西塞罗”,绝不仅仅只是为了让它成为游戏高手。
这项研究的意义在于,第一次把策略推理和自然语言处理这两个相距很远的AI领域进行了有效整合,让AI能够进行“有目的的沟通”。
我们以往听到的一些AI语言模型,比如AI写作、AI聊天等等,这些算法生成的对话其实都没有明确的目的性。只是根据大量过去的对话记录,猜出来下一步大概应该说啥。
而这项研究中的“西塞罗”,是有一个明确的说服目标,所有对话内容,都需要围绕这个目标而生成。这种带有目的和策略的对话机器人,就比过去那种漫无目的的闲聊,有了更多的应用价值。
比如,在AI客服领域,这种对话模型就可以更好地针对客户遇到的问题,制订符合客户利益的策略,并且把客户导向具体的行动。
再比如,在游戏设计领域,这种对话模型也可以让游戏里面的NPC根据玩家过去的经历生成对话,让玩家每一次玩游戏的时候,都能体验不同的剧情。
但此项技术也被视作双刃剑。它可以用来操纵人类,通过模仿人类并根据上下文发言,以危险的方式欺骗人类。对此,Meta希望研究人员能够“以负责任的方式”构建代码,并表示已采取步骤检测和删除“这个新领域中的有害信息”,这可能是指“西塞罗”从摄入的互联网文本中学习到的对话,这对于大型语言模型来说是一个风险。
目前Meta的“西塞罗”研究发表在《自然》杂志上,标题为“通过将语言模型与战略推理相结合,在《外交》游戏中进行人类水平的游戏”。