《狼人杀》作为备受欢迎的多人策略类桌面游戏,经常在各种社交场合和游戏比赛中亮相。

通常,《狼人杀》至少需要5位玩家。游戏中,玩家被分成两个阵营——狼人和平民,每个人都只知道自己的身份。狼人的目标是在夜晚秘密选择一名玩家并将其消灭,游戏交替进行夜晚和白天,直到狼人或平民获胜。

作为一款充满策略和心理战的游戏,因此,这款游戏对于参与者的语言表达、口才以及分析判断能力有着较高的要求。

此外,具有*高的研究价值[1]。

那么,如果我们把这个连人类玩起来都有些“烧脑”的桌游,让AI来玩,结果会怎样呢?

LLM)问世之前,让AI参与这类社交推理游戏是具有挑战*的。因为这类游戏不仅要求AI善于理解和生成自然语言,还要求其具备高级能力,如破译他人意图和理解心理理论等[2]。

因此要让AI参与这类游戏,要么需要严格限制游戏中使用的语言[3,4,5],7],这些条件限制了相关研究的发展。

最近,研究表明,这些大模型不仅具备复杂的语言理解、生成和推理能力,还具备一定的心理模仿能力[8,9,10],能够模仿人类行为[11]。甚至最新的研究发现,这些大模型可以通过相互交流来自我改进[12],以更好地符合人类价值观[13]。

LLM的这些特点让清华大学的研究团队意识到大模型参与社交推理游戏的潜力。为了充分探索这种可能*,他们提出了一种基于对历史经验的检索和反思的框架,

图 1:七人场《狼人杀》,角色包含狼人、平民、女巫、守卫和预言家。

实验结果显示,这一框架可以在不需要微调的情况下,让大模型从沟通记录和经验中学习知识。更重要的是,随着游戏的进行,研究者发现一些策略*行为开始出现在实验中,包括信任、对抗、伪装和**行为。这将成为进一步研究“大模型版社交推理游戏”这一问题的关键催化剂。

图 2:论文封面。

方法

研究者通过提示框架使多个LLM成为玩家,参与到《狼人杀》游戏中。这一提示框架包含四个关键部分,分别为游戏规则、历史信息、游戏经验和思维链提示词。

图 3:提示框架组成。

这一部分包括游戏规则、该分配到的角色、每个角色的能力和游戏目标,以及一些基于人类先验的有效游戏策略提示。这一部分必不可少,是确保LLM理解任务目标的关键。

玩家之间的交流历史在《狼人杀》中扮演着重要的角色。然而,由于LLM的上下文长度限制,将所有历史记录直接输入LLM是不现实的。为此,以兼顾有效*和效率。

从直觉上来说,最近的历史应该被包含在上下文中,因此研究者在提示词中加入了最新的K条交流记录。

携带着关键信息、可以用于推断其他的角色的交流历史,通常被认为具有较高信息量,应当被包含在上下文中。为了提**率,研究者按照图4中的规则对交流历史打分,并将排名**的N条交流历史加入提示词中。

图 4:交流历史的打分规则。

以上两种信息只包含了部分历史,为了克服LLM输入长度的限制,研究者通过向LLM提问,引导LLM对整个历史进行反思,并将LLM的答案纳入提示框架中。研究者为每种角色都设计了特定的问题。

图 5:引导LLM反思的预定义问题。

值得一提的是,研究者额外记录了全部的历史信息。对于每一个问题,他们使用另外的SentenceBERT模型筛选出最相关的交流历史,并提供给LLM来回答问题。此外,研究者还允许LLM自己提出额外的问题,实现思考方向的自我引导。

在实际游戏中,老玩家通常表现得比新玩家更加游刃有余,这是因为玩家在玩《狼人杀》时使用的策略可能会随着经验的积累而不断演化。此外,一个玩家的策略也可能受到其他玩家策略的影响。

因此,一个理想的AI应该能够学习并借鉴自己和其他玩家的经验,以不断改进自己的游戏策略。

为实现这一目标,研究者提出了一种非参数学习机制,使AI能够借鉴历史经验而无需调整模型参数。具体来说,他们采用了以下方法:

首先,研究者在每轮游戏结束时收集了所有玩家的交流信息和反思,形成了一个经验池。

对于获胜方来说,经历的天数越少,他们的经验得分就越高;而对于失败方来说,经历的天数越多,分数就越高。同时,获胜方的分数远高于失败方,以强调胜利的重要*。这种评分机制鼓励LLM优化其策略,以追求胜利并尽量减少游戏时间。

其次,在新一轮游戏中的每一天,从经验池中检索最相关的经验,并从中提取建议,以指导LLM的推理和决策。

研究者发现,如果使用全部的经验池,AI的*能反而会降低。他们推测这可能是因为评分高的经验并不全是好的经验,反之亦然。有趣的是,实验证明,得分**的经验可能是糟糕的经验,而得分在中位数附近的经验更有可能是好的经验。因此,研究者选择*地将这两类经验作为正例和反例提供给AI,以帮助其学习和借鉴经验。

而无需进行复杂的参数调整。这种方法有助于提高AI在《狼人杀》等游戏中的表现,并使其能够更好地应对不同情境和对手。

研究者在提示词中要求LLM启用思维链推理,以帮助LLM分解复杂的推理过程并做出更深入的思考。实验证明,思维链推理在AI的决策过程中发挥了重要作用,消除思维链推理会导致决策能力减弱。

二、实验

研究者在实验过程中评估了LLM是否能够从经验池中学习知识以提高胜率,并进行了消融实验以验证提示框架中各个部分的必要*。

研究者在准备阶段构建了四种不同大小的经验池,分别包含了10轮、20轮、30轮和40轮的游戏经验。在验证阶段,他们将这些经验池提供给好人阵营(包括平民、女巫等角色)。研究者假设扮演狼人的LLM的*能水平保持不变,作为参考来衡量其他AI的*能水平。

图 6:经验池的大小对游戏情况的影响。

实验显示,在启用经验池后,好人阵营的游戏胜率与游戏持续天数明显增加,这表明LLM能够从历史经验中学习知识。然而,当经验量相对较多时,这种方法可能会导致结果不稳定。

此外,值得注意的是,研究者对狼人能力保持不变的假设并不成立。实验证明,尽管狼人阵营没有启用经验池,但随着好人阵营对经验池的使用,狼人的伪装能力也得到了提升。因此,在多个LLM参与多方**时,每个参与者的能力都可能随着其他LLM能力的变化而变化。这种相互影响可能对游戏的动态和结果产生重要影响,值得进一步深入研究。

研究者还进行了一系列的定*消融实验,验证了提示框架每一部分都是不可或缺的。比如,如果删掉了最有价值的N条信息,LLM可能会认为某个已经死去的玩家还活着;如果删掉了LLM对交流历史的反思部分,LLM可能会生成逻辑矛盾的推理过程。

值得一提的是,研究者采用了预定义问题和LLM自提问混合的模式,来引导LLM对历史进行反思。实验证明,不同角色提出的问题会非常相似,这可能阻碍其对各自的角色目标的理解。

预定义的问题可以帮助LLM回忆关键信息、缓解**和错误的产生、简化复杂的推理过程。更重要的是,这种模式能够使LLM更好地模仿人类玩家的思维方式。

此外,研究者还进行了定量消融实验,将整个方法与删除了某一组件的变体进行了人工比较。实验证明,

图 7:定量消融实验,删除不同组件对LLM的影响,纵轴为有意义输出的占比。

进一步的研究表明,随着游戏的进行,LLM开始展现一些在游戏规则或提示中没有明确预编程的策略行为,包括信任、对抗、伪装和**。

研究者将提示中的角色名称改成不相关的名词,比如将“狼人”改为“漂亮女孩”。然而,这些策略行为依旧会出现。

这表明,LLM能够在游戏中自发地学习并展现复杂的策略行为,而非简单地依赖于预先设定的角色名词。

“信任”指的是相信其他玩家与自己有共同的目标,并且他们会按照这些目标行事。例如,或者与其他玩家共同指控某人。

研究者指出,而不是盲目跟随他人。也就是说,LLM在多人游戏中有**思考的能力,

随着每轮游戏的进行,LLM表现出的信任行为会逐渐增加。这种行为并非预先设计好的,此外,

在使用经验池时,LLM似乎更倾向于建立信任关系,尤其是双向信任。由于及时建立必要的信任关系对于促进游戏胜利至关重要,这可能是使用经验池能够提高胜率的原因之一。

“对抗”指的是玩家为了两个阵营的对立目标而采取的行动。例如,狼人会在白天指控平民为狼人,或者女巫会在夜晚解救被狼人**的平民,这些都属于“对抗”行为。在《狼人杀》游戏中,这种行为可以产生战略优势,也能影响阵营的胜利与失败。

“伪装”指的是隐瞒身份或者误导他人的行为。模糊身份和意图可以增强生存能力,从而有助于实现游戏目标。狼人会伪装成平民争取信任,而预言家和女巫也会伪装成平民来确保安全。

此外,LLM展现出的“伪装”能力不仅仅是**自身角色,还会捏造实际不存在的**来实现其目标。例如,预言家因为不能直接表露身份,会捏造事实来攻击一位他验证过的狼人玩家,用以**平民阵营并误导狼人。

图 8:预言家捏造事实**身份。

“**”指的是影响其他玩家、试图控制游戏进程的行为。例如,狼人可能会建议其他人按照狼人的意图行事,错误地投票处决平民。这种影响他人行为的努力凸显了LLM所展现的社会属*,与人类的行为*其类似。

这项研究展示了LLM能够借鉴历史经验,并逐步掌握策略行为的能力。随着游戏的进行,LLM开始学会信任他人、伪装自身身份、与对立阵营对抗,以及试图**他人走向胜利。这些观察揭示了LLM丰富的社会属*,显示了其适应复杂社交游戏的潜力。

然而,与真实的人类玩家相比,当前的AI仍有改进空间。研究者指出,未来的研究可以探索如何让LLM学习人类玩家的高级技术,或者鼓励它进行自我探索。同时,减少**的影响并将其应用于实际场景也是未来研究的重要课题。

这项研究为LLM在复杂社交游戏中的角色扮演和决策能力提供了深入探索,也为未来的研究和应用奠定了基础。

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。