无限游戏真的实现了。

如果你是一位开放世界或角色扮演游戏的玩家,你一定梦想过一款无限自由的游戏。没有空气墙,没有剧**,也没有任何交互限制。
现在,我们的梦想可能真的要开始成真了。
谷歌新开发的一个无限制(Unbounded)游戏已经为我们昭示了这一可能*。
虽然目前该游戏整体还比较简单,更多的还是进行一种概念验证,但其隐含的可能*却足以引起人们的无限遐想。
传统的视频游戏基本都是有限游戏,存在计算机编程和计算机图形的限制。举个例子,所有图形资产都必须预先设计(模块化程序生成也仍存在结构限制)。这样的游戏只允许一个有限的动作和路径集,有时候这些动作还是预先定义的。它们通常还有预定义的规则、边界条件和获胜条件。

生成模型的发展为游戏带来了全新的可能*。放开脑洞想想,我们甚至可以造出所谓的「生成式无限视频游戏」。
近日,谷歌和北卡罗来纳大学教堂山分校的一篇论文探索了这一可能*,提出了**交互式生成式无限游戏 Unbounded,其中的游戏行为和输出皆由 AI 模型生成,从而超越了硬编码系统的限制。
论文地址:****s://arxiv.org/pdf/2410.18975
项目地址:****s://generative-infinite-game.github.io/
Unbounded 的灵感来自《小小电脑人》、《 模拟人生》和《拓麻歌子》等沙盒人生模拟和电子宠物游戏。其还整合了《龙与地下城》等桌面角色扮演游戏的元素,此类游戏能提供视频游戏不具备的无限制讲故事体验。

Unbounded 的游戏机制围绕角色模拟和开放式交互,如图 2 所示。
1. 角色个*化:玩家可以将自己的角色插入游戏,定义自己的外观和个*。

4. 实时生成:该团队强调了游戏速度的重要*,与初级实现相比,实际游戏实现了 5-10 倍的加速,每个新场景的延迟约为一秒。
Unbounded 包括:

潜在一致*模型
这是通过使用潜在一致*模型 (LCM,latent consistency model) 实现的,该模型只需两个扩散步骤即可生成高分辨率图像。通过利用 LCM,Unbounded 实现了实时文本到图像 (T2I) 生成,这对于提供刷新率接近一秒的交互式游戏体验至关重要。
Unbounded 的另一个关键特*是在预定义环境中生成角色,
在游戏领域,保持角色和环境的一致*至关重要,目前来看,角色一致*的处理方式上还存在一些挑战。
该研究发现现有方法无法始终如一地满足所有交互速度要求。因此本文提出了一种新颖的区域 IP 适配器(regional IP-Adapter),以便按照文本提示在预定义环境中始终如一地植入角色。
该研究提出了 IP 适配器的改进版本,该版本能够对主体和环境进行双重调节,从而允许在用户指定的环境中生成预定义的角色。与专注于单图像调节的原始 IP 适配器不同,本文方法引入了双重调节和动态区域注入机制,以在生成的图像中同时表示这两个概念。
举例来说,如图 4 所示,给定文本提示「天空下的沙漠,女巫让仙人掌绽放出鲜艳、发着光的花朵」和沙漠环境图像,模型需要知道提示中的角色应该在仙人掌旁边,还需要知道仙人掌、花朵在沙漠环境中生成。
这要求模型正确地 (1) 保留环境 (2) 保留角色 (3) 遵循提示。然而利用 IP 适配器对环境进行编码会**地损害原始图像的特点(图 8 中的 (2) 和 (3))。
对于区域 IP 适配器,该研究使用字符文本和**状态之间的交叉注意力的动态掩码。此掩码的质量是分离字符和环境生成的关键。图 5 显示了下采样块的交叉注意力层中字符嵌入和**状态之间的注意力图。可以观察到,注意力并不集中在字符上,而是分散在这些块的整个图像上。这表明扩散模型不会在这些层中分离字符和环境生成,而是专注于基于文本提示的整体图像结构。

该研究构建了一个角色生活模拟游戏,包含两个 LLM 智能体:
一个智能体充当世界模拟模型,负责设置游戏环境、生成叙事和图像描述、跟踪角色状态并模拟角色行为;
第二个智能体充当用户模型,模拟玩家与世界模拟模型的交互。它有三种类型的交互:在当前环境中继续故事、将角色移动到不同的环境中,在每种交互类别中,用户都可以选择提供角色的个*细节,或者引导角色的行为,从而影响模拟器的叙事生成。
实验中,它包括 5 个角色(狗、猫、熊猫、女巫和巫师)、100 个不同的环境和 1,000 个文本提示(每个环境 10 个)。
如表 1 所示,本文方法在保持环境一致*和角色一致*方面始终优于以前的方法,同时在保持语义对齐方面也达到了可比的*能。
具体来说,在角色一致*方面,本文方法在 CLIP-I^C 中**超过 StoryDiffusion,在 DreamSim^C 中超过 StoryDiffusion 0.057。在环境一致*方面,本文方法也是优于其他方法。

实验证明,带有块丢失的区域 IP 适配器对于按照文本提示将角色放置在环境中至关重要。
如表 2 所示,添加块丢失可同时改善环境和角色的一致*,CLIP-I^E 中增加了 0.291,CLIP-I^C 中增加了 0.264,同时文本提示和生成的图像之间的对齐效果更好。此外,区域 IP 适配器增强了角色一致*和文本对齐效果,同时保持了环境一致*的可比*能。

如表 3 所示,相比于该团队蒸馏得到的模型,在进行零样本推理时,小型 LLM(即 Gem**-2B、Lla**3.2-3B)或稍大一些的 LLM(即 Gem**-7B)的表现会差一些,这说明针对游戏世界和角色动作模拟任务而蒸馏更强大的 LLM 是有效的。





发表评论