参与魔王 蛋酱

1小时生成无限玩法,GPT-3加持的密室逃脱,让游戏策划师感受到了职场危机

1750 亿参数的 GPT-3,也许要拿走游戏从业者的饭碗了?

现在,你身处一款密室逃脱类游戏,主题是银行抢劫。

你的名字叫做「刚子」,你的同伙叫做「大力」。游戏的目标是用手提包装上保险箱和柜台的钱,尽快离开密室,而保险箱的密码只有银行柜员茹茹知道。如果警铃被触发,你们将只剩下 1 分钟的时间。

银行里有三个角色:茹茹、经理、顾客。游戏开发团队没有提前准备任何关于人物或剧情的脚本,仅仅设定了场景、人物和物理规则。比如银行柜员茹茹,是第一天来上班,其实很不老练;比如顾客其实是个投机的人,虽然他也没经历过什么激烈的大场面,但是他就是那种会想办法占一点便宜的人……

玩家可以使用 Enter 键输入任意文字和 NPC 进行对话,可以使用键盘上的 W、A、S、D 键控制角色行动,可以使用鼠标滚轮切换道具,用「枪」威胁或者射击 NPC,用「包」来装钱等等,从而推动剧情朝着不同方向发展。

背景就交代这么多,要回答的问题是:该游戏可能有多少种剧情走向?

  • 成功抢钱反被抢,痛下杀手夺钱回

  • 大力提前逃跑,刚子孤立无援

  • 茹茹监守自盗,偷拿柜台钞票

  • 顾客助纣为虐,合伙洗劫银行

  • ……


在 GPT-3 和来自 rct 的混沌球算法     的加持下,同一款游戏,也许会有一万种可能。而这种「无限可能性」恰好是未来游戏产品的核心竞争力。

下一代游戏,该怎么玩?

随着数字娱乐产业的发展,以及娱乐产品的迭代,数字娱乐中现代交互内容的工程复杂度不断提高。在 21 世纪的今天,玩家们早已不满足于固定剧情、固定规则、固定对话的游戏设置。

在 2019 年的 E3 游戏展上,主要游戏制造商推出的新一代数字娱乐交互内容已经贴上了「开放世界」和「开放故事线」的标签,其中包括著名的《赛博朋克 2077》、《看门狗》、《死亡搁浅》、《控制》和《底特律:成为人类》。

然而,在传统的技术和制作流程中,剧情、NPC 对话、动作触发等内容都需要手工创建。对极致游戏体验的追求势必会导致高昂的开发成本,每一个爆款的背后都是上千人的策划团队和巨额的资金投入。在这个问题上,人工智能技术有着巨大的应用潜力。

rct studio 是一家新型交互娱乐体验 AI 公司,成立于 2018 年,创始团队     在人工智能领域深耕多年。一直以来,rct studio 尝试利用 AI 生成故事和叙事,而这背后的技术正是基于强化学习的混沌球算法(Chaos Box Algorithm)。

简单来说,混沌球是⼀个基于深度强化学习的 AI 叙事引擎,被用来分析玩家的实时交互输⼊,并动态地⽣成虚拟⻆⾊的交互反应与新的故事情节。在不需要任何脚本的情况下,它就能控制游戏中虚拟⻆⾊的⾏为逻辑,并让其⾃发地产⽣⾮常智能的⾏为。

本文开头提到的游戏场景,就是 rct studio 基于混沌球算法制作的游戏原型「盗梦人」。

「欢迎来到盗梦人,你将以完全开放和沉浸的自由度进入游戏世界。」

虚拟角色的行为会受到游戏场景中其他角色的潜在影响。比如,当你开始伤害其他 NPC 的时候,同伙大力感到恐惧,甚至自己提前逃离了银行大堂(也是个猪队友)。

还比如,柜员茹茹最初拒绝交出保险柜密码,但玩家做出伤害它的动作之后,它感受到了逐渐增加的危险性,并选择了妥协。

在这些玩家所看到的人物表现背后,每一个虚拟角色都是由很多参数来决定的。如果对人物的性格和动机参数进行调整,还可以获得完全不一样的人设下的智能。

传统制作流程 vs 混沌球制作流程

文本对话其实是角色交互中非常重要的一块内容,为了让「盗梦人」中的 NPC 能够产生智能且动态的对话文本,rtc 团队拿到了今年 6 月发布的 OpenAI API 内测使用权,将其融合进了混沌球算法之中,让 NPC 自发地产生几乎无限的又非常生动有趣的自然语言对话。

GPT-3 生成对话。

GPT-3 是 OpenAI 发布的自动补全工具第三代,它的突出特点是运行规模和自动完成任务的惊人能力。自从 2018 年第一代 GPT 出世以来,这个项目经历了多年的发展,一直代表着 AI 文本生成方面的最新方向。

第一代 GPT 包含 1.17 亿个参数。2019 年发布的 GPT-2 包含 15 亿个参数,而 GPT-3 拥有 1750 亿个参数,它不仅能够答题、翻译、写文章,还带有一些数学计算的能力。

GPT-3 生成的新闻报道文本,与人类写的文章难以区分开来。与此同时,GPT-3 已经接受过大量数字书籍资料的训练,吸收了很多历史人物的观点与知识。人类可以像和哲学家聊天一样,与 GPT-3 进行对话。

除了对话生成以外,机器学习社区也正在挖掘 GPT-3 的巨大应用潜力,比如基于文本描述生成代码、基于问题的搜索引擎、图像补全等功能。

目前,「盗梦人」游戏已开放内测,申请地址:https://rct-studio.com/zh-hans/apply-for-a-trial

混沌球算法详解

根据数字娱乐行业基于场景的内容创建方法,交互式体验的整套流程可以切分为单个场景。每个场景需要输入和设置,同时还需提供输出结果。场景内的环境是封闭的,只对输入和输出开放、在整个过程中,它无法与外界交互。

下图展示了传统的叙事方法和基于混沌球的叙事方法:

从上图中可以看出,混沌球算法与传统的叙述方式大相径庭:混沌球将「事件」替换成用入口(entrance)和出口(exit)定义的黑箱。简单来讲,在每个混沌球内,开端和结尾(可能有一或多个)都是确定的。然而,每一次玩家如何从开端到达结尾是混乱的,路径也并不清晰。该路径由玩家在虚拟世界里与 NPC 持续互动来决定。NPC 对玩家的动作给予动态实时响应,推动基于深度强化学习模型的故事线推进。这也是「混沌球算法」的名称由来。

因此,真正交互叙事的关键在于将叙事核心从故事转移到故事中所有的参与者。那么,参与者的逻辑将驱动并连接出不同的故事版本。

游戏角色(包括玩家和 NPC)和环境中的交互对象都在场景内。玩家和 NPC 具备不同的个性、状态和动作集合。对象具备物理设置(包括方向、大小、形状、颜色等)、状态和支持动作。游戏角色的状态和设置后,会影响可行的动作集合。因此,在具备输入、设置和关闭条件的情况下,你可以使用模拟环境和深度强化学习模型,来探索该封闭场景内每个角色的行为策略,并利用合理一致的策略学习决策模型。同时,在特定场景中探索得到的策略还可以拆分和集成,并在后续场景中重用和进化。

因此,整个架构的核心就是场景设定,即「混沌球结构」。混沌球是特定游戏场景中的最小逻辑单元,它定义了场景内所有角色的动作和逻辑。

定义完混沌球中参与实体的属性后,将其置入模拟引擎并执行重复模拟和演绎。通过对应用规则进行约束修剪(constraint pruning),得到大量模拟过程数据,供学习模块学习。学习过程使用奖励函数作为直接反馈。随着模拟数据的增长,训练策略模型不断改进。策略模型还对模拟过程提供反馈,以提高训练速度。

模拟引擎的工作流程图如下所示: 

目前,强化学习在数字娱乐领域的应用主要是在智能体的开发上,它使得我们不需要标记的样本就能让智能体自主地在虚拟世界中进行探索与学习。比如,DeepMind 用 DQN 玩 Atari 游戏,用 AlphaGo 打败围棋高手。

而在以剧情或以故事体验为主的数字娱乐场景下,目前还没有较为成熟和高效的强化学习框架和解决方案。

这类数字娱乐内容里的智能体往往更加的多样和独立,且最重要的是,每个智能体的目标不像竞技性场景下那样明确和易于定义,因此又被称之为「多智能体多目标」的环境。

当玩家在虚拟世界中做出行动或说话时,每个 NPC 都会拥有自己独立的 AI 模型,它们将根据自己的决策模型做出反应,在有限的场景中提供动态和近乎无限的选择。

同时,AI 驱动的角色将与玩家一起协同产生更加复杂的故事情节,玩家也将不再局限于 NPC 之间的固定对话和 “僵硬” 的互动,从而获取无限且独特的娱乐体验。

rct studio:让故事拥有无限可能

rct studio 由 RavenTech(YC 2015,于 2017 年被百度收购)的核心成员创立,汇聚了来自人工智能、设计和商业化等各领域的人才,     至今      已从 Y Combinator、星瀚资本和 Makers Fund 获得了总共千万美元的融资。 

在 rct studio 的官方网站上,赫然写着这样一行字:「生活有无数种可能性。我们相信,我们谱写的故事也拥有无限可能。」

参考链接:

产业GPT-3
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

推荐文章
暂无评论
暂无评论~