科技
腾讯的 GameCraft 是一种用于可玩视频生成的野蛮 AI 技术
腾讯的 Hunyuan 团队发布了一项真正雄心勃勃的项目:一种名为 Hunyuan-GameCraft 的新技术。这不是关于 AI 生成静态图像或短片,而是关于从简单的文本提示创建可玩的视频体验。写下“一艘船在湖上”,下一刻,你就可以在实时控制那艘船在平静的水面上行驶。
它将实时控制引入了 AI 生成的视频中,带来了运动、视角和游戏般的流畅感。凭借扩散模型和大规模游戏画面,GameCraft 将 AI 视频生成与实时玩家控制相结合。
什么是腾讯的 Hunyuan-GameCraft?
Hunyuan-GameCraft 是腾讯 AI 团队开发的基于扩散的视频生成模型。它与众不同的是,可以使用仅仅一个文本或图像提示生成一个可控的视频场景。一旦场景创建,你可以使用键盘和鼠标探索它,就像一个轻量版的可玩游戏。
例如,该模型可以接受“雪林小径”的提示并输出一个连续的视频,看起来像游戏画面。你可以向前移动,向左或向右转,模型会根据你的输入生成每一帧新的画面。没有传统的 3D 引擎在背后支持这一点。视频会根据你的行为而演变。
它实际上可以做什么
腾讯的 Hunyuan-GameCraft 支持第一人称和第三人称视角,并可以在它们之间平滑过渡。你可以探索风景、城市街道、战场,甚至是 科幻环境。每一个运动,如四周张望或行走,都与模型的预测系统相关联。
控制方式熟悉,你可以使用 WASD 或箭头键移动和四周张望。AI 处理其余的事情。在幕后,它将你的输入读作运动提示,并根据此生成每一帧。训练数据包括来自 100 多个流行游戏的超过一百万个视频片段。这种广泛的接触有助于模型理解不同的视觉风格(如赛博朋克城市、 средневековые 城堡或自然风景)并使其可信地重建。
在到目前为止发布的演示中,场景多样,视觉效果丰富。你可以看到城市街道、雪景、河边等环境。它感觉就像移动通过一个剪辑或预渲染的游戏关卡。但是,必须将其视为研究预览。我们看到的输出是高度策划的。目前尚不清楚,质量在广泛的提示或更长时间的交互中会保持一致和稳定。
我们已经看到其他项目旨在实现类似的目标。 Microsoft 的 WHAM 和 Muse 模型 专注于根据学习的规则预测未来的游戏帧。 Odyssey 是另一个最近的例子,它使用 AI 将视频转换为可探索的场景。
Hunyuan GameCraft 背后的工作原理
Hunyuan-GameCraft 建立在花哨的视频生成 AI(扩散模型)上,并带有特殊的技巧。关键思想是它将你的键盘/鼠标输入视为视频“上下文”或故事的一部分。从技术上讲,它将这些控制转换为一种摄像机移动信号,以便它知道你希望如何更改视角。然后它 预测下一个视频帧,根据你“移动”的方向延伸视频片段。
为了防止场景跳跃,模型使用了一种基于历史的方法。它记住你离开的位置(有点像在内存中保持游戏状态),这样世界就不会突然传送到其他地方。他们称之为“混合历史条件”。基本上,它偶尔将旧帧重新输入自己,以便在你行走时保持重要细节(如物体位置和照明)的一致性。创建者还确保模型可以通过提取(即将大型模型缩小为较小、更快的模型)运行得更快。这样,它就可以跟上你的按键输入(几乎)实时,假设有一个强大的 GPU。
简而言之,你给它一个起始图像或文本提示和一系列按键。然后,AI 就会不断预测新的图像,使其看起来像你正在行走或探索场景。感谢特殊的历史技巧,游戏世界在时间上保持大致一致。例如,如果你走下一个走廊或转身 180°,墙壁和地板将保持在原位,而不是出现故障。该团队展示了它甚至可以在很长时间内保持 3D 一致性,这对于生成的视频来说是相当令人印象深刻的。
用例
那么,游戏玩家和开发者可以用这项技术做什么?在基本层面上,它是一种创意工具。游戏设计师可以使用它来即时原型化新的环境或关卡想法。作家和导演可以生成分镜头或剪辑,只需输入描述,然后通过“播放”场景来调整它们。对于游戏玩家来说,它可以是一种有趣的方式来体验自定义的迷你游戏,你可以即时创建(例如“我想要在火星上进行一场龙战斗”,然后你就可以控制它)。它还可以帮助训练其他 AI:例如,我们可以在 AI 生成的无尽虚拟世界中训练机器人或代理。
目前尚无公共 Web 应用程序,这项技术仍需要在视觉质量和响应性方面进行更多的改进。在其他类似模型的演示中,当摄像机移动太远或旋转太多时,场景可能会开始崩溃。Hunyuan 的混合历史条件减少了这种情况,但大型视角转换仍可能导致纹理故障或变形几何。目前,它最适合作为研究预览,展示了什么是可能的,而不是一个完全可玩的体验。
最终想法
在这个阶段,概念是坚实的。可以看到输入驱动的视频可以被塑造以类似游戏的外观和感觉。但是,它仍然处于早期阶段。这是一个研究演示,而不是一个完成的产品。实时生成高分辨率的视频用于延长的游戏会话仍然是一个技术挑战。











