科技

腾讯的 GameCraft 是一种用于可玩视频生成的野蛮 AI 技术

Published July 1, 2025

Updated March 31, 2026

Amar Roy

Glowing forest path to castle, with “Powered by Hunyuan-Gamecraft” text

腾讯的 Hunyuan 团队发布了一项真正雄心勃勃的项目：一种名为 Hunyuan-GameCraft 的新技术。这不是关于 AI 生成静态图像或短片，而是关于从简单的文本提示创建可玩的视频体验。写下“一艘船在湖上”，下一刻，你就可以在实时控制那艘船在平静的水面上行驶。

它将实时控制引入了 AI 生成的视频中，带来了运动、视角和游戏般的流畅感。凭借扩散模型和大规模游戏画面，GameCraft 将 AI 视频生成与实时玩家控制相结合。

什么是腾讯的 Hunyuan-GameCraft？

Hunyuan-GameCraft 是腾讯 AI 团队开发的基于扩散的视频生成模型。它与众不同的是，可以使用仅仅一个文本或图像提示生成一个可控的视频场景。一旦场景创建，你可以使用键盘和鼠标探索它，就像一个轻量版的可玩游戏。

例如，该模型可以接受“雪林小径”的提示并输出一个连续的视频，看起来像游戏画面。你可以向前移动，向左或向右转，模型会根据你的输入生成每一帧新的画面。没有传统的 3D 引擎在背后支持这一点。视频会根据你的行为而演变。

它实际上可以做什么

腾讯的 Hunyuan-GameCraft 支持第一人称和第三人称视角，并可以在它们之间平滑过渡。你可以探索风景、城市街道、战场，甚至是科幻环境。每一个运动，如四周张望或行走，都与模型的预测系统相关联。

控制方式熟悉，你可以使用 WASD 或箭头键移动和四周张望。AI 处理其余的事情。在幕后，它将你的输入读作运动提示，并根据此生成每一帧。训练数据包括来自 100 多个流行游戏的超过一百万个视频片段。这种广泛的接触有助于模型理解不同的视觉风格（如赛博朋克城市、 средневековые 城堡或自然风景）并使其可信地重建。

在到目前为止发布的演示中，场景多样，视觉效果丰富。你可以看到城市街道、雪景、河边等环境。它感觉就像移动通过一个剪辑或预渲染的游戏关卡。但是，必须将其视为研究预览。我们看到的输出是高度策划的。目前尚不清楚，质量在广泛的提示或更长时间的交互中会保持一致和稳定。

我们已经看到其他项目旨在实现类似的目标。 Microsoft 的 WHAM 和 Muse 模型专注于根据学习的规则预测未来的游戏帧。 Odyssey 是另一个最近的例子，它使用 AI 将视频转换为可探索的场景。

Hunyuan GameCraft 背后的工作原理

Hunyuan-GameCraft 建立在花哨的视频生成 AI（扩散模型）上，并带有特殊的技巧。关键思想是它将你的键盘/鼠标输入视为视频“上下文”或故事的一部分。从技术上讲，它将这些控制转换为一种摄像机移动信号，以便它知道你希望如何更改视角。然后它预测下一个视频帧，根据你“移动”的方向延伸视频片段。

为了防止场景跳跃，模型使用了一种基于历史的方法。它记住你离开的位置（有点像在内存中保持游戏状态），这样世界就不会突然传送到其他地方。他们称之为“混合历史条件”。基本上，它偶尔将旧帧重新输入自己，以便在你行走时保持重要细节（如物体位置和照明）的一致性。创建者还确保模型可以通过提取（即将大型模型缩小为较小、更快的模型）运行得更快。这样，它就可以跟上你的按键输入（几乎）实时，假设有一个强大的 GPU。

简而言之，你给它一个起始图像或文本提示和一系列按键。然后，AI 就会不断预测新的图像，使其看起来像你正在行走或探索场景。感谢特殊的历史技巧，游戏世界在时间上保持大致一致。例如，如果你走下一个走廊或转身 180°，墙壁和地板将保持在原位，而不是出现故障。该团队展示了它甚至可以在很长时间内保持 3D 一致性，这对于生成的视频来说是相当令人印象深刻的。

用例

那么，游戏玩家和开发者可以用这项技术做什么？在基本层面上，它是一种创意工具。游戏设计师可以使用它来即时原型化新的环境或关卡想法。作家和导演可以生成分镜头或剪辑，只需输入描述，然后通过“播放”场景来调整它们。对于游戏玩家来说，它可以是一种有趣的方式来体验自定义的迷你游戏，你可以即时创建（例如“我想要在火星上进行一场龙战斗”，然后你就可以控制它）。它还可以帮助训练其他 AI：例如，我们可以在 AI 生成的无尽虚拟世界中训练机器人或代理。

目前尚无公共 Web 应用程序，这项技术仍需要在视觉质量和响应性方面进行更多的改进。在其他类似模型的演示中，当摄像机移动太远或旋转太多时，场景可能会开始崩溃。Hunyuan 的混合历史条件减少了这种情况，但大型视角转换仍可能导致纹理故障或变形几何。目前，它最适合作为研究预览，展示了什么是可能的，而不是一个完全可玩的体验。