Connect with us

科技

腾讯的 GameCraft 是一种用于可玩视频生成的野蛮 AI 技术

Avatar photo
Glowing forest path to castle, with “Powered by Hunyuan-Gamecraft” text

腾讯的 Hunyuan 团队发布了一项真正雄心勃勃的项目:一种名为 Hunyuan-GameCraft 的新技术。这不是关于 AI 生成静态图像或短片,而是关于从简单的文本提示创建可玩的视频体验。写下“一艘船在湖上”,下一刻,你就可以在实时控制那艘船在平静的水面上行驶。

它将实时控制引入了 AI 生成的视频中,带来了运动、视角和游戏般的流畅感。凭借扩散模型和大规模游戏画面,GameCraft 将 AI 视频生成与实时玩家控制相结合。

什么是腾讯的 Hunyuan-GameCraft?

Hunyuan-GameCraft 是腾讯 AI 团队开发的基于扩散的视频生成模型。它与众不同的是,可以使用仅仅一个文本或图像提示生成一个可控的视频场景。一旦场景创建,你可以使用键盘和鼠标探索它,就像一个轻量版的可玩游戏。

例如,该模型可以接受“雪林小径”的提示并输出一个连续的视频,看起来像游戏画面。你可以向前移动,向左或向右转,模型会根据你的输入生成每一帧新的画面。没有传统的 3D 引擎在背后支持这一点。视频会根据你的行为而演变。

它实际上可以做什么

腾讯的 Hunyuan-GameCraft 支持第一人称和第三人称视角,并可以在它们之间平滑过渡。你可以探索风景、城市街道、战场,甚至是 科幻环境。每一个运动,如四周张望或行走,都与模型的预测系统相关联。

控制方式熟悉,你可以使用 WASD 或箭头键移动和四周张望。AI 处理其余的事情。在幕后,它将你的输入读作运动提示,并根据此生成每一帧。训练数据包括来自 100 多个流行游戏的超过一百万个视频片段。这种广泛的接触有助于模型理解不同的视觉风格(如赛博朋克城市、 средневековые 城堡或自然风景)并使其可信地重建。

在到目前为止发布的演示中,场景多样,视觉效果丰富。你可以看到城市街道、雪景、河边等环境。它感觉就像移动通过一个剪辑或预渲染的游戏关卡。但是,必须将其视为研究预览。我们看到的输出是高度策划的。目前尚不清楚,质量在广泛的提示或更长时间的交互中会保持一致和稳定。

我们已经看到其他项目旨在实现类似的目标。 Microsoft 的 WHAM 和 Muse 模型 专注于根据学习的规则预测未来的游戏帧。 Odyssey 是另一个最近的例子,它使用 AI 将视频转换为可探索的场景。

Hunyuan GameCraft 背后的工作原理

Hunyuan-GameCraft 建立在花哨的视频生成 AI(扩散模型)上,并带有特殊的技巧。关键思想是它将你的键盘/鼠标输入视为视频“上下文”或故事的一部分。从技术上讲,它将这些控制转换为一种摄像机移动信号,以便它知道你希望如何更改视角。然后它 预测下一个视频帧,根据你“移动”的方向延伸视频片段。

为了防止场景跳跃,模型使用了一种基于历史的方法。它记住你离开的位置(有点像在内存中保持游戏状态),这样世界就不会突然传送到其他地方。他们称之为“混合历史条件”。基本上,它偶尔将旧帧重新输入自己,以便在你行走时保持重要细节(如物体位置和照明)的一致性。创建者还确保模型可以通过提取(即将大型模型缩小为较小、更快的模型)运行得更快。这样,它就可以跟上你的按键输入(几乎)实时,假设有一个强大的 GPU。

简而言之,你给它一个起始图像或文本提示和一系列按键。然后,AI 就会不断预测新的图像,使其看起来像你正在行走或探索场景。感谢特殊的历史技巧,游戏世界在时间上保持大致一致。例如,如果你走下一个走廊或转身 180°,墙壁和地板将保持在原位,而不是出现故障。该团队展示了它甚至可以在很长时间内保持 3D 一致性,这对于生成的视频来说是相当令人印象深刻的。

用例

那么,游戏玩家和开发者可以用这项技术做什么?在基本层面上,它是一种创意工具。游戏设计师可以使用它来即时原型化新的环境或关卡想法。作家和导演可以生成分镜头或剪辑,只需输入描述,然后通过“播放”场景来调整它们。对于游戏玩家来说,它可以是一种有趣的方式来体验自定义的迷你游戏,你可以即时创建(例如“我想要在火星上进行一场龙战斗”,然后你就可以控制它)。它还可以帮助训练其他 AI:例如,我们可以在 AI 生成的无尽虚拟世界中训练机器人或代理。

目前尚无公共 Web 应用程序,这项技术仍需要在视觉质量和响应性方面进行更多的改进。在其他类似模型的演示中,当摄像机移动太远或旋转太多时,场景可能会开始崩溃。Hunyuan 的混合历史条件减少了这种情况,但大型视角转换仍可能导致纹理故障或变形几何。目前,它最适合作为研究预览,展示了什么是可能的,而不是一个完全可玩的体验。

最终想法

在这个阶段,概念是坚实的。可以看到输入驱动的视频可以被塑造以类似游戏的外观和感觉。但是,它仍然处于早期阶段。这是一个研究演示,而不是一个完成的产品。实时生成高分辨率的视频用于延长的游戏会话仍然是一个技术挑战。

Amar 是一位游戏爱好者和自由撰稿人。作为一位经验丰富的游戏内容撰稿人,他总是了解最新的游戏行业趋势。当他不忙于撰写引人入胜的游戏文章时,你可以找到他作为一位资深游戏玩家在虚拟世界中占据主导地位。

Advertiser Disclosure: Gaming.net is committed to rigorous editorial standards to provide our readers with accurate reviews and ratings. We may receive compensation when you click on links to products we reviewed. Please Play Responsibly: Gambling involves risk. Never bet more than you can afford to lose. If you or someone you know has a gambling problem, please visit GambleAware, GamCare, or Gamblers Anonymous. Casino Games Disclosure:  Select casinos are licensed by the Malta Gaming Authority. 18+ Disclaimer: Gaming.net is an independent informational platform and does not operate gambling services or accept bets. Gambling laws vary by jurisdiction and may change. Verify the legal status of online gambling in your location before participating.