テクノロジー
テンセントのGameCraftはプレイ可能なビデオ生成のためのワイルドなAI技術

テンセント 渾源 チームは真に野心的な技術「Hunyuan-GameCraft」を発表しました。これはAIが静止画や短い動画を生成するというものではありません。 シンプルなテキストプロンプトから再生可能なビデオ体験「湖の上のボート」と書いたら、次の瞬間には、そのボートを静かな水面上でリアルタイムに操縦していることになります。
AI生成ビデオにリアルタイム制御を導入し、動き、視点、 ゲームプレイのような流れを体験に取り入れる拡散モデルと大規模なゲーム映像を活用し、GameCraft は AI ビデオ生成とリアルタイムのプレイヤー制御を融合しています。
テンセントのHunyuan-GameCraftとは何ですか?
Hunyuan-GameCraftは、テンセントのAIチームが開発した拡散ベースの動画生成モデルです。テキストまたは画像のプロンプトだけで、操作可能な動画シーンを生成できるのが特徴で、シーンが生成されると、キーボードとマウスを使って操作できます。まるでプレイ可能なゲームの簡易版のようです。
例えば、モデルは「雪の森の小道」というプロンプトを入力すると、ゲームプレイのような連続動画を出力できます。前進したり、左折したり、右折したりすると、モデルは入力に基づいて新しいフレームを生成します。この仕組みには従来の3Dエンジンは使用されていません。動画はプレイヤーの行動に基づいて展開していきます。
実際に何ができるのか
テンセントのHunyuan-GameCraftは、一人称視点と三人称視点をサポートし、スムーズな切り替えが可能です。風景、街並み、戦場、さらには SF環境周囲を見回したり歩いたりするなどのあらゆる動きは、モデルの予測システムと結びついています。
操作は使い慣れたもので、WASDキーまたは矢印キーを使って移動したり周囲を見回したりできます。残りの作業はAIが処理します。舞台裏では、AIがユーザーの入力をモーションキューとして読み取り、それに基づいて各フレームを構築しています。トレーニングデータには、100以上の人気ゲームからXNUMX万本以上のビデオクリップが含まれています。この幅広いデータにより、モデルはサイバーパンクな都市、中世の城、自然の風景など、さまざまなビジュアルスタイルを理解し、リアルに再現することができます。
これまでに公開されたデモでは、シーンが多様で視覚的に豊かです。街の通り、雪景色、川辺など、様々な環境が描かれています。まるでカットシーンやプリレンダリングされたゲームステージを移動しているかのような感覚です。しかし、これらはあくまでもリサーチ段階のプレビューとして捉えることが重要です。私たちが目にしているのは、高度にキュレーションされたアウトプットであり、多様なプロンプトや長時間のインタラクションにおいて、品質の一貫性や安定性がどの程度保たれるかはまだ明らかではありません。
同様の目標を目指す他のプロジェクトも見てきました。 MicrosoftのWHAMとMuseモデル 学習したルールに基づいて将来のゲームプレイ フレームを予測することに焦点を当てます。 Odyssey これは、AI を使用してビデオを探索可能なシーンに変換する最近のもう 1 つの例です。
Hunyuan GameCraft は舞台裏でどのように機能するのでしょうか?
Hunyuan-GameCraftは、特殊なトリックを備えた高度な動画生成AI(拡散モデル)を基盤としています。鍵となるアイデアは、キーボード/マウス入力を動画の「文脈」またはストーリーの一部として扱うことです。技術的には、これらの操作を一種のカメラ移動信号に変換し、視点をどのように変更したいかを認識します。そして、 次のビデオフレームを予測する フレームごとに、クリップを「移動」する方向に拡張します。
シーンが飛び飛びにならないように、モデルは履歴ベースの手法を採用しています。ゲームを中断した場所を記憶し(ゲームの状態をメモリに保持するようなものです)、世界が突然別の場所にテレポートしないようにします。彼らはこれを「ハイブリッド履歴調整」と呼んでいます。つまり、モデルは時折、以前のフレームを自身にフィードバックすることで、プレイヤーが歩いている間も重要なディテール(オブジェクトの位置や照明など)の一貫性を保ちます。開発者たちはまた、モデルを蒸留(つまり、大きなモデルをより小さく、より高速なモデルに縮小)することで、モデルの実行速度を向上させました。これにより、高性能なGPUであれば、キー入力に(ほぼ)リアルタイムで追従できます。
簡単に言うと、開始画像またはテキストプロンプトと一連のキー入力を与えると、AIは新しい画像を予測し続けるため、プレイヤーが歩いているか、シーンを見回しているかのように見えます。特別な履歴トリックのおかげで、ゲームの世界は時間の経過とともにほぼ一定に保たれます。例えば、廊下を歩いたり、180度回転したりしても、壁や床はグリッチすることなく、元の位置に留まります。チームは、3Dの一貫性を長時間維持できることを示しており、これは生成されたビデオとしては非常に印象的です。
ユースケース
では、ゲーマーや開発者はこの技術を使って何ができるのでしょうか?基本的なレベルでは、これはクリエイティブツールです。ゲームデザイナーは、これを使って新しい環境やレベルのアイデアを即座にプロトタイプ化できます。脚本家や監督は、説明を入力するだけでストーリーボードやカットシーンを作成し、実際にシーンを「プレイ」することで微調整を加えることができるかもしれません。ゲーマーにとっては、カスタムミニゲームをその場で作成して楽しむことができるかもしれません(「火星でドラゴンと戦いたい」と言ったら、すぐに操作できるようになるなど)。また、他のAIのトレーニングにも役立ちます。例えば、AIが作り出す無限の仮想世界でロボットやエージェントをトレーニングすることも可能になります。
まだ公開ウェブアプリは公開されておらず、画質と応答性の面で技術の改良がまだ必要です。他の類似モデルのデモでは、カメラの動きが速すぎたり回転しすぎたりすると、シーンが崩れ始めることがあります。Hunyuanのハイブリッドヒストリーコンディショニングはこれを軽減しますが、視点の大幅な変化は依然としてテクスチャの不具合や形状の歪みを引き起こす可能性があります。現時点では、完全にプレイ可能な体験というよりも、研究段階のプレビュー、つまり可能性を示すものとして最適です。
最終的な考え
現段階では、コンセプトは固まっています。入力駆動型のビデオをゲームプレイのような見た目と感覚に仕上げる可能性は明らかです。しかし、まだ初期段階です。これは研究段階のデモであり、完成品ではありません。長時間プレイを想定した高解像度でのリアルタイム生成は、依然として技術的な課題です。











