テクノロジー

テンセントのHunyuan-GameCraftはワイルドなAIテクノロジーによるプレイ可能なビデオ生成

Avatar photo
Glowing forest path to castle, with “Powered by Hunyuan-Gamecraft” text

テンセントのHunyuanチームは、野心的であることが実証された新しいテクノロジー、Hunyuan-GameCraftをリリースしました。これは、AIが静止画像や短いクリップを生成することではなく、シンプルなテキストプロンプトからプレイ可能なビデオ体験を生成することについてです。 「湖の上のボート」と書くと、次の瞬間、リアルタイムでそのボートを運航することができます。

これは、AI生成ビデオにリアルタイムコントロールを導入し、動き、視点、ゲームのような流れを体験に持ち込みます。拡散モデルと大規模なゲームフッテージをバックエンドに、GameCraftはAIビデオ生成とリアルタイムプレイヤーコントロールを組み合わせます。

テンセントのHunyuan-GameCraftとは何か

Hunyuan-GameCraftは、テンセントのAIチームによって開発された拡散ベースのビデオ生成モデルです。特徴は、テキストまたは画像プロンプトを使用して制御可能なビデオシーンを生成できることです。シーンが作成されると、キーボードとマウスを使用してそれを探索できます。伝統的な3Dエンジンはありません。ビデオは、ユーザーのアクションに基づいて生成されます。

実際に何ができるか

テンセントのHunyuan-GameCraftは、ファーストパーソンとサードパーソンの視点をサポートし、スムーズな遷移を提供します。風景、都市の通り、戦場、またはSF環境を探索できます。視線の動きや歩行などのコントロールは、モデルの予測システムに結び付けられています。

コントロールは、WASDまたは矢印キーを使用して移動し、周囲を見回すことができます。AIは残りを処理します。裏では、入力を動きのヒントとして読み込み、各フレームをその基づいて生成しています。トレーニングデータには、100以上の人気ゲームからなる100万以上のビデオクリップが含まれています。その広範な露出は、モデルのさまざまな視覚スタイル(サイバーパンクの都市、中世の城、自然の風景など)を理解し、信頼性の高いものに再構築するのに役立ちます。

公開されたデモでは、シーンは多様で、視覚的に豊かです。都市の通り、雪景色、河岸、などを見ます。カットシーンや事前にレンダリングされたゲームレベルを移動しているように感じます。しかし、これらは研究プレビューとして見ることが重要です。見ているものは、高度にキュレーションされた出力です。プロンプトや長時間のインタラクションの幅広い範囲での品質や安定性が一貫して維持されるかどうかは、まだ明らかではありません。

他のプロジェクトも同様の目標を目指しています。 マイクロソフトのWHAMとMuseモデルは、学習されたルールに基づいて将来のゲームプレイフレームを予測することに重点を置いています。 オデッセイは、AIを使用してビデオを探索可能なシーンに変換する最近の例です。

Hunyuan GameCraftは裏でどう動いているのか

Hunyuan-GameCraftは、特殊なビデオ生成AI(拡散モデル)で構築されています。基本的な考え方は、キーボードとマウスの入力をビデオの「コンテキスト」または物語の一部として扱うことです。技術的には、これらのコントロールをカメラの動きの信号に変換し、どのように見たいかを知ることができます。次に、次のビデオフレームを予測し、フレームごとにクリップを生成方向に拡張します。

シーンがジャンプしないように、モデルは履歴ベースの方法を使用します。最後にどこまで進んだかを記憶しています(ゲーム状態をメモリに保持するように)ので、世界が突然別の場所にテレポートしません。開発者はこれを「ハイブリッド履歴条件付け」と呼んでいます。基本的に、古いフレームを時折自身に戻して、重要な詳細(オブジェクトの位置や照明など)が一貫して維持されるようにします。開発者は、モデルを蒸留する(大きなモデルを小さく迅速なものに圧縮する)ことで、GPUが強力であればほぼリアルタイムでキータップに追いつくようにしました。したがって、開始画像またはテキストプロンプトとキープレスのシーケンスを与えると、AIは新しい画像を予測し続け、シーン内を移動しているように見えます。特殊な履歴トリックのおかげで、ゲームワールドは時間の経過とともに大体一貫性を維持します。例えば、廊下を下りたり、180度回転したりしても、壁や床がグリッチしてしまうのではなく、そこに留まります。開発チームは、長時間にわたって3D的一貫性を維持することも実証しています。これは、生成されたビデオにとってかなり印象的な成果です。

ユースケース

ゲーム開発者やデベロッパーは、このテクノロジーをどのように活用できますか。基本的には、創造的なツールです。ゲームデザイナーは、瞬時に新しい環境やレベルアイデアをプロトタイプ化できます。ライターやディレクターは、説明を書いてからシーンを「プレイ」することで、ストーリーボードやカットシーンを生成できます。ゲームプレイヤーにとっては、カスタムミニゲームを即興で作成する(「火星でのドラゴン戦闘」を作りたい)ための楽しい方法となります。また、他のAIをトレーニングするのにも役立ちます。例えば、AIが生成する無限の仮想世界でロボットやエージェントをトレーニングできます。

現在、パブリックウェブアプリはありません。このテクノロジーは、視覚的な品質とレスポンス性の面でさらに洗練が必要です。他のモデルからのデモでは、カメラが遠すぎたり、回転が大きすぎたりすると、シーンが崩壊し始めることがあります。Hunyuanのハイブリッド履歴条件付けはこれを軽減しますが、大きな視点の変化はまだテクスチャのグリッチや歪んだ幾何学的形状を引き起こす可能性があります。現在、研究プレビューとして最もよく機能します。完全にプレイ可能な体験ではなく、可能なことのデモンストレーションです。

最終的な考え

この段階では、概念は固まっています。入力によって駆動されるビデオが、ゲームのような見た目や感覚を与える可能性は、明らかです。ただし、まだ初期段階です。これは、完成した製品ではなく、研究デモです。長時間のプレイセッション用の高解像度リアルタイム生成は、まだ技術的な課題です。

Amarはゲーミングの愛好家であり、フリーランスのコンテンツライターです。経験豊富なゲーミングコンテンツライターとして、最新のゲーミング業界のトレンドを常に把握しています。魅力的なゲーミング記事を制作している際に忙しくないときは、ベテランゲイマーとして仮想世界を支配している姿を見つけることができます。