Technologie
La technologie d’IA GameCraft de Tencent est une technologie d’IA sauvage pour la génération de vidéos interactives
L’équipe Hunyuan de Tencent a publié quelque chose d’ambitieux : une nouvelle technologie appelée Hunyuan-GameCraft. Il ne s’agit pas de l’IA générant des images fixes ou des clips courts. Il s’agit de créer des expériences de vidéos interactives à partir de simples invites de texte. Écrivez « un bateau sur un lac », et le moment d’après, vous conduisez ce bateau à travers des eaux calmes en temps réel.
Il introduit le contrôle en temps réel dans les vidéos générées par l’IA, apportant le mouvement, la perspective et le flux de type jeu dans l’expérience. Étayé par des modèles de diffusion et des séquences de jeu à grande échelle, GameCraft combine la génération de vidéos par l’IA avec le contrôle en temps réel du joueur.
Qu’est-ce que le Hunyuan-GameCraft de Tencent ?
Hunyuan-GameCraft est un modèle de génération de vidéos basé sur la diffusion développé par l’équipe d’IA de Tencent. Ce qui le distingue est la capacité de générer une scène de vidéo contrôlable à l’aide d’une invite de texte ou d’image. Une fois la scène créée, vous pouvez l’explorer à l’aide du clavier et de la souris, comme une version légère d’un jeu interactif.
Par exemple, le modèle peut prendre l’invite « un sentier forestier enneigé » et produire une vidéo continue qui ressemble à un gameplay. Vous pouvez avancer, tourner à gauche ou à droite, et le modèle génère chaque nouvelle trame en fonction de vos entrées. Il n’y a pas de moteur 3D traditionnel derrière cela. La vidéo évolue en fonction de vos actions.
Ce qu’il peut vraiment faire
Le Hunyuan-GameCraft de Tencent prend en charge les vues en première et en troisième personne, avec des transitions fluides entre elles. Vous pouvez explorer des paysages, des rues de ville, des champs de bataille ou même des environnements de science-fiction. Chaque mouvement, comme regarder autour de soi ou marcher, est lié au système de prédiction du modèle.
Les commandes sont familières, car vous pouvez utiliser les touches WASD ou les touches fléchées pour bouger et regarder autour de vous. L’IA gère le reste. Derrière les scènes, il lit vos entrées comme des invites de mouvement et construit chaque trame en fonction de cela. Les données de formation comprennent plus d’un million de clips vidéo provenant de plus de 100 jeux populaires. Cette large exposition est ce qui aide le modèle à comprendre différents styles visuels (comme les villes cyberpunk, les châteaux médiévaux ou les paysages naturels) et à les reconstruire de manière crédible.
Dans les démos publiées jusqu’à présent, les scènes sont variées et visuellement riches. Vous voyez des environnements tels que des rues de ville, des paysages enneigés, des rives de rivière et plus. Cela ressemble à se déplacer à travers une scène cinématique ou un niveau de jeu pré-rendu. Mais il est important de considérer ces démos comme des aperçus de recherche. Ce que nous voyons est une sortie hautement ciblée. Il n’est pas encore clair combien la qualité serait cohérente ou stable sur une large gamme d’invites ou de longues interactions.
Nous avons vu d’autres projets visant des objectifs similaires. Les modèles WHAM et Muse de Microsoft se concentrent sur la prédiction des trames de gameplay futures en fonction de règles apprises. Odyssey est un autre exemple récent qui transforme une vidéo en une scène exploitable à l’aide de l’IA.
Comment fonctionne le Hunyuan GameCraft derrière les scènes ?
Le Hunyuan-GameCraft est construit sur une technologie d’IA de génération de vidéos (modèles de diffusion) avec des astuces spéciales. L’idée clé est qu’il traite vos entrées de clavier/souris comme faisant partie du « contexte » ou de l’histoire de la vidéo. Techniquement, il convertit ces commandes en un type de signal de mouvement de caméra afin de savoir comment vous souhaitez que le point de vue change. Ensuite, il prévoit les trames de vidéo suivantes image par image, en prolongeant la séquence dans la direction que vous « déplacez ».
Pour empêcher la scène de sauter, le modèle utilise une méthode basée sur l’historique. Il se souvient de l’endroit où vous vous êtes arrêté (un peu comme maintenir l’état du jeu en mémoire) afin que le monde ne se téléporte pas soudainement ailleurs. Ils appellent cela « conditionnement d’historique hybride ». Fondamentalement, il réinjecte occasionnellement les anciennes trames en lui-même afin que les détails importants (comme la position des objets et l’éclairage) restent cohérents lorsque vous marchez. Les créateurs ont également veillé à ce que le modèle puisse fonctionner plus rapidement en le distillant (c’est-à-dire en réduisant un grand modèle à un plus petit et plus rapide). De cette façon, il peut suivre vos frappes de touche en (presque) temps réel, étant donné une GPU puissante.
En résumé, vous lui donnez une image ou une invite de texte de départ et une séquence de frappes de touche. L’IA prévoit ensuite de nouvelles images afin qu’il semble que vous marchiez ou que vous regardiez autour de la scène. Grâce à l’astuce d’historique spéciale, le monde du jeu reste grossièrement cohérent dans le temps. Par exemple, si vous marchez le long d’un couloir ou que vous tournez 180°, les murs et le sol resteront en place au lieu de dysfonctionner. L’équipe montre qu’il préserve même la cohérence 3D pendant une longue période, ce qui est plutôt impressionnant pour une vidéo générée.
Cas d’utilisation
Alors, qu’est-ce que les joueurs et les développeurs peuvent faire avec cette technologie ? À un niveau de base, c’est un outil créatif. Les concepteurs de jeux pourraient l’utiliser pour créer instantanément de nouveaux environnements ou des idées de niveaux. Les écrivains et les réalisateurs pourraient générer des storyboards ou des scènes cinématiques simplement en tapant des descriptions, puis les modifier en « jouant » à travers la scène. Pour les joueurs, ce pourrait être un moyen amusant d’expérimenter des mini-jeux personnalisés que vous créez sur le fly (comme « Je veux un combat de dragon sur Mars » et soudainement vous pouvez le contrôler). Cela pourrait également aider à former d’autres IA : par exemple, nous pourrions former des robots ou des agents dans des mondes virtuels infinis que l’IA crée.
Il n’y a pas encore d’application Web publique, et la technologie nécessite encore plus de raffinement en termes de qualité visuelle et de réactivité. Dans les démos d’autres modèles similaires, lorsque la caméra se déplace trop loin ou tourne trop, la scène peut commencer à se décomposer. Le conditionnement d’historique hybride de Hunyuan réduit cela, mais les grands changements de perspective peuvent toujours provoquer des glitches de texture ou une géométrie déformée. Pour l’instant, cela fonctionne mieux comme un aperçu de recherche, quelque chose qui montre ce qui est possible, plutôt qu’une expérience de jeu complètement jouable.
Pensées finales
À ce stade, le concept est solide. Il y a un potentiel visible dans la façon dont la vidéo à invite peut être façonnée pour ressembler et se sentir comme un gameplay. Mais c’est encore tôt. Il s’agit d’une démo de recherche, et non d’un produit terminé. La génération en temps réel à haute résolution pour des sessions de jeu prolongées est toujours un défi technique.











