Tecnologia
La tecnologia di gioco di Tencent è una tecnologia AI selvaggia per la generazione di video giocabili
Il team Hunyuan di Tencent ha rilasciato qualcosa di veramente ambizioso: una nuova tecnologia chiamata Hunyuan-GameCraft. Questo non riguarda l’AI che genera immagini fisse o clip brevi. Si tratta di creare esperienze di video giocabili da semplici prompt di testo. Scrivi “una barca su un lago” e il momento dopo, stai guidando quella barca attraverso acque calme in tempo reale.
Introduce il controllo in tempo reale nella generazione di video AI, portando movimento, prospettiva e flusso di gioco simile nell’esperienza. Supportato da modelli di diffusione e da grandi quantità di footage di gioco, GameCraft combina la generazione di video AI con il controllo del giocatore in tempo reale.
Cosa è Hunyuan-GameCraft di Tencent?
Hunyuan-GameCraft è un modello di generazione di video basato su diffusione sviluppato dal team di intelligenza artificiale di Tencent. Ciò che lo distingue è la capacità di generare una scena di video controllabile utilizzando solo un prompt di testo o un’immagine. Una volta creata la scena, puoi esplorarla utilizzando la tastiera e il mouse, come una versione leggera di un gioco giocabile.
Ad esempio, il modello può prendere il prompt “un sentiero nella foresta innevata” e output un video continuo che sembra gameplay. Puoi muoverti in avanti, girare a sinistra o a destra e il modello genera ogni nuovo frame in base al tuo input. Non c’è un motore 3D tradizionale dietro questo. Il video evolve in base alle tue azioni.
Cosa può effettivamente fare
Hunyuan-GameCraft di Tencent supporta viste in prima persona e in terza persona, con transizioni fluide tra loro. Puoi esplorare paesaggi, strade cittadine, campi di battaglia o anche ambienti di fantascienza. Ogni movimento come guardare intorno o camminare è legato al sistema di previsione del modello.
I controlli sono familiari, poiché puoi utilizzare le chiavi WASD o le frecce per muoverti e guardare intorno. L’AI gestisce il resto. Dietro le quinte, sta leggendo i tuoi input come cue di movimento e costruendo ogni frame in base a quello. I dati di addestramento includono oltre un milione di clip video da più di 100 giochi popolari. Quella vasta esposizione aiuta il modello a comprendere diversi stili visivi (come città cyberpunk, castelli medievali o paesaggi naturali) e a ricostruirli in modo credibile.
Nei demo rilasciati finora, le scene sono variegate e visivamente ricche. Vedi ambienti come strade cittadine, paesaggi innevati, rive dei fiumi e molto altro. Sembra vicino a muoversi attraverso una scena di cutscene o un livello di gioco pre-renderizzato. Ma è importante considerare questi come anteprime di ricerca. Ciò che stiamo vedendo è un output altamente curato. Non è ancora chiaro quanto sia consistente o stabile la qualità sarebbe su una vasta gamma di prompt o interazioni più lunghe.
Abbiamo visto altri progetti che mirano a obiettivi simili. I modelli WHAM e Muse di Microsoft si concentrano sulla previsione di frame di gameplay futuri in base a regole apprese. Odyssey è un altro esempio recente che trasforma un video in una scena esplorabile utilizzando l’AI.
Come funziona Hunyuan GameCraft dietro le quinte?
Hunyuan-GameCraft è costruito su una tecnologia AI di generazione di video (modelli di diffusione) con trucchi speciali. L’idea chiave è che tratta i tuoi input di tastiera/mouse come parte del “contesto” o della storia del video. Tecnicamente, converte quei controlli in un tipo di segnale di movimento della telecamera in modo che sappia come vuoi cambiare la prospettiva. Quindi prevede i prossimi frame del video frame per frame, estendendo il clip nella direzione in cui ti “muovi”.
Per evitare che la scena salti intorno, il modello utilizza un metodo basato sulla storia. Ricorda dove ti sei fermato (un po’ come tenere lo stato del gioco in memoria) in modo che il mondo non si teletrasporti improvvisamente da un’altra parte. Lo chiamano “condizionamento ibrido della storia”. Fondamentalmente, occasionalmente alimenta i vecchi frame di nuovo dentro di sé in modo che i dettagli importanti (come la posizione degli oggetti e l’illuminazione) rimangano coerenti mentre ti muovi. I creatori hanno anche assicurato che il modello possa essere eseguito più velocemente distillandolo (cioè riducendo un modello grande in uno più piccolo e veloce). In questo modo può tenere il passo con i tuoi tocchi di tastiera in (quasi) tempo reale, dato un GPU potente.
In breve, gli dai un’immagine di partenza o un prompt di testo e una sequenza di pressioni di tasti. L’AI quindi continua a prevedere nuove immagini in modo che sembri che tu stia camminando o guardando intorno alla scena. Grazie al trucco speciale della storia, il mondo del gioco rimane approssimativamente coerente nel tempo. Ad esempio, se cammini giù per un corridoio o ti giri di 180°, i muri e il pavimento rimarranno al loro posto invece di glitchare. Il team mostra che mantiene addirittura la coerenza 3D per un lungo periodo, il che è abbastanza impressionante per un video generato.
Casi d’uso
Quindi cosa possono fare i giocatori e gli sviluppatori con questa tecnologia? A un livello di base, è uno strumento creativo. I designer di giochi potrebbero utilizzarlo per prototipare nuovi ambienti o idee di livelli istantaneamente. Gli scrittori e i registi potrebbero generare storyboards o scene di cutscene semplicemente digitando descrizioni e poi modificarle “giocando” attraverso la scena. Per i giocatori, potrebbe essere un modo divertente per sperimentare mini-giochi personalizzati che crei al volo (come “Voglio una battaglia con un drago su Marte” e improvvisamente puoi controllarlo). Potrebbe anche aiutare ad addestrare altri AI: ad esempio, potremmo addestrare robot o agenti in mondi virtuali infiniti che l’AI crea.
Non c’è ancora un’app web pubblica e la tecnologia necessita ancora di ulteriore raffinamento in termini di qualità visiva e di risposta. Nei demo di altri modelli simili, quando la telecamera si muove troppo o ruota troppo, la scena può iniziare a rompersi. Il condizionamento ibrido della storia di Hunyuan riduce questo, ma grandi spostamenti di prospettiva possono ancora causare glitch di texture o geometria distorta. Al momento, funziona meglio come anteprima di ricerca, qualcosa che mostra cosa è possibile, piuttosto che un’esperienza completamente giocabile.
Pensieri finali
A questo stadio, il concetto è solido. C’è un potenziale visibile in come il video guidato dall’input possa essere plasmato per sembrare e sentirsi come gameplay. Ma è ancora presto. Questo è un demo di ricerca, non un prodotto finito. La generazione in tempo reale ad alta risoluzione per sessioni di gioco prolungate è ancora una sfida tecnica.