Teknik

Tencents GameCraft är vild AI-teknik för spelbara videogenerering

Avatar photo
Glowing forest path to castle, with “Powered by Hunyuan-Gamecraft” text

Tencents Hunyuan team har släppt något riktigt ambitiöst: en ny teknik som kallas Hunyuan-GameCraft. Detta handlar inte om att AI genererar stillbilder eller korta klipp. Det handlar om att skapa spelbara videoupplevelser från enkla textprompter. Skriv “en båt på en sjö” och nästa ögonblick är du på väg att styra den båten över lugna vatten i realtid.

Det introducerar realtidskontroll i AI-genererad video, vilket bringar rörelse, perspektiv och spel-likt flöde in i upplevelsen. Stödd av diffusionsmodeller och storskalig spelvideo, GameCraft kombinerar AI-videogenerering med realtidskontroll.

Vad är Tencents Hunyuan-GameCraft?

Hunyuan-GameCraft är en diffusionsbaserad videogenereringsmodell som utvecklats av Tencents AI-team. Vad som särskiljer den är förmågan att generera en kontrollerbar videoscen med hjälp av enbart en text- eller bildprompt. När scenen är skapad kan du utforska den med hjälp av tangentbord och mus, som en lätt version av ett spel.

Till exempel kan modellen ta emot prompten “en snöig skogsväg” och producera en kontinuerlig video som ser ut som gameplay. Du kan gå framåt, vända till vänster eller höger, och modellen genererar varje nytt bildruta baserat på dina inmatningar. Det finns ingen traditionell 3D-motor bakom detta. Videon utvecklas baserat på dina handlingar.

Vad kan den faktiskt göra?

Tencents Hunyuan-GameCraft stöder första- och tredjepersonsvyer, med smidiga övergångar mellan dem. Du kan utforska landskap, stadsgator, slagfält eller till och med sci-fi-miljöer. Varje rörelse, som att titta runt eller gå, är kopplad till modellens förutsägelsesystem.

Kontrollerna är bekanta, eftersom du kan använda WASD eller piltangenter för att gå och titta runt. AI hanterar resten. Bakom kulisserna läser den dina inmatningar som rörelsehint och bygger varje bildruta baserat på det. Träningsdata inkluderar över en miljon videoklipp från mer än 100 populära spel. Den breda exponeringen är vad som hjälper modellen att förstå olika visuella stilar (som cyberpunkstäder, medeltida slott eller naturlandskap) och återuppföra dem på ett trovärdigt sätt.

I de demos som släppts hittills är scenerna varierade och visuellt rika. Du ser miljöer som stadsgator, snöiga landskap, flodstränder och mer. Det känns nära att röra sig genom en cutscene eller en förrenderad spelnivå. Men det är viktigt att se dessa som forskningsförhandsvisningar. Vad vi ser är högt kuraterat utmatning. Det är inte ännu klart hur konsekvent eller stabil kvaliteten skulle vara över en bred palett av prompter eller längre interaktioner.

Vi har sett andra projekt som syftar till liknande mål. Microsofts WHAM och Muse-modeller fokuserar på att förutsäga framtida gameplay-ramar baserat på lärt regler. Odyssey är ett annat nyligt exempel som förvandlar video till en utforskbar scen med hjälp av AI.

Hur fungerar Hunyuan GameCraft bakom kulisserna?

Hunyuan-GameCraft byggs på avancerad videogenererings-AI (diffusionsmodeller) med speciella knep. Den viktigaste idén är att den behandlar dina tangentbords- och musinmatningar som en del av videots “kontext” eller berättelse. Tekniskt sett omvandlar den dessa kontroller till en sorts kamerarörelsesignal så att den vet hur du vill att vypunkten ska förändras. Sedan förutsäger den nästa videobildruta bildruta för bildruta, utvidgar klippet i den riktning du “rör” det.

För att hålla scenen från att hoppa runt använder modellen en historiebaserad metod. Den minns var du lämnade av (en aning som att hålla speltillståndet i minnet) så att världen inte plötsligt teleporterar sig någonstans. De kallar detta “hybrid historiebetingning”. I princip matar den ibland in gamla bildrutor i sig själv så att viktiga detaljer (som positionen för föremål och belysning) förblir konsekventa när du går. Skaparna såg också till att modellen kan köras snabbare genom att destillera den (dvs. krympa en stor modell till en mindre, snabbare). Detta sätt kan den hålla jämna steg med dina tangenttryckningar i (nästan) realtid, givet en kraftfull GPU.

I korthet ger du den en startbild eller textprompt och en sekvens av tangenttryckningar. AI:n förutsäger sedan nya bilder så att det ser ut som att du går eller tittar runt i scenen. Tack vare den speciella historieknepet förblir spelvärlden grovt sett konsekvent över tid. Till exempel, om du går ner en korridor eller vänder dig 180°, kommer väggarna och golvet att förbli på plats i stället för att glitcha. Teamet visar att den till och med bevarar 3D-konsekvens under en lång tid, vilket är ganska imponerande för genererad video.

Användningsfall

Vad kan spelare och utvecklare göra med den här tekniken? På en grundläggande nivå är det ett kreativt verktyg. Speldesigners kunde använda det för att skapa nya miljöer eller nivåidéer direkt. Författare och regissörer kunde generera storyboards eller cutscener genom att skriva beskrivningar och sedan justera dem genom att “spela” igenom scenen. För spelare kunde det vara ett roligt sätt att uppleva anpassade minispel som du skapar på flyget (som “jag vill ha en drakstrid på Mars” och plötsligt kan du kontrollera det). Det kunde också hjälpa till att träna andra AI:er, till exempel kunde vi träna robotar eller agenter i oändliga virtuella världar som AI:n genererar.

Det finns ingen offentlig webbapplikation ännu, och tekniken behöver fortfarande mer finslipning när det gäller visuell kvalitet och responsivitet. I demos från liknande modeller, när kameran rör sig för långt eller roterar för mycket, kan scenen börja bryta samman. Hunyuans hybridhistoriebetingning minskar det, men stora perspektivskift kan fortfarande orsaka texturglitchar eller förvriden geometri. Just nu fungerar det bäst som en forskningsförhandsvisning, något som visar vad som är möjligt, snarare än en fullt spelbar upplevelse.

Slutliga tankar

På detta stadium är konceptet solitt. Det finns synlig potential i hur inmatningsdriven video kan formas för att se ut och kännas som gameplay. Men det är fortfarande tidigt. Detta är en forskningsdemo, inte en färdig produkt. Realtidsgenerering i hög upplösning för längre spelsessioner är fortfarande en teknisk utmaning.

Amar är en spelentusiast och frilansskribent för innehåll. Som en erfaren skribent av spelinnehåll är han alltid uppdaterad med de senaste trenderna inom spelindustrin. När han inte är upptagen med att skapa övertygande spelartiklar, kan du hitta honom som dominerar den virtuella världen som en erfaren spelare.