Teknik
Tencents GameCraft är vild AI-teknik för generering av spelbara videor
Tencents Hunyuan team har släppt något riktigt ambitiöst: en ny teknik som kallas Hunyuan-GameCraft. Detta handlar inte om att AI genererar stillbilder eller korta klipp. Det handlar om att skapa spelbara videoupplevelser från enkla textprompter. Skriv “en båt på en sjö”, och i nästa ögonblick styr du den båten över lugna vatten i realtid.
Det introducerar realtidskontroll i AI-genererade videor, vilket bringar rörelse, perspektiv och spelliknande flöde in i upplevelsen. Stödd av diffusionsmodeller och stora mängder spelbilder, GameCraft kombinerar AI-video-generering med realtidskontroll för spelare.
Vad är Tencents Hunyuan-GameCraft?
Hunyuan-GameCraft är en diffusionsbaserad videomodell som utvecklats av Tencents AI-team. Det som särskiljer den är förmågan att generera en kontrollerbar videoscen med hjälp av enbart en text- eller bildprompt. När scenen är skapad kan du utforska den med hjälp av tangentbord och mus, som en lätt version av ett spel.
Till exempel kan modellen ta prompten “en snöig skogsväg” och producera en kontinuerlig video som ser ut som gameplay. Du kan flytta framåt, vända till vänster eller höger, och modellen genererar varje nytt ram baserat på dina inmatningar. Det finns inget traditionellt 3D-spelmotor bakom detta. Videon utvecklas baserat på dina handlingar.
Vad den faktiskt kan göra
Tencents Hunyuan-GameCraft stöder första- och tredjepersons-vyer, med smidiga övergångar mellan dem. Du kan utforska landskap, stadsgator, slagfält eller till och med sci-fi-miljöer. Varje rörelse, som att titta runt eller gå, är kopplad till modellens förutsägelsesystem.
Kontrollerna är bekanta, eftersom du kan använda WASD eller piltangenter för att flytta och titta runt. AI hanterar resten. Bakom kulisserna läser den dina inmatningar som rörelse-signaler och bygger varje ram baserat på det. Träningsdata omfattar över en miljon videoklipp från mer än 100 populära spel. Den breda exponeringen hjälper modellen att förstå olika visuella stilar (som cyberpunk-städer, medeltida slott eller naturlandskap) och återskapa dem på ett trovärdigt sätt.
I de demos som släppts hittills är scenerna varierade och visuellt rika. Du ser miljöer som stadsgator, snöiga landskap, flodstränder och mer. Det känns nära att röra sig genom en cutscene eller en förrenderad spelnivå. Men det är viktigt att se dessa som forskningsförhandsvisningar. Vad vi ser är högt kuraterat utmatning. Det är inte ännu klart hur konsekvent eller stabil kvaliteten skulle vara över en bred range av prompter eller längre interaktioner.
Vi har sett andra projekt som syftar till liknande mål. Microsofts WHAM och Muse-modeller fokuserar på att förutsäga framtida gameplay-ramar baserat på lästa regler. Odyssey är ett annat nyligt exempel som förvandlar video till en utforskbar scen med hjälp av AI.
Hur fungerar Hunyuan GameCraft bakom kulisserna?
Hunyuan-GameCraft är byggt på avancerad video-genererings-AI (diffusionsmodeller) med speciella knep. Den viktigaste idén är att den behandlar dina tangentbords-/musinmatningar som en del av video-“sammanhanget” eller berättelsen. Tekniskt sett konverterar den dessa kontroller till en sorts kamerarörelse-signal så att den vet hur du vill att vy-punkten ska förändras. Sedan förutsäger den nästa videoramar ram för ram, utvidgar klippet i den riktning du “rör” det.
För att hålla scenen från att hoppa runt, använder modellen en historiebaserad metod. Den minns var du lämnade av (en aning som att hålla speltillståndet i minnet) så att världen inte plötsligt teleporterar någon annanstans. De kallar detta “hybrid historia villkor”. I princip matar den tillbaka gamla ramar i sig själv så att viktiga detaljer (som positionen för objekt och belysning) förblir konsekventa medan du går. Skaparna såg också till att modellen kan köras snabbare genom att destillera den (dvs. krympa en stor modell till en mindre, snabbare). På så sätt kan den hålla jämna steg med dina tangenttryckningar i (nästan) realtid, givet en kraftfull GPU.
I korthet ger du den en startbild eller textprompt och en sekvens av tangenttryckningar. AI:n genererar sedan nya bilder så att det ser ut som att du går eller tittar runt i scenen. Tack vare den speciella historieknepet förblir spelvärlden ungefär konsekvent över tid. Till exempel, om du går ner en korridor eller vänder dig 180°, kommer väggarna och golvet att förbli på plats istället för att glitcha. Teamet visar att den till och med bevarar 3D-konsekvens under en lång tid, vilket är ganska imponerande för genererad video.
Användningsfall
Så vad kan spelare och utvecklare göra med den här tekniken? På en grundläggande nivå är det ett kreativt verktyg. Spelutvecklare kunde använda det för att skapa nya miljöer eller nivåidéer direkt. Författare och regissörer kunde generera storyboards eller cutscener genom att skriva beskrivningar och sedan justera dem genom att “spela” igenom scenen. För spelare kunde det vara ett roligt sätt att uppleva anpassade minispel som du skapar på flyget (som “Jag vill ha en drakstrid på Mars” och plötsligt kan du kontrollera det). Det kunde också hjälpa till att träna andra AI: till exempel kunde vi träna robotar eller agenter i oändliga virtuella världar som AI genererar.
Det finns ingen offentlig webbapplikation ännu, och tekniken behöver fortfarande mer förfining när det gäller visuell kvalitet och responsivitet. I demos från andra liknande modeller, när kameran flyttar för långt eller roterar för mycket, kan scenen börja bryta samman. Hunyuans hybrid historia villkor minskar det, men stora perspektivskift kan fortfarande orsaka texturglitchar eller förvriden geometri. Just nu fungerar det bäst som en forskningsförhandsvisning, något som visar vad som är möjligt, snarare än en fullt spelbar upplevelse.
Slutliga tankar
På detta stadium är konceptet solitt. Det finns synlig potential i hur inmatningsdriven video kan formas för att se och kännas ut som gameplay. Men det är fortfarande tidigt. Detta är en forskningsdemo, inte en färdig produkt. Realtidsgenerering i hög upplösning för utökade spelsessioner är fortfarande en teknisk utmaning.











