Teknologi
Tencents GameCraft är vild AI-teknik för spelbar videogenerering

Tio cent Hunyuan teamet har släppt något genuint ambitiöst: en ny teknik som heter Hunyuan-GameCraft. Det här handlar inte om att AI genererar stillbilder eller korta klipp. Det handlar om att skapa spelbara videoupplevelser från enkla textmeddelandenSkriv ”en båt på en sjö”, och i nästa ögonblick styr du båten över lugna vatten i realtid.
Den introducerar realtidskontroll i AI-genererad video, vilket ger rörelse, perspektiv och spelliknande flöde i upplevelsenMed stöd av diffusionsmodeller och storskaliga spelbilder kombinerar GameCraft AI-videogenerering med spelarkontroll i realtid.
Vad är Tencents Hunyuan-GameCraft?
Hunyuan-GameCraft är en diffusionsbaserad videogenereringsmodell utvecklad av Tencents AI-team. Det som skiljer den från mängden är möjligheten att generera en kontrollerbar videoscen med hjälp av enbart en text- eller bildprompt. När scenen är skapad kan du utforska den med tangentbord och mus, som en lättversion av ett spelbart spel.
Till exempel kan modellen ta uppmaningen "en snöig skogsstig" och visa en kontinuerlig video som ser ut som ett spel. Du kan röra dig framåt, svänga vänster eller höger, och modellen genererar varje ny bildruta baserat på dina inmatningar. Det finns ingen traditionell 3D-motor bakom detta. Videon utvecklas baserat på dina handlingar.
Vad den faktiskt kan göra
Tencents Hunyuan-GameCraft stöder första- och tredjepersonsperspektiv, med smidiga övergångar mellan dem. Du kan utforska landskap, stadsgator, slagfält eller till och med sci-fi-miljöerVarje rörelse, som att titta sig omkring eller gå, är kopplad till modellens prediktionssystem.
Kontrollerna är bekanta, eftersom du kan använda WASD eller piltangenterna för att röra dig och titta runt. AI:n hanterar resten. Bakom kulisserna läser den dina inmatningar som rörelsesignaler och bygger varje bildruta baserat på det. Träningsdatan innehåller över en miljon videoklipp från mer än 100 populära spel. Den breda exponeringen är det som hjälper modellen att förstå olika visuella stilar (som cyberpunkstäder, medeltida slott eller naturlandskap) och rekonstruera dem trovärdigt.
I de demos som släppts hittills är scenerna varierade och visuellt rika. Man ser miljöer som stadsgator, snöiga landskap, flodstränder och mer. Det känns som att man rör sig genom en mellansekvens eller en förrenderad spelnivå. Men det är viktigt att se dessa som förhandsvisningar av forskning. Det vi ser är noggrant kuraterat resultat. Det är ännu inte klart hur konsekvent eller stabil kvaliteten skulle vara över ett brett spektrum av uppmaningar eller längre interaktioner.
Vi har sett andra projekt som syftar till liknande mål. Microsofts WHAM- och Muse-modeller fokusera på att förutsäga framtida spelupplägg baserat på inlärda regler. Odyssey är ett annat färskt exempel som förvandlar video till en utforskbar scen med hjälp av AI.
Hur fungerar Hunyuan GameCraft bakom kulisserna?
Hunyuan-GameCraft bygger på avancerad videogenererings-AI (diffusionsmodeller) med speciella trick. Huvudidén är att den behandlar dina tangentbords-/musinmatningar som en del av videons "kontext" eller berättelse. Tekniskt sett omvandlar den dessa kontroller till en slags kamerarörelsesignal så att den vet hur du vill att perspektivet ska ändras. Sedan... förutspår nästa videobildruta bildruta för bildruta och förlänga klippet i den riktning du "flyttar" det.
För att hindra scenen från att hoppa runt använder modellen en historikbaserad metod. Den kommer ihåg var du slutade (lite som att hålla spelets tillstånd i minnet) så att världen inte plötsligt teleporterar någon annanstans. De kallar detta för "hybrid historikbetingning". I grund och botten matar den ibland tillbaka de gamla bildrutorna till sig själv så att viktiga detaljer (som objektens position och belysning) förblir konsekventa när du går. Skaparna såg också till att modellen kan köras snabbare genom att destillera den (dvs. krympa en stor modell till en mindre, snabbare). På så sätt kan den hålla jämna steg med dina tangenttryckningar i (nästan) realtid, med tanke på en kraftig GPU.
Kort sagt, du ger den en startbild eller textprompt och en sekvens av tangenttryckningar. AI:n fortsätter sedan att förutsäga nya bilder så att det ser ut som att du går eller tittar runt i scenen. Tack vare det speciella historiktricket förblir spelvärlden ungefär densamma över tid. Om du till exempel går nerför en korridor eller vänder dig 180°, kommer väggarna och golvet att förbli på plats istället för att glitcha. Teamet visar att det till och med bevarar 3D-konsistens under lång tid, vilket är ganska imponerande för genererad video.
Use Cases
Så vad kan spelare och utvecklare göra med den här tekniken? På en grundläggande nivå är det ett kreativt verktyg. Speldesigners kan använda det för att prototypa nya miljöer eller skapa idéer direkt. Författare och regissörer kan generera storyboards eller mellansekvenser bara genom att skriva beskrivningar och sedan justera dem genom att "spela" igenom scenen. För spelare kan det vara ett roligt sätt att uppleva anpassade minispel som man skapar i farten (som "Jag vill ha en drakstrid på Mars" och plötsligt kan man kontrollera det). Det kan också hjälpa till att träna andra AI:er: till exempel kan vi träna robotar eller agenter i oändliga virtuella världar som AI:n skapar.
Det finns ingen publik webbapp ännu, och tekniken behöver fortfarande förfinas mer vad gäller visuell kvalitet och responsivitet. I demoversioner från andra liknande modeller, när kameran rör sig för långt eller roterar för mycket, kan scenen börja brytas ner. Hunyuans hybridhistorikkonditionering minskar detta, men stora perspektivskift kan fortfarande orsaka texturfel eller förvrängd geometri. Just nu fungerar det bäst som en förhandsvisning, något som visar vad som är möjligt, snarare än en fullt spelbar upplevelse.
Avslutande tankar
I det här skedet är konceptet gediget. Det finns en synlig potential i hur inputdriven video kan formas så att den ser ut och känns som spelande. Men det är fortfarande tidigt. Detta är en forskningsdemonstration, inte en färdig produkt. Generering i realtid med hög upplösning för längre spelsessioner är fortfarande en teknisk utmaning.