Teknologi
Tencents GameCraft er vild AI-teknologi til generering af spilbare videoer
Tencents Hunyuan-hold har frigivet noget virkelig ambitiøst: en ny teknologi kaldet Hunyuan-GameCraft. Dette handler ikke om, at AI genererer statiske billeder eller korte klip. Det handler om at skabe spilbare videooplevelser fra simple tekstprompts. Skriv “en båd på en sø”, og det næste øjeblik er du ved at styre båden over rolige vande i realtid.
Det introducerer realtidskontrol i AI-genereret video, hvilket bringer bevægelse, perspektiv og spil-lignende flow ind i oplevelsen. Backet af diffusionsmodeller og storstile spilvideo, kombinerer GameCraft AI-video-generering med realtids-spillerkontrol.
Hvad er Tencents Hunyuan-GameCraft?
Hunyuan-GameCraft er en diffusionsbaseret video-genereringsmodel udviklet af Tencents AI-hold. Det, der adskiller det, er evnen til at generere en kontrollerbar video-scene ved hjælp af kun en tekst- eller billedprompt. Når scenen er oprettet, kan du udforske den ved hjælp af tastatur og mus, ligesom en let version af et spil.
For eksempel kan modellen tage prompten “en sneklædt skovstig” og udgive en kontinuierlig video, der ligner spil. Du kan gå fremad, dreje til venstre eller højre, og modellen genererer hver ny ramme baseret på din input. Der er ingen traditionel 3D-motor bagved dette. Videoen udvikler sig baseret på dine handlinger.
Hvad kan det faktisk?
Tencents Hunyuan-GameCraft understøtter førstepersons- og tredjepersons-views, med glatte overgange mellem dem. Du kan udforske landskaber, bygader, slagmarker eller endda sci-fi-miljøer. Hver bevægelse, som at se sig omkring eller gå, er knyttet til modellens forudsigelsessystem.
Kontrollerne er bekendte, da du kan bruge WASD- eller pil-taster til at bevæge dig og se sig omkring. AI håndterer resten. Bag kulisserne læser det dine input som bevægelses-signaler og bygger hver ramme op på den. Træningsdataen omfatter over en million video-klip fra mere end 100 populære spil. Den brede eksponering er, hvad der hjælper modellen med at forstå forskellige visuelle stilarter (som cyberpunk-byer, middelalderlige slotte eller naturlandskaber) og genskabe dem troværdigt.
I de demos, der er udgivet indtil nu, er scenerne varierede og visuelt rige. Du ser miljøer som bygader, sneklædte landskaber, floderbredder og mere. Det føles tæt på at bevæge sig gennem en cutscene eller en forudindspillet spilniveau. Men det er vigtigt at se disse som forskningsforhåndvisninger. Det, vi ser, er højt kurateret output. Det er endnu ikke klart, hvor konsekvent eller stabil kvaliteten ville være over en bred vifte af prompts eller længere interaktioner.
Vi har set andre projekter, der sigter mod lignende mål. Microsofts WHAM- og Muse-modeller fokuserer på at forudsige fremtidige spil-frames baseret på lært regler. Odyssey er et andet nyligt eksempel, der omdanner video til en udforskbar scene ved hjælp af AI.
Hvordan fungerer Hunyuan GameCraft bag kulisserne?
Hunyuan-GameCraft er bygget på fancy video-genererings-AI (diffusionsmodeller) med speciale tricks. Den centrale idé er, at det behandler dine tastatur-/mus-input som en del af video-“konteksten” eller historien. Teknisk set konverterer det disse kontroller til en slags kamera-bevægelsessignal, så det ved, hvordan du ønsker, synspunktet skal ændre sig. Derefter forudsigelse af de næste video-frames ramme for ramme, udvidelse af klippet i den retning, du “flytter” det.
For at holde scenen fra at hoppe rundt, bruger modellen en historiebaseret metode. Den husker, hvor du slap af (lidt som at holde spilletilstanden i hukommelse), så verden ikke pludselig teleporterer et andet sted. De kalder dette “hybrid historie-betingning.” Grundlæggende føder det gamle rammes tilbage i sig selv, så vigtige detaljer (som positionen af objekter og belysning) forbliver konsekvente, mens du går. Oprettelsen sikrede også, at modellen kan køre hurtigere ved at destillere den (dvs. at mindske en stor model til en mindre, hurtigere). På denne måde kan den holde trit med dine tastetryk i (næsten) realtid, givet en kraftfuld GPU.
Kort sagt giver du det en startbillede eller tekstprompt og en sekvens af tastetryk. AI’en forudsigelse derefter nye billeder, så det ser ud, som om du går eller ser dig omkring i scenen. Takket være den speciale historie-trick forbliver spil-verdenen omtrent konsekvent over tid. For eksempel, hvis du går ned ad en gang eller drejer 180°, vil væggene og gulvet forblive på plads i stedet for at glitch’e ud. Holdet viser, at det endda bevarer 3D-konsistens i lang tid, hvilket er ret imponerende for genereret video.
Brugsområder
Så hvad kan spillere og udviklere bruge denne teknologi til? På et grundlæggende niveau er det et kreativt værktøj. Spildesignere kunne bruge det til at lave prototyper for nye miljøer eller niveauer ideer øjeblikkeligt. Forfattere og instruktører kunne generere storyboard eller cutscenes ved blot at skrive beskrivelser og derefter justere dem ved at “spille” gennem scenen. For spillere kunne det være en sjov måde at opleve brugerdefinerede mini-spil, som du kan oprette på flyveskema (som “Jeg vil have en dragekamp på Mars” og pludselig kan du kontrollere det). Det kunne også hjælpe med at træne andre AI’er: for eksempel kunne vi træne robotter eller agenter i uendelige virtuelle verdener, som AI’en selv skaber.
Der er ingen offentlig web-applikation endnu, og teknologien har stadig brug for mere finpudsning i forhold til visuel kvalitet og respons. I demos fra andre lignende modeller kan scenen begynde at bryde sammen, når kameraet flytter sig for langt eller roterer for meget. Hunyuans hybrid-historie-betingning reducerer dette, men store perspektivskift kan stadig forårsage tekstur-glitch eller forvrænget geometri. Lige nu fungerer det bedst som en forskningsforhåndvisning, noget der viser, hvad der er muligt, snarere end en fuldt spilbar oplevelse.
Endelige tanker
På dette stadium er konceptet solidt. Der er synlig potentiale i, hvordan input-drevet video kan formes til at se og føles ud som spil. Men det er stadig tidligt. Dette er en forskningsdemo, ikke en færdig produkt. Real-tids-generering i høj opløsning til forlængede spillesessioner er stadig en teknisk udfordring.











