Teknologi
Tencents GameCraft er vill AI-teknologi for spillbare video-generering
Tencents Hunyuan team har lansert noe genuint ambisiøst: en ny teknologi kalt Hunyuan-GameCraft. Dette handler ikke om AI som genererer stille bilder eller korte klipp. Det handler om å lage spillbare video-erfaringer fra enkle tekst-prompts. Skriv “en båt på en innsjø”, og øyeblikket etter er du i ferd med å styre båten over rolige vann i sanntid.
Det introduserer sanntidskontroll i AI-generert video, og bringer bevegelse, perspektiv og spill-lignende flyt inn i erfaringen. Støttet av diffusjonsmodeller og stor-skala spill-video, GameCraft kombinerer AI-video-generering med sanntids spill-kontroll.
Hva er Tencents Hunyuan-GameCraft?
Hunyuan-GameCraft er en diffusjons-basert video-genereringsmodell utviklet av Tencents AI-team. Det som setter det fra seg er evnen til å generere en kontrollerbar video-scene ved hjelp av bare en tekst eller bilde-prompt. Når scenen er laget, kan du utforske den ved hjelp av tastatur og mus, som en lett versjon av et spill.
For eksempel kan modellen ta prompten “en snødekt skogstier” og utgangspunkt for en kontinuerlig video som ligner på spill. Du kan gå fremover, svinge til venstre eller høyre, og modellen genererer hver ny ramme basert på dine innputt. Det er ingen tradisjonell 3D-motor bak dette. Videoen utvikler seg basert på dine handlinger.
Hva kan det faktisk gjøre?
Tencents Hunyuan-GameCraft støtter førstepersons- og tredjepersons-utsikt, med glatte overganger mellom dem. Du kan utforske landskap, bygater, slagmarker eller selv sci-fi-miljøer. Hver bevegelse, som å se seg om eller gå, er knyttet til modellens prediksjonsystem.
Kontrollene er familiære, da du kan bruke WASD eller pil-tastene til å gå og se deg om. AI håndterer resten. Bak kulissene leser det dine innputt som bevegelses-signal og bygger hver ramme basert på det. Treningdataene inkluderer over en million video-klipp fra mer enn 100 populære spill. Denne brede eksponeringen er det som hjelper modellen til å forstå forskjellige visuelle stiler (som cyberpunk-byer, middelalder-slott eller naturlandskap) og rekonstruere dem troverdig.
I demoene som er sluppet så langt, er scenene varierte og visuelt rike. Du ser miljøer som bygater, snødekte landskap, elvebredder og mer. Det føles nært på å gå gjennom en cutscene eller en forhåndsrendert spill-nivå. Men det er viktig å se på disse som forsknings-forhåndsvisninger. Det vi ser er høyt kurerte utgangspunkter. Det er ikke ennå klart hvor konsekvent eller stabil kvaliteten ville være over en bred rekke prompts eller lengre interaksjoner.
Vi har sett andre prosjekter som har som mål å nå tilsvarende mål. Microsofts WHAM og Muse-modeller fokuserer på å forutsi fremtidige spill-rammer basert på lært regler. Odyssey er et annet nylig eksempel som omdanner video til en utforskbar scene ved hjelp av AI.
Hvordan fungerer Hunyuan GameCraft bak kulissene?
Hunyuan-GameCraft er bygget på fancy video-genererings-AI (diffusjonsmodeller) med spesielle triks. Hovedideen er at det behandler dine tastatur/mus-innputt som en del av video-“konteksten” eller historien. Teknisk sett konverterer det disse kontrollene til en type kamera-bevegelses-signal, så det vet hvordan du ønsker å endre utsikten. Deretter forutsier det neste video-rammene ramme for ramme, og utvider klippet i retningen du “beveger” det.
For å holde scenen fra å hoppe rundt, bruker modellen en historie-basert metode. Den husker hvor du slapp av (en del som å holde spill-tilstanden i minne) så verden ikke plutselig teleporterer deg et annet sted. De kaller dette “hybrid historie-betingelse.” Grunnleggende sett matet det gamle rammene tilbake til seg selv, så viktige detaljer (som posisjonen til objekter og lys) forblir konsekvente når du går. Skaperne sørget også for at modellen kan kjøre raskere ved å destillere den (dvs. å krympe en stor modell til en mindre, raskere en). På denne måten kan den holde tritt med dine tastetrykk i (nærmest) sanntid, gitt en kraftig GPU.
Kort sagt, du gir det en start-bilde eller tekst-prompt og en sekvens av tastetrykk. AI-en håndterer deretter å forutsi nye bilder, så det ser ut som om du går eller ser deg om i scenen. Takk til den spesielle historie-trikken, forblir spill-verdenen omtrentlig konsekvent over tid. For eksempel, hvis du går ned en gang eller snur deg 180°, vil veggene og gulvet forbli på plass i stedet for å gli ut. Teamet viser at det også bevarer 3D-konsekvens i lang tid, noe som er ganske imponerende for generert video.
bruksområder
Hva kan spillere og utviklere gjøre med denne teknologien? På et grundleggende nivå er det et kreativt verktøy. Spill-designere kunne bruke det til å lage nye miljøer eller nivå-ideer øyeblikkelig. Forfattere og regissører kunne generere historie-brett eller cutscener bare ved å skrive beskrivelser og deretter justere dem ved å “spille” gjennom scenen. For spillere kunne det være en morsom måte å oppleve tilpassede mini-spill som du lager på fly. Det kunne også hjelpe med å trene andre AI-er: for eksempel, kunne vi trene roboter eller agenter i endeløse virtuelle verdener som AI-en spinner opp.
Det er ingen offentlig nett-applikasjon ennå, og teknologien trenger mer finpuss i form av visuell kvalitet og responsivitet. I demoer fra andre lignende modeller, når kameraet beveger seg for langt eller roterer for mye, kan scenen begynne å bryte sammen. Hunyuans hybrid-historie-betingelse reduserer dette, men store perspektiv-skift kan fortsatt forårsake tekstur-feil eller forvrengt geometri. For øyeblikket fungerer det best som en forsknings-forhåndsvisning, noe som viser hva som er mulig, snarere enn en fullt spillbar erfaring.
Slutt-tanker
På dette stadiet er konseptet solidt. Det er synlig potensiale i hvordan innputt-drevet video kan formas til å se og føles ut som spill. Men det er fortsatt tidlig. Dette er en forsknings-demo, ikke et ferdig produkt. Sanntids-generering i høy oppløsning for lengre spill-sesjoner er fortsatt en teknisk utfordring.











