Tehnologija
Tencentov GameCraft je divlja AI tehnologija za generiranje igrivih videa

Tencentova Hunyuan Tim je izdao nešto uistinu ambiciozno: novu tehnologiju pod nazivom Hunyuan-GameCraft. Ne radi se o tome da umjetna inteligencija generira fotografije ili kratke isječke. Radi se o stvaranju video iskustva koja se mogu reproducirati iz jednostavnih tekstualnih uputaNapišite „čamac na jezeru“ i već u sljedećem trenutku upravljate tim čamcem preko mirnih voda u stvarnom vremenu.
Uvodi kontrolu u stvarnom vremenu u videozapise generirane umjetnom inteligencijom, donoseći pokret, perspektivu i ulazak u iskustvo nalik igrivostiPotkrijepljen difuzijskim modelima i snimkama igara velikih razmjera, GameCraft spaja generiranje videa pomoću umjetne inteligencije s kontrolom igrača u stvarnom vremenu.
Što je Tencentov Hunyuan-GameCraft?
Hunyuan-GameCraft je model generiranja videa temeljen na difuziji koji je razvio Tencentov AI tim. Ono što ga izdvaja je mogućnost generiranja kontrolirane video scene pomoću samo tekstualnog ili slikovnog upita. Nakon što je scena stvorena, možete je istraživati pomoću tipkovnice i miša, poput pojednostavljene verzije igrice.
Na primjer, model može uzeti uputu "snježna šumska staza" i prikazati kontinuirani video koji izgleda kao igranje. Možete se kretati naprijed, skretati lijevo ili desno, a model generira svaki novi kadar na temelju vašeg unosa. Iza ovoga ne stoji tradicionalni 3D engine. Video se razvija na temelju vaših radnji.
Što zapravo može učiniti
Tencentov Hunyuan-GameCraft podržava prikaze iz prvog i trećeg lica, s glatkim prijelazima između njih. Možete istraživati krajolike, gradske ulice, bojna polja ili čak znanstvenofantastična okruženjaSvaki pokret, poput osvrtanja ili hodanja, vezan je uz sustav predviđanja modela.
Kontrole su poznate, jer možete koristiti WASD ili tipke sa strelicama za kretanje i razgledavanje. Umjetna inteligencija se brine za ostalo. Iza kulisa, čita vaše unose kao znakove kretanja i na temelju toga gradi svaki kadar. Podaci za obuku uključuju preko milijun videoisječaka iz više od 100 popularnih igara. Ta široka izloženost pomaže modelu da razumije različite vizualne stilove (poput cyberpunk gradova, srednjovjekovnih dvoraca ili prirodnih krajolika) i da ih uvjerljivo rekonstruira.
U do sada objavljenim demo verzijama, scene su raznolike i vizualno bogate. Vidite okruženja poput gradskih ulica, snježnih krajolika, obala rijeka i još mnogo toga. Osjećaj je sličan kretanju kroz cutscenu ili prethodno renderiranu razinu igre. No, važno je da se na ovo gleda kao na preglede istraživanja. Ono što vidimo je visoko kurirani izlaz. Još nije jasno koliko bi kvaliteta bila dosljedna ili stabilna u širokom rasponu uputa ili duljih interakcija.
Vidjeli smo i druge projekte koji teže sličnim ciljevima. Microsoftovi modeli WHAM i Muse usredotočiti se na predviđanje budućih okvira igre na temelju naučenih pravila. Odiseja je još jedan nedavni primjer koji video pretvara u istraživačku scenu pomoću umjetne inteligencije.
Kako Hunyuan GameCraft funkcionira iza kulisa?
Hunyuan-GameCraft je izgrađen na sofisticiranoj umjetnoj inteligenciji za generiranje videa (difuzijski modeli) sa posebnim trikovima. Ključna ideja je da tretira vaše unose s tipkovnice/miša kao dio video "konteksta" ili priče. Tehnički, pretvara te kontrole u neku vrstu signala pomicanja kamere kako bi znao kako želite da se promijeni gledište. Zatim... predviđa sljedeće video kadrove kadar po kadar, produžujući isječak u smjeru u kojem ga "pomičete".
Kako bi se spriječilo skakanje scene, model koristi metodu temeljenu na povijesti. Pamti gdje ste stali (pomalo kao što se stanje igre drži u memoriji) kako se svijet ne bi iznenada teleportirao negdje drugdje. To nazivaju "hibridnim uvjetovanjem povijesti". U osnovi, povremeno vraća stare kadrove natrag u sebe tako da važni detalji (poput položaja objekata i osvjetljenja) ostanu dosljedni dok hodate. Kreatori su također osigurali da model može raditi brže destilacijom (tj. smanjenjem velikog modela u manji, brži). Na taj način može pratiti vaše pritiske tipki u (gotovo) stvarnom vremenu, s obzirom na snažan GPU.
Ukratko, date mu početnu sliku ili tekstualni upit i niz pritisaka tipki. Umjetna inteligencija zatim nastavlja predviđati nove slike tako da izgleda kao da hodate ili razgledavate scenu. Zahvaljujući posebnom triku povijesti, svijet igre ostaje otprilike konzistentan tijekom vremena. Na primjer, ako hodate hodnikom ili se okrenete za 180°, zidovi i pod ostat će na mjestu umjesto da se trepere. Tim pokazuje da čak i dugo vremena održava 3D konzistentnost, što je prilično impresivno za generirani video.
Koristite slučajeve
Što igrači i developeri mogu učiniti s ovom tehnologijom? Na osnovnoj razini, to je kreativni alat. Dizajneri igara mogli bi ga koristiti za trenutno prototipiranje novih okruženja ili stvaranje ideja za razine. Pisci i redatelji mogli bi generirati scenarije ili scene jednostavnim upisivanjem opisa, a zatim ih prilagođavati "igrajući" kroz scenu. Za igrače bi to mogao biti zabavan način da iskuse prilagođene mini-igre koje stvaraju u hodu (poput "Želim borbu zmajeva na Marsu" i odjednom to možete kontrolirati). Također bi moglo pomoći u treniranju drugih umjetne inteligencije: na primjer, mogli bismo trenirati robote ili agente u beskrajnim virtualnim svjetovima koje umjetna inteligencija vrti.
Još nema javne web aplikacije, a tehnologija još uvijek treba dodatna poboljšanja u smislu vizualne kvalitete i responzivnosti. U demonstracijama drugih sličnih modela, kada se kamera previše pomakne ili previše okrene, scena se može početi raspadati. Hunyuanovo hibridno uvjetovanje povijesti smanjuje to, ali veliki pomaci perspektive i dalje mogu uzrokovati greške u teksturi ili iskrivljenu geometriju. Trenutno najbolje funkcionira kao pregled istraživanja, nešto što pokazuje što je moguće, a ne kao potpuno igrivo iskustvo.
Završne misli
U ovoj fazi, koncept je solidan. Postoji vidljiv potencijal u tome kako se video vođen unosom može oblikovati da izgleda i osjeća se kao igranje. Ali još je rano. Ovo je istraživačka demonstracija, a ne gotov proizvod. Generiranje u stvarnom vremenu u visokoj rezoluciji za dulje sesije igranja još je uvijek tehnički izazov.











