Teknologia
Tencentin GameCraft on villi AI-teknologia pelattavien videoiden luomiseen
Tencentin Hunyuan -tiimi on julkaissut jotain todella kunnianhimoista: uuden teknologian nimeltä Hunyuan-GameCraft. Tämä ei ole AI: n luomisesta paikannettuja kuvia tai lyhyitä klippejä. Se on luomisesta pelattavia videoelämyksiä yksinkertaisista tekstiprompteista. Kirjoita “vene järven rannalla” ja seuraavassa hetkessä ohjaat venettä rauhallisilla vesillä reaaliajassa.
Se esittelee reaaliaikaisen ohjauksen AI-luoduissa videoissa, tuoden liikkeen, näkökulman ja pelin kaltaisen virran elämykseen. Diffuusiomalleilla ja laajassa mittakaavassa olevilla pelinäytteillä varustettu GameCraft yhdistää AI-videoluomisen reaaliaikaiseen pelaajan ohjaukseen.
Mikä on Tencentin Hunyuan-GameCraft?
Hunyuan-GameCraft on diffuusiopohjainen videoluomismalli, jonka on kehittänyt Tencentin AI-tiimi. Se erottuu kyvystään luoda ohjattava video kohtaus käyttämällä vain teksti- tai kuvapromptia. Kun kohtaus on luotu, voit tutkia sitä näppäimistön ja hiiren avulla, kuin kevyt versio pelattavasta pelistä.
Esimerkiksi malli voi ottaa prompin “lumisen metsän polku” ja tuottaa jatkuvan videon, joka näyttää pelin kaltaiselta. Voit liikkua eteenpäin, kääntyä vasemmalle tai oikealle, ja malli luo jokaisen uuden kehyksen perustuen syötteisiisi. Tässä ei ole perinteistä 3D-moottoria. Video kehittyy toimintasi mukaan.
Mikä se voi tehdä
Tencentin Hunyuan-GameCraft tukee ensimmäisen ja kolmannen persoonan näkymiä, ja siirtymät niiden välillä ovat sulavia. Voit tutkia maisemia, kaupunkikatuja, taistelukenttiä tai jopa tieteiskirja-ympäristöjä. Jokainen liike, kuten katsominen ympärillä tai kävely, on kytketty mallin ennustemalliin.
Ohjaimet ovat tuttuja, ja voit käyttää WASD- tai nuolinäppäimiä liikkumiseen ja katsomiseen. AI hoitaa loput. Taustalla se lukee syötteitä liiketunnisteina ja rakentaa jokaisen kehyksen sen mukaan. Koulutusdataan kuuluu yli miljoona videoklippiä yli 100: sta suositusta pelistä. Tämä laaja altistus auttaa mallia ymmärtämään eri visuaalisia tyylejä (kuten kyberpunk-kaupunkeja, keskiaikaisia linnoja tai luonnonmaisemia) ja rakentamaan ne uskottavasti.
Julkaisemissa demoissa kohtaukset ovat monipuolisia ja visuaalisesti rikkaasti. Näet ympäristöjä, kuten kaupunkikatuja, lumisia maisemia, jokirantoja ja paljon muuta. Se tuntuu lähes liikkumiselta leikkauskohtauksessa tai esikäsitellyssä pelitasossa. On kuitenkin tärkeää nähdä nämä tutkimus-esikatseluna. Mitä näemme, on hyvin valikoituja tuloksia. Se ei ole vielä selvää, kuinka yhdenmukainen tai vakaa laatu olisi laajalla valikoimalla prompteja tai pidemmillä interaktioilla.
Olemme nähneet muita projekteja, jotka pyrkivät samaan tavoitteeseen. Microsoftin WHAM- ja Muse-mallit keskittyvät tulevan pelin kehyksen ennustamiseen opittujen sääntöjen perusteella. Odyssey on toinen äskettäinen esimerkki, joka muuttaa videon tutkittavaksi kohtaukseksi AI: n avulla.
Miten Hunyuan GameCraft toimii taustalla?
Hunyuan-GameCraft on rakennettu hienostuneella video-luomis-AI: lla (diffuusiomalleilla) erityisillä temppuilla. Avainidea on, että se käsittää näppäimistö- / hiiren syötteitä osana video “kontekstia” tai tarinaa. Teknisesti se muuttaa nämä ohjaimet kameraliikkeen signaaliksi, jotta se tietää, miten haluat näkökulman muuttuvan. Sitten se ennustaa seuraavat videokehykset kehys kehyksestä, laajentamalla klippiä suuntaan, johon “liikutat” sen.
Pitääkseen kohtauksen hyppimästä, malli käyttää historiaan perustuvaa menetelmää. Se muistaa, mihin jätit sen (hieman kuin pidät pelitilaa muistissa), jotta maailma ei yhtäkkiä teleporttaa muualle. He kutsuvat tätä “hybridi-historiaa ehdollistamista”. Periaatteessa se syöttää vanhat kehykset takaisin itseensä, jotta tärkeät yksityiskohdat (kuten objektien sijainti ja valaistus) pysyvät yhdenmukaisina, kun liikut. Luojat ovat myös varmistaneet, että malli voi suorittaa nopeammin tiivistämällä sen (ts. kutistamalla suuren mallin pienemmäksi, nopeammaksi). Tämän avulla se voi pitää tahdistus nopeasti (lähes) reaaliajassa, kunnon GPU: n avulla.
Lyhykäisyydessä, annat sille aloituskuvan tai tekstiprompin ja näppäinsyötteiden sarjan. AI sitten jatkaa uusien kuvien ennustamista, jotta se näyttää siltä, että kävelet tai katsot ympärilläsi kohtauksessa. Kiitos erityisen historian temppu, pelimaailma pysyy karkeasti yhdenmukaisena ajassa. Esimerkiksi, jos kävelet käytävän läpi tai käännät 180 °, seinät ja lattia pysyvät paikoillaan, eikä niistä tule virhettä. Tiimi osoittaa, että se myös säilyttää 3D-yhdenmukaisuuden pitkän aikaa, mikä on vaikuttavaa luodussa videossa.
Käyttötarkoitukset
Mitä pelaajat ja kehittäjät voivat tehdä tällä teknologialla? Perustasolla se on luova työkalu. Pelisuunnittelijat voivat käyttää sitä uusien ympäristöjen tai tason ideoiden nopeaan prototyyppiin. Kirjailijat ja ohjaajat voivat luoda storyboard- tai leikkauskohtauksia vain kirjoittamalla kuvauksia ja sitten säätämällä niitä “pelaamalla” kohtauksen läpi. Pelaajille se voi olla hauskalla tavalla kokea mukautettuja minipelejä, jotka luot lennosta (kuten “haluan lohikäärmeen taistelun Marsissa” ja yhtäkkiä voit ohjata sitä). Se voi myös auttaa kouluttamaan muita AI: ia: esimerkiksi voimme kouluttaa roboteille tai agenteille loputtomissa virtuaalimaailmoissa, jotka AI luo.
Ei ole vielä julkista web-sovellusta, ja teknologiaa tarvitaan edelleen jalostaa visuaalisen laadun ja reagointinopeuden suhteen. Muiden samankaltaisten mallien demoissa, kun kamera liikkuu liian pitkälle tai kääntyy liikaa, kohtaus voi alkaa hajota. Hunyuanin hybridihistorian ehdollistaminen vähentää sitä, mutta suuret näkökulman siirtymät voivat edelleen aiheuttaa tekstuurivirheitä tai vääristyneitä geometrioita. Tällä hetkellä se toimii parhaiten tutkimusesikatseluna, joka näyttää, mitä on mahdollista, eikä täysin pelattavana kokemuksena.
Lopputajat
Tässä vaiheessa konsepti on vankka. On näkyvää potentiaalia siinä, miten syöteohjattu video voidaan muotoilla näyttämään ja tuntumaan pelin kaltaiselta. Mutta se on edelleen varhainen. Tämä on tutkimusdemo, ei valmis tuote. Reaaliaikainen generointi korkealla resoluutiolla pitkien pelisessioiden ajan on edelleen tekninen haaste.