Tehnologie
Tehnologia Wild AI a lui Tencent pentru Generarea de Videoclipuri Interactive
Echipa Hunyuan de la Tencent a lansat ceva cu adevărat ambițios: o nouă tehnologie numită Hunyuan-GameCraft. Acesta nu se referă la generarea de imagini statice sau clipuri scurte de către inteligența artificială. Este vorba despre crearea de experiențe video interactive din simple promturi de text. Scrieți “o barcă pe un lac” și, în următorul moment, veți conduce acea barcă pe ape liniștite, în timp real.
Introduce controlul în timp real în videoclipurile generate de inteligența artificială, aducând mișcare, perspectivă și flux de joc în experiență. Sprijinită de modele de difuzie și imagini de joc la scară largă, GameCraft combină generarea de videoclipuri de inteligență artificială cu controlul jucătorului în timp real.
Ce Este Hunyuan-GameCraft al Tencent?
Hunyuan-GameCraft este un model de generare de videoclipuri bazat pe difuzie, dezvoltat de echipa de inteligență artificială a Tencent. Ceea ce îl diferențiază este capacitatea de a genera o scenă de videoclip controlabilă utilizând doar un prompt de text sau imagine. Odată ce scena este creată, puteți explora-o utilizând tastatura și mouse-ul, ca o versiune ușoară a unui joc playable.
De exemplu, modelul poate lua promptul “o pădure înghețată” și poate produce un videoclip continuu care arată ca și cum ar fi joc. Puteți merge înainte, vira la stânga sau la dreapta, și modelul generează fiecare cadru nou pe baza intrărilor dvs. Nu există un motor de joc 3D tradițional în spatele acestuia. Videoclipul evoluează pe baza acțiunilor dvs.
Ce Poate Face Acesta?
Hunyuan-GameCraft al Tencent suportă vedere în primul rând și vedere în al treilea rând, cu tranziții fluide între ele. Puteți explora peisaje, străzi din oraș, câmpuri de luptă sau chiar mediile științifico-fantastice. Fiecare mișcare, cum ar fi privirea în jur sau mersul, este legată de sistemul de predicție al modelului.
Controlele sunt familiare, deoarece puteți utiliza tastele WASD sau săgețile pentru a vă deplasa și a privi în jur. Inteligența artificială se ocupă de rest. În spatele scenei, citește intrările dvs. ca indicii de mișcare și construiește fiecare cadru pe baza acestora. Datele de antrenament includ peste un milion de clipuri video din peste 100 de jocuri populare. Această expunere largă este ceea ce ajută modelul să înțeleagă diferite stiluri vizuale (cum ar fi orașele cibernetice, castelele medievale sau peisajele naturale) și să le reconstituie în mod convingător.
În demo-urile lansate până acum, scenele sunt variate și bogate din punct de vedere vizual. Veți vedea medii precum străzi din oraș, peisaje înghețate, maluri de râu și multe altele. Se simte ca și cum ați trece printr-o secvență de film sau un nivel de joc pre-renderizat. Dar este important să considerați acestea ca previzualizări de cercetare. Ceea ce vedem este outputul foarte curatoriat. Nu este încă clar cât de consistent sau stabil ar fi calitatea pe o gamă largă de promturi sau interacțiuni mai lungi.
Am văzut și alte proiecte care vizează obiective similare. Modelele WHAM și Muse ale Microsoft se concentrează pe predicția cadrelor viitoare de joc pe baza regulilor învățate. Odyssey este un alt exemplu recent care transformă videoclipul într-o scenă explorabilă utilizând inteligența artificială.
Cum Funcționează Hunyuan GameCraft În Spatele Cortinei?
Hunyuan-GameCraft este construit pe baza unor modele de generare de videoclipuri de inteligență artificială (modele de difuzie) cu trucuri speciale. Ideea cheie este că tratează intrările dvs. de la tastatură și mouse ca parte a “contextului” sau a “povestirii” videoclipului. Din punct de vedere tehnic, convertește aceste controale într-un semnal de mișcare a camerei, astfel încât să știe cum doriți să se schimbe punctul de vedere. Apoi, predicționează cadrele următoare de videoclip, cadru cu cadru, extinzând clipul în direcția în care “vă deplasați”.
Pentru a preveni salturile scenei, modelul utilizează o metodă bazată pe istoric. Își amintește unde ați lăsat-o (un pic ca și cum ați ține starea jocului în memorie), astfel încât lumea nu se teleportează brusc în altă parte. Ei numesc acest lucru “condiționare hibridă istorică”. În esență, alimentează periodic cadrele vechi înapoi în sine, astfel încât detalii importante (cum ar fi poziția obiectelor și iluminarea) să rămână consistente pe măsură ce vă deplasați. Creatorii au asigurat, de asemenea, că modelul poate rula mai repede prin distilare (adică, micșorarea unui model mare într-unul mai mic și mai rapid). Astfel, poate ține pasul cu apăsările tastei în timp real, cu condiția să aveți o unitate de procesare grafică (GPU) puternică.
În rezumat, oferiți un prompt de start de imagine sau text și o secvență de apăsări de taste. Inteligența artificială continuă să predice noi imagini, astfel încât pare că vă deplasați sau priviți în jurul scenei. Datorită trucului special de istoric, lumea jocului rămâne aproximativ consistentă în timp. De exemplu, dacă mergeți pe un coridor sau virați 180°, pereții și podeaua vor rămâne pe loc, în loc să se defecteze. Echipa demonstrează că păstrează, de asemenea, consistența 3D pentru o perioadă lungă de timp, ceea ce este destul de impresionant pentru un videoclip generat.
Aplicabilități
Deci, ce pot face jucătorii și dezvoltatorii cu această tehnologie? La un nivel de bază, este un instrument creativ. Designerii de jocuri ar putea utiliza acesta pentru a crea prototipuri de medii sau idei de nivel instantaneu. Scriitorii și regizorii ar putea genera storyboard-uri sau secvențe de film doar prin scrierea descrierilor și apoi ajustarea lor “jucând” prin scenă. Pentru jucători, ar putea fi o modalitate divertisment de a experimenta mini-jocuri personalizate create pe loc (cum ar fi “Vreau o luptă cu dragoni pe Marte” și, brusc, puteți controla acea luptă). De asemenea, ar putea ajuta la antrenarea altor inteligențe artificiale: de exemplu, am putea antrena roboți sau agenți în lumi virtuale infinite generate de inteligența artificială.
Nu există încă o aplicație web publică, iar tehnologia încă necesită mai multă rafinare în ceea ce privește calitatea vizuală și răspunsul. În demo-urile altor modele similare, atunci când camera se mișcă prea mult sau se rotește prea mult, scena poate începe să se deterioreze. Condiționarea hibridă istorică a lui Hunyuan reduce acest lucru, dar schimbările mari de perspectivă pot încă provoca glitch-uri de textură sau geometrie distorsionată. În acest moment, funcționează cel mai bine ca o previzualizare de cercetare, ceva care arată ce este posibil, mai degrabă decât o experiență complet jucabilă.
Gânduri Finale
La acest stadiu, conceptul este solid. Există un potențial vizibil în modul în care videoclipurile controlate de intrări pot fi modelate pentru a arăta și a se simți ca joc. Dar este încă devreme. Acesta este un demo de cercetare, nu un produs finit. Generarea în timp real la rezoluție înaltă pentru sesiuni de joc prelungite este încă o provocare tehnică.











