Technologia

Technologia Tencent’s GameCraft to dzika technologia AI do generowania wideo do gier

Avatar photo
Glowing forest path to castle, with “Powered by Hunyuan-Gamecraft” text

Zespół Hunyuan firmy Tencent wydał coś naprawdę ambitnego: nową technologię o nazwie Hunyuan-GameCraft. To nie jest o tym, że AI generuje statyczne obrazy lub krótkie klipy. To o tworzeniu doświadczeń wideo z prostych tekstowych podpowiedzi. Wpisz „łódź na jeziorze”, a w następnej chwili sterujesz tą łodzią po spokojnych wodach w czasie rzeczywistym.

Wprowadza kontrolę w czasie rzeczywistym do generowanego przez AI wideo, wprowadzając ruch, perspektywę i przepływ gry do doświadczenia. Wspierany przez modele dyfuzji i duże ilości materiału wideo z gier, GameCraft łączy generowanie wideo AI z kontrolą gracza w czasie rzeczywistym.

Czym jest Hunyuan-GameCraft Tencent?

Hunyuan-GameCraft to model generowania wideo oparty na dyfuzji, opracowany przez zespół AI Tencent. To, co go wyróżnia, to możliwość generowania sterowalnej sceny wideo przy użyciu tylko tekstu lub obrazu jako podpowiedzi. Gdy scena jest utworzona, możesz ją przeglądać za pomocą klawiatury i myszy, jak lekka wersja gry.

Przykładowo, model może przyjąć podpowiedź „zasypany las” i wygenerować ciągłe wideo, które wygląda jak rozgrywka. Możesz poruszać się do przodu, skręcić w lewo lub w prawo, a model generuje każdy nowy klatkę na podstawie Twoich danych wejściowych. Nie ma za tym tradycyjnego silnika 3D. Wideo ewoluuje w zależności od Twoich działań.

Czym może być Hunyuan GameCraft?

Hunyuan-GameCraft Tencent obsługuje widok pierwszo- i trzecioosobowy, z gładkimi przejściami między nimi. Możesz przeglądać krajobrazy, ulice miast, pola bitwy lub nawet środowiska science fiction. Każdy ruch, taki jak spojrzenie wokół lub chodzenie, jest związany z systemem predykcji modelu.

Kontrola jest znana, ponieważ możesz użyć klawiszy WASD lub strzałek, aby poruszać się i patrzeć wokół. AI zajmuje się resztą. W tle czyta Twoje dane wejściowe jako sygnały ruchu i buduje każdą klatkę na podstawie tego. Dane szkoleniowe obejmują ponad milion klipów wideo z ponad 100 popularnych gier. To szerokie narażenie pomaga modelowi zrozumieć różne style wizualne (takie jak miasta cyberpunkowe, zamki średniowieczne lub krajobrazy naturalne) i odtworzyć je wiarygodnie.

W dotychczas wydanych demonstracjach sceny są różnorodne i wizualnie bogate. Widzisz środowiska, takie jak ulice miast, śnieżne krajobrazy, brzegi rzek i wiele więcej. Poczujesz się jakbyś poruszał się przez cutscene lub pre-renderowany poziom gry. Ale ważne jest, aby traktować te demonstracje jako podgląd badań. To, co widzimy, to bardzo starannie wybrane dane wyjściowe. Nie jest jeszcze jasne, jak konsekwentna lub stabilna byłaby jakość na szerokim zakresie podpowiedzi lub dłuższych interakcji.

Zobaczyliśmy inne projekty, które mają podobne cele. Modele WHAM i Muse od Microsoftu koncentrują się na predykcji przyszłych klatek gry na podstawie nauczonych reguł. Odyssey to kolejny niedawny przykład, który zmienia wideo w przeglądalną scenę za pomocą AI.

Jak działa Hunyuan GameCraft za kulisami?

Hunyuan-GameCraft jest zbudowany na zaawansowanej generacji wideo AI (modele dyfuzji) z specjalnymi sztuczkami. Kluczowym pomysłem jest traktowanie danych wejściowych z klawiatury/myszy jako części „kontekstu” lub historii wideo. Technicznie, konwertuje te dane wejściowe na sygnał ruchu kamery, aby wiedzieć, jak chcesz zmienić punkt widzenia. Następnie przewiduje następne klatki wideo klatka po klatce, rozszerzając klip w kierunku, w którym się „poruszasz”.

Aby zapobiec skokom w scenie, model używa metody opartej na historii. Pamięta, gdzie ostatnio byłeś (trochę jak trzymanie stanu gry w pamięci), aby świat nie nagle teleportował się gdzie indziej. Nazywają to „hybrydowym warunkowaniem historii”. Podstawowo, okresowo karmi stare klatki z powrotem do siebie, aby istotne szczegóły (takie jak położenie obiektów i oświetlenie) pozostały spójne, gdy poruszasz się. Twórcy upewnili się również, że model może działać szybciej, destylując go (tj. zmniejszając duży model do mniejszego, szybszego). W ten sposób może nadążyć za Twoimi wciśnięciami klawiszy w czasie rzeczywistym, przy założeniu, że masz wydajną kartę graficzną.

Krótko mówiąc, podajesz mu początkowy obraz lub tekstową podpowiedź i sekwencję wciśnięć klawiszy. AI następnie stale przewiduje nowe obrazy, aby wyglądało to jakbyś poruszał się po scenie. Dzięki specjalnej sztuczce historii, świat gry pozostaje mniej więcej spójny w czasie. Na przykład, jeśli idziesz w dół korytarza lub obracasz się o 180°, ściany i podłoga pozostaną na miejscu, zamiast zniknąć. Zespół pokazuje, że nawet zachowuje spójność 3D przez długi czas, co jest dość imponujące dla wygenerowanego wideo.

Przypadki użycia

Co więc mogą zrobić z tą technologią gracze i deweloperzy? Na podstawowym poziomie jest to kreatywny narzędzie. Projektanci gier mogliby użyć go do prototypowania nowych środowisk lub pomysłów na poziomy w sposób natychmiastowy. Pisarze i reżyserzy mogliby generować storyboarde lub cutsceny, wpisując opisy, a następnie dostosowywać je, „grając” przez scenę. Dla graczy mogłoby to być zabawny sposób, aby doświadczyć niestandardowych minigier, które tworzysz na poczekaniu (jak „chcę walkę ze smokiem na Marsie” i nagle możesz ją kontrolować). Mogłoby to również pomóc w szkoleniu innych AI: na przykład, moglibyśmy szkolić roboty lub agenci w nieskończonych wirtualnych światach, które AI generuje.

Nie ma jeszcze publicznej aplikacji internetowej, a technologia nadal wymaga udoskonaleń pod względem jakości wizualnej i responsywności. W demonstracjach innych podobnych modeli, gdy kamera porusza się zbyt daleko lub obraca się zbyt mocno, scena może zacząć się rozpaść. Hybrydowe warunkowanie historii Hunyuan redukuje to, ale duże zmiany perspektywy mogą nadal powodować błędy tekstur lub zniekształcone geometrie. Na razie działa najlepiej jako podgląd badań, coś, co pokazuje, co jest możliwe, a nie w pełni odtwarzalne doświadczenie.

Końcowe myśli

Na tym etapie koncepcja jest solidna. Widoczny jest potencjał w tym, jak sterowalne wideo mogą być kształtowane, aby wyglądać i czuć się jak rozgrywka. Ale to wciąż na wczesnym etapie. To demonstracja badań, a nie gotowy produkt. Generowanie w czasie rzeczywistym w wysokiej rozdzielczości na dłuższe sesje gry wciąż jest wyzwaniem technicznym.

Amar jest miłośnikiem gier i freelancerskim twórcą treści. Jako doświadczony twórca treści związanych z grami, zawsze jest na bieżąco z najnowszymi trendami w branży gier. Kiedy nie jest zajęty tworzeniem przekonywujących artykułów o grach, można go znaleźć dominującego w wirtualnym świecie jako doświadczony gracz.