Технології
Ігровий ремесло Tencent – дика технологія штучного інтелекту для генерації ігрових відео
Команда Hunyuan Tencent випустила щось справді амбітне: нову технологію під назвою Hunyuan-GameCraft. Це не про генерацію штучним інтелектом статичних зображень або коротких кліпів. Це про створення ігрових відео-досвідів з простих текстових промптів. Напишіть “човен на озері”, і наступної миті ви керуєте цим човном по спокійній воді в реальному часі.
Це вводить реальний контроль у відео, згенероване штучним інтелектом, додаючи рух, перспективу та ігровий потік у досвід. Підтримується дифузійними моделями та великомасштабним ігровим відео, GameCraft поєднує генерацію відео штучним інтелектом з реальним контролем гравця.
Що таке Hunyuan-GameCraft Tencent?
Hunyuan-GameCraft – це дифузійна модель генерації відео, розроблена командою штучного інтелекту Tencent. Що відрізняє її, це можливість генерації керованої відео-сцени за допомогою простого текстового або зображеного промпту. Як тільки сцена створена, ви можете досліджувати її за допомогою клавіатури та миші, як легку версію ігрового процесу.
Наприклад, модель може взяти промпт “сніжний лісовий шлях” і вивести безперервне відео, яке виглядає як ігровий процес. Ви можете рухатися вперед, повертатися вліво або вправо, і модель генерує кожний новий кадр на основі вашого вводу. Там немає традиційного 3D-движка за цим. Відео еволюціонує на основі ваших дій.
Що воно може фактично робити
Hunyuan-GameCraft Tencent підтримує види від першої та третьої особи, з гладкими переходами між ними. Ви можете досліджувати ландшафти, вулиці міст, поля битв або навіть науково-фантастичні середовища. Кожен рух, як от оглянути навколо або ходити, прив’язаний до системи прогнозування моделі.
Керування знайомі, оскільки ви можете використовувати клавіші WASD або стрілки для руху та огляду навколо. Штучний інтелект обробляє все інше. За лаштунками він читає ваш ввід як рухомі сигнали та будує кожний кадр на основі цього. Тренувальні дані включають понад мільйон відеокліпів з більш ніж 100 популярних ігор. Таке широке висвітлення допомагає моделі зрозуміти різні візуальні стилі (як кіберпанківські міста, середньовічні замки або природні ландшафти) та реалістично їх відтворити.
У демонстраціях, випущених досі, сцени різноманітні та візуально багаті. Ви бачите середовища, такі як вулиці міст, сніжні ландшафти, річкові береги та інше. Це нагадує рух через кат-сцену або попередньо відтворений ігровий рівень. Але важливо розглядати ці демонстрації як дослідницькі попередні версії. Те, що ми бачимо, – це високооброблений вивід. Все ще неясно, наскільки послідовною або стабільною буде якість по відношенню до широкого спектра промптів або триваліших взаємодій.
Ми бачили інші проекти, спрямовані на подібні цілі. Моделі WHAM і Muse від Microsoft зосереджені на прогнозуванні майбутніх кадрів ігрового процесу на основі вивчених правил. Odyssey – це інший недавній приклад, який перетворює відео на досліджувану сцену за допомогою штучного інтелекту.
Як працює Hunyuan GameCraft за лаштунками?
Hunyuan-GameCraft побудований на фанковій генерації відео штучним інтелектом (дифузійні моделі) з особливими трюками. Ключова ідея полягає в тому, що вона обробляє ваш ввід з клавіатури/миші як частина відео-“контексту” або історії. Технічно вона конвертує ці керування у певний сигнал руху камери, щоб знати, як ви хочете змінити точку зору. Потім вона прогнозує наступні кадри відео кадр за кадром, продовжуючи кліп у напрямку, куди ви “рухаєте” його.
Щоб сцена не стрибала, модель використовує історично-орієнтований метод. Вона пам’ятає, де ви залишили все (трохи як утримання стану гри в пам’яті), щоб світ не раптово телепортувався в інше місце. Їх називають “гібридним умовуванням історії”. По суті, вона періодично повертає старі кадри назад у себе, щоб важливі деталі (як позиція об’єктів та освітлення) залишалися послідовними, коли ви рухаєтеся. Створити також змогли зробити модель швидшою за допомогою її дистиляції (тобто звичайну модель зменшують до меншої, швидшої). Таким чином вона може впоратися з вашими натисками клавіш у (几乎) реальному часі, якщо є потужна графічна карта.
У короткому, ви даєте їй початкове зображення або текстовий промпт та послідовність натискань клавіш. Штучний інтелект потім продовжує прогнозувати нові зображення, щоб воно виглядало так, як ніби ви ходите або оглядаєте сцену. Завдяки особливому трюку з історією ігровий світ залишається приблизно послідовним у часі. Наприклад, якщо ви йдете вниз коридором або повертаєтеся на 180°, стіни та підлога залишаються на місці замість того, щоб глючити. Команда показує, що це навіть зберігає 3D-послідовність протягом тривалого часу, що досить вражаюче для згенерованого відео.
Варіанти використання
Що можуть зробити з цією технологією геймери та розробники? На базовому рівні це творчий інструмент. Дизайнери ігор можуть використовувати його для прототипування нових середовищ або ідей рівнів миттєво. Письменники та режисери можуть генерувати сторіборди або кат-сцени, просто вводячи описи, а потім налаштовувати їх, “граючи” через сцену. Для геймерів це може бути цікавий спосіб пережити налаштовані міні-ігри, які ви створюєте на льоту (як “Я хочу битву з драконом на Марсі” і раптом ви можете керувати цим). Це також може допомогти тренувати інших штучних інтелектів: наприклад, ми могли б тренувати роботів або агентів у безкінечних віртуальних світах, які штучний інтелект створює.
Ще немає публічної веб-застосунки, а технологія все ще потребує більшої доопрацювання щодо візуальної якості та реакції. У демонстраціях з інших подібних моделей, коли камера рухається занадто далеко або повертається занадто сильно, сцена може почати розбиватися. Гібридне умовування історії Hunyuan зменшує це, але великі зміни перспективи все ще можуть спричиняти глюки текстур або викривлену геометрію. Наразі це працює найкраще як дослідницька попередня версія, щось, що показує, що можливе, а не повністю ігровий досвід.
Остатні думки
На цьому етапі концепція солідна. Є видима потенціал у тому, як вхідний відео може бути сформовано, щоб виглядати та відчуватися як ігровий процес. Але це ще рано. Це дослідницька демонстрація, а не закінчений продукт. Генерація у реальному часі на високій роздільності для тривалих ігрових сесій все ще є технічним викликом.