Зв'язатися з нами

Технологія

GameCraft від Tencent – ​​це шалена технологія штучного інтелекту для створення відео, в які можна грати

Сяюча лісова стежка до замку з написом «Розроблено Hunyuan-Gamecraft»

Tencent's Хуньюань Команда випустила щось справді амбітне: нову технологію під назвою Hunyuan-GameCraft. Йдеться не про створення штучним інтелектом нерухомих зображень чи коротких кліпів. Йдеться про створення відтворювані відео з простих текстових підказокНапишіть «човен на озері», і наступної миті ви вже керуватимете цим човном спокійними водами в режимі реального часу.

Він впроваджує керування відео, згенерованим штучним інтелектом, у режимі реального часу, додаючи рух, перспективу та ігровий процес, що переходить у груСпираючись на дифузійні моделі та масштабні ігрові кадри, GameCraft поєднує генерацію відео за допомогою штучного інтелекту з керуванням гравцем у реальному часі.

Що таке Hunyuan-GameCraft від Tencent?

Hunyuan-GameCraft — це модель генерації відео на основі дифузії, розроблена командою штучного інтелекту Tencent. Її вирізняє здатність генерувати керовану відеосцену, використовуючи лише текстову або графічну підказку. Після створення сцени ви можете досліджувати її за допомогою клавіатури та миші, як спрощену версію гри.

Наприклад, модель може взяти команду «стежка в засніженому лісі» та вивести безперервне відео, яке виглядає як ігровий процес. Ви можете рухатися вперед, повертати ліворуч або праворуч, і модель генеруватиме кожен новий кадр на основі ваших введених даних. Для цього немає традиційного 3D-двигуна. Відео розвивається на основі ваших дій.

Що це насправді може зробити

Hunyuan-GameCraft від Tencent підтримує режими від першої та третьої особи з плавними переходами між ними. Ви можете досліджувати пейзажі, міські вулиці, поля битв або навіть науково-фантастичні середовищаКожен рух, такий як озирання навколо чи ходьба, пов'язаний із системою прогнозування моделі.

Керування знайоме: для переміщення та огляду можна використовувати клавіші WASD або стрілки. Штучний інтелект виконує решту. За лаштунками він зчитує ваші вхідні дані як сигнали руху та будує кожен кадр на основі цього. Навчальні дані включають понад мільйон відеокліпів із понад 100 популярних ігор. Саме такий широкий огляд допомагає моделі розуміти різні візуальні стилі (наприклад, міста в стилі кіберпанк, середньовічні замки чи природні ландшафти) та правдоподібно їх відтворювати.

У випущених наразі демоверсіях сцени різноманітні та візуально насичені. Ви бачите такі середовища, як міські вулиці, засніжені пейзажі, береги річок тощо. Це схоже на проходження кат-сцени або попередньо відрендереного ігрового рівня. Але важливо розглядати це як попередні дослідження. Те, що ми бачимо, – це ретельно підібраний результат. Поки що незрозуміло, наскільки послідовною чи стабільною буде якість у широкому діапазоні підказок або триваліших взаємодій.

Ми бачили інші проекти, спрямовані на досягнення подібних цілей. Моделі WHAM та Muse від Microsoft зосередитися на прогнозуванні майбутніх ігрових кадрів на основі вивчених правил. Одіссея – ще один нещодавній приклад перетворення відео на досліджувану сцену за допомогою штучного інтелекту.

Як Hunyuan GameCraft працює за лаштунками?

Hunyuan-GameCraft побудовано на складному штучному інтелекті для генерації відео (моделі дифузії) зі спеціальними хитрощами. Ключова ідея полягає в тому, що він розглядає ваші дії з клавіатури/миші як частину відео «контексту» або історії. Технічно, він перетворює ці елементи керування на своєрідний сигнал руху камери, щоб знати, як ви хочете змінити ракурс. Потім він... передбачає наступні відеокадри покадрово, розширюючи кліп у напрямку його «переміщення».

Щоб сцена не стрибала, модель використовує метод на основі історії. Вона запам'ятовує, де ви зупинилися (трохи схоже на зберігання стану гри в пам'яті), щоб світ раптово не телепортувався в інше місце. Вони називають це «гібридним обумовленням історії». По суті, вона час від часу повертає старі кадри назад у себе, щоб важливі деталі (такі як положення об'єктів та освітлення) залишалися незмінними під час вашої ходьби. Розробники також подбали про те, щоб модель могла працювати швидше, дистилюючи її (тобто стиснувши велику модель до меншої, швидшої). Таким чином, вона може відстежувати ваші натискання клавіш (майже) в режимі реального часу, враховуючи потужний графічний процесор.

Коротше кажучи, ви даєте йому початкове зображення або текстову підказку та послідовність натискань клавіш. Потім ШІ продовжує прогнозувати нові зображення, щоб виглядало так, ніби ви йдете або оглядаєте сцену. Завдяки спеціальному трюку з історією, ігровий світ залишається приблизно незмінним з часом. Наприклад, якщо ви йдете коридором або повертаєтеся на 180°, стіни та підлога залишаться на місці, а не зникатимуть. Команда показує, що він навіть зберігає 3D-узгодженість протягом тривалого часу, що досить вражаюче для згенерованого відео.

Використовуйте випадки

Отже, що ж можуть робити геймери та розробники з цією технологією? На базовому рівні це творчий інструмент. Дизайнери ігор могли б використовувати його для миттєвого прототипування нових середовищ або ідей для рівнів. Сценаристи та режисери могли б створювати розкадровки або кат-сцени, просто вводячи описи, а потім налаштовувати їх, «проходячи» через сцену. Для геймерів це може бути цікавим способом випробувати власні міні-ігри, які ви створюєте на льоту (наприклад, «Я хочу бій драконів на Марсі», і раптом ви можете контролювати це). Це також може допомогти навчати інші ШІ: наприклад, ми могли б навчати роботів або агентів у нескінченних віртуальних світах, які розкручує ШІ.

Поки що немає публічного веб-застосунку, і ця технологія потребує подальшого вдосконалення з точки зору візуальної якості та швидкості реагування. У демонстраціях інших подібних моделей, коли камера рухається занадто далеко або занадто сильно обертається, сцена може почати руйнуватися. Гібридне кондиціонування історії Hunyuan зменшує це, але великі зміщення перспективи все ще можуть спричиняти збої текстур або деформовану геометрію. Наразі він найкраще працює як дослідницький попередній перегляд, щось, що показує можливості, а не як повноцінний ігровий досвід.

Заключні думки

На цьому етапі концепція є надійною. Існує видимий потенціал у тому, як відео, кероване введенням, може виглядати та відчуватися як ігровий процес. Але це ще ранній етап. Це дослідницька демонстрація, а не готовий продукт. Генерація зображення в реальному часі з високою роздільною здатністю для тривалих ігрових сеансів все ще є технічним викликом.

Амар — любитель ігор і незалежний автор контенту. Як досвідчений автор ігрового контенту, він завжди в курсі останніх тенденцій ігрової індустрії. Коли він не зайнятий створенням цікавих статей про ігри, ви можете побачити його домінуючим у віртуальному світі як досвідчений гравець.