Технологии
Технология ИИ GameCraft от Tencent – это дикий AI-тех для генерации проигрываемого видео
Команда Hunyuan от Tencent выпустила что-то действительно амбициозное: новую технологию под названием Hunyuan-GameCraft. Это не о том, чтобы ИИ генерировал статические изображения или короткие клипы. Это о создании проигрываемых видеоопытов из простых текстовых подсказок. Напишите “лодка на озере”, и в следующий момент вы будете управлять этой лодкой по спокойным водам в реальном времени.
Это вводит реальное управление в видео, сгенерированное ИИ, добавляя движение, перспективу и игровой поток в опыт. Благодаря моделям диффузии и большим объемам игровых кадров, GameCraft сочетает генерацию видео ИИ с реальным управлением игрока.
Что такое Hunyuan-GameCraft от Tencent?
Hunyuan-GameCraft – это модель генерации видео на основе диффузии, разработанная командой ИИ Tencent. То, что отличает ее, – это возможность генерировать управляемую видеосцену, используя только текстовую или изображенную подсказку. Как только сцена создана, вы можете исследовать ее, используя клавиатуру и мышь, как легкую версию проигрываемой игры.
Например, модель может взять подсказку “снежный лесной троп” и вывести непрерывное видео, которое выглядит как игровой процесс. Вы можете двигаться вперед, поворачивать влево или вправо, и модель генерирует каждый новый кадр на основе вашего ввода. Нет традиционного 3D-движка за этим. Видео эволюционирует на основе ваших действий.
Что она может фактически делать
Hunyuan-GameCraft от Tencent поддерживает виды от первого и третьего лица, с плавными переходами между ними. Вы можете исследовать пейзажи, городские улицы, поля битвы или даже научно-фантастические среды. Каждое движение, такое как взгляд вокруг или ходьба, связано с системой прогнозирования модели.
Управление знакомо, поскольку вы можете использовать клавиши WASD или стрелки, чтобы двигаться и смотреть вокруг. ИИ обрабатывает остальное. За кулисами он читает ваш ввод как сигналы движения и строит каждый кадр на основе этого. Тренировочные данные включают более миллиона видеоклипов из более 100 популярных игр. Такое широкое воздействие помогает модели понять разные визуальные стили (как киберпанковские города, средневековые замки или природные пейзажи) и реконструировать их правдоподобно.
В демонстрациях, выпущенных до сих пор, сцены разнообразны и визуально богаты. Вы видите среды, такие как городские улицы, снежные пейзажи, берега рек и многое другое. Это похоже на движение через кат-сцену или предварительно отрендеренный игровой уровень. Но важно рассматривать это как исследовательские предпросмотры. То, что мы видим, – это высоко отредактированный вывод. Еще неясно, насколько последовательным или стабильным будет качество по всей широте подсказок или более длительным взаимодействиям.
Мы видели другие проекты, направленные на аналогичные цели. Модели WHAM и Muse от Microsoft фокусируются на прогнозировании будущих кадров игрового процесса на основе изученных правил. Odyssey – это еще один недавний пример, который превращает видео в исследуемую сцену, используя ИИ.
Как работает Hunyuan GameCraft за кулисами?
Hunyuan-GameCraft построен на основе сложной генерации видео ИИ (моделей диффузии) с особыми трюками. Основная идея заключается в том, что он рассматривает ваш ввод с клавиатуры/мыши как часть видео “контекста” или истории. Технически он преобразует эти управления в своего рода сигнал движения камеры, чтобы знать, как вы хотите изменить точку зрения. Затем он прогнозирует следующий видеокадр кадр за кадром, расширяя клип в направлении, в котором вы “двигаете” его.
Чтобы сцена не прыгала, модель использует метод, основанный на истории. Он помнит, где вы остановились (немного как удержание состояния игры в памяти), чтобы мир не внезапно телепортировался в другое место. Они называют это “гибридным условным состоянием”. По сути, он время от времени подает старые кадры обратно в себя, чтобы важные детали (как положение объектов и освещение) оставались последовательными, пока вы идете. Создатели также обеспечили, чтобы модель могла работать быстрее, дистиллируя ее (т.е. уменьшая большую модель до меньшей, более быстрой). Таким образом, она может поспевать за вашими нажатиями клавиш в (почти) реальном времени, учитывая мощный GPU.
Вкратце, вы даете ей начальную картинку или текстовую подсказку и последовательность нажатий клавиш. Затем ИИ продолжает прогнозировать новые изображения, чтобы казалось, что вы идете или смотрите вокруг сцены. Благодаря особому трюку с историей, игровой мир остается примерно последовательным во времени. Например, если вы идете по коридору или поворачиваете на 180°, стены и пол останутся на месте, вместо того, чтобы глючить. Команда показывает, что она даже сохраняет 3D-последовательность в течение долгого времени, что впечатляет для сгенерированного видео.
Случаи использования
Итак, что могут сделать с этой технологией геймеры и разработчики? На базовом уровне это творческий инструмент. Дизайнеры игр могли бы использовать его для прототипирования новых сред или идей уровней мгновенно. Писатели и режиссеры могли бы генерировать раскадровки или кат-сцены, просто набирая описания, а затем корректируя их, “играя” через сцену. Для геймеров это может быть забавным способом испытать пользовательские мини-игры, которые вы создаете на лету (например, “Я хочу битву с драконом на Марсе” и вдруг вы можете контролировать это). Это также может помочь обучить других ИИ: например, мы могли бы обучать роботов или агентов в бесконечных виртуальных мирах, которые ИИ создает.
Еще нет публичного веб-приложения, и технологии все еще нуждаются в большем усовершенствовании в плане визуального качества и отзывчивости. В демонстрациях из других подобных моделей, когда камера движется слишком далеко или поворачивает слишком сильно, сцена может начать разрушаться. Гибридное условное состояние Hunyuan уменьшает это, но большие сдвиги перспективы все еще могут вызвать текстурные глюки или искаженную геометрию. Сейчас это работает лучше всего как исследовательский предпросмотр, что-то, что показывает, что возможно, а не полностью проигрываемый опыт.
Окончательные мысли
На этой стадии концепция солидна. Видно потенциал в том, как входное видео может быть сформировано, чтобы выглядеть и чувствоваться как игровой процесс. Но это все еще рано. Это исследовательская демонстрация, а не законченный продукт. Генерация в реальном времени на высоком разрешении для длительных игровых сессий все еще является технической проблемой.