Технология
GameCraft от Tencent — это дикая технология искусственного интеллекта для создания играбельного видео
Десять центов Хуньюань Команда разработчиков выпустила нечто поистине амбициозное: новую технологию под названием Hunyuan-GameCraft. Речь идёт не о создании статичных изображений или коротких клипов с помощью ИИ. Речь идёт о создании воспроизводимые видео-опыты с помощью простых текстовых подсказок. Напишите «лодка на озере», и в следующий момент вы уже управляете этой лодкой по спокойным водам в реальном времени.
Он обеспечивает управление в реальном времени видео, созданным с помощью ИИ, привнося движение, перспективу и Игровой процесс, подобный погружению в игровой процесс. GameCraft, основанный на моделях диффузии и масштабных игровых кадрах, сочетает генерацию видео с помощью искусственного интеллекта с управлением игроком в реальном времени.
Что такое Hunyuan-GameCraft от Tencent?
Hunyuan-GameCraft — это модель генерации видео на основе диффузии, разработанная командой ИИ Tencent. Ее отличает возможность генерировать управляемую видеосцену, используя только текстовую или графическую подсказку. После создания сцены вы можете исследовать ее с помощью клавиатуры и мыши, как облегченную версию игры.
Например, модель может взять подсказку «заснеженная лесная тропа» и вывести непрерывное видео, которое выглядит как игровой процесс. Вы можете двигаться вперед, поворачивать влево или вправо, и модель генерирует каждый новый кадр на основе вашего ввода. За этим нет традиционного 3D-движка. Видео развивается на основе ваших действий.
Что он на самом деле может сделать
Hunyuan-GameCraft от Tencent поддерживает вид от первого и третьего лица с плавными переходами между ними. Вы можете исследовать ландшафты, городские улицы, поля сражений и даже научно-фантастические средыКаждое движение, например, осмотр вокруг или ходьба, привязано к системе прогнозирования модели.
Элементы управления знакомы, так как вы можете использовать WASD или клавиши со стрелками, чтобы двигаться и осматриваться. ИИ делает все остальное. За кулисами он считывает ваши входные данные как сигналы движения и строит каждый кадр на их основе. Обучающие данные включают в себя более миллиона видеоклипов из более чем 100 популярных игр. Именно такой широкий охват помогает модели понимать различные визуальные стили (например, города в стиле киберпанк, средневековые замки или природные ландшафты) и правдоподобно их реконструировать.
В выпущенных на данный момент демоверсиях сцены разнообразны и визуально насыщены. Вы видите такие среды, как городские улицы, заснеженные пейзажи, берега рек и многое другое. Это похоже на перемещение по кат-сцене или предварительно отрендеренному игровому уровню. Но важно рассматривать их как исследовательские превью. То, что мы видим, — это тщательно отобранный вывод. Пока не ясно, насколько последовательным или стабильным будет качество в широком диапазоне подсказок или более длительных взаимодействий.
Мы видели и другие проекты, преследующие схожие цели. Модели WHAM и Muse от Microsoft сосредоточиться на прогнозировании будущих кадров игрового процесса на основе изученных правил. Odyssey — еще один недавний пример того, как с помощью ИИ видео превращается в исследуемую сцену.
Как Hunyuan GameCraft работает за кулисами?
Hunyuan-GameCraft построен на причудливом ИИ-видеогенерации (модели диффузии) со специальными трюками. Основная идея заключается в том, что он обрабатывает ваши вводы с клавиатуры/мыши как часть видеоконтекста или истории. Технически, он преобразует эти элементы управления в своего рода сигнал движения камеры, чтобы знать, как вы хотите, чтобы изменилась точка обзора. Затем он предсказывает следующие видеокадры покадрово, расширяя клип в направлении, в котором вы его «перемещаете».
Чтобы сцена не прыгала, модель использует метод на основе истории. Она запоминает, где вы остановились (немного похоже на сохранение состояния игры в памяти), поэтому мир внезапно не телепортируется в другое место. Они называют это «гибридным обусловливанием истории». По сути, она время от времени возвращает себе старые кадры, чтобы важные детали (например, положение объектов и освещение) оставались неизменными, пока вы идете. Создатели также позаботились о том, чтобы модель могла работать быстрее, перегоняя ее (т. е. сжимая большую модель в меньшую и более быструю). Таким образом, она может успевать за вашими нажатиями клавиш в (почти) реальном времени, учитывая мощный графический процессор.
Короче говоря, вы даете ему начальное изображение или текстовую подсказку и последовательность нажатий клавиш. Затем ИИ продолжает предсказывать новые изображения, так что это выглядит так, как будто вы идете или осматриваетесь вокруг. Благодаря специальному трюку с историей игровой мир остается примерно неизменным с течением времени. Например, если вы идете по коридору или поворачиваетесь на 180°, стены и пол останутся на месте, а не будут глючить. Команда показывает, что он даже сохраняет 3D-последовательность в течение длительного времени, что довольно впечатляет для сгенерированного видео.
Случаи использования
Итак, что геймеры и разработчики могут делать с этой технологией? На базовом уровне это творческий инструмент. Игровые дизайнеры могли бы использовать его для прототипирования новых сред или мгновенного прокачки идей. Писатели и режиссеры могли бы генерировать раскадровки или кат-сцены, просто печатая описания, а затем настраивать их, «проходя» сцену. Для геймеров это может быть забавным способом испытать пользовательские мини-игры, которые вы создаете на лету (например, «Я хочу драконий бой на Марсе», и внезапно вы можете это контролировать). Это также могло бы помочь в обучении других ИИ: например, мы могли бы обучать роботов или агентов в бесконечных виртуальных мирах, которые раскручивает ИИ.
Пока нет общедоступного веб-приложения, и технология все еще нуждается в большей доработке с точки зрения визуального качества и отзывчивости. В демонстрациях других подобных моделей, когда камера перемещается слишком далеко или вращается слишком сильно, сцена может начать разрушаться. Гибридное обусловливание истории Hunyuan уменьшает это, но большие сдвиги перспективы все еще могут вызывать сбои текстуры или искажение геометрии. Прямо сейчас это работает лучше всего как исследовательский предварительный просмотр, что-то, что показывает, что возможно, а не полностью игровой опыт.
Заключение
На данном этапе концепция прочна. Виден потенциал в том, как видео, управляемое вводом, может быть сформировано так, чтобы выглядеть и ощущаться как игровой процесс. Но пока еще рано. Это исследовательская демонстрация, а не готовый продукт. Генерация в реальном времени с высоким разрешением для продолжительных игровых сессий все еще является технической проблемой.