Connect with us

Tecnologia

A Tecnologia de IA Wild do GameCraft da Tencent para Geração de Vídeo Interativo

Avatar photo
Glowing forest path to castle, with “Powered by Hunyuan-Gamecraft” text

A equipe Hunyuan da Tencent lançou algo genuinamente ambicioso: uma nova tecnologia chamada Hunyuan-GameCraft. Isso não se trata de IA gerando imagens estáticas ou cliques curtos. Trata-se de criar experiências de vídeo interativas a partir de prompts de texto simples. Escreva “um barco em um lago” e no momento seguinte, você estará pilotando esse barco em águas calmas em tempo real.

Isso introduz controle em tempo real na geração de vídeo de IA, trazendo movimento, perspectiva e fluxo de jogo semelhante à experiência. Apoiado por modelos de difusão e imagens de jogos em grande escala, o GameCraft combina a geração de vídeo de IA com controle do jogador em tempo real.

O que é o Hunyuan-GameCraft da Tencent?

Hunyuan-GameCraft é um modelo de geração de vídeo baseado em difusão desenvolvido pela equipe de IA da Tencent. O que o distingue é a capacidade de gerar uma cena de vídeo controlável usando apenas um prompt de texto ou imagem. Uma vez que a cena é criada, você pode explorá-la usando teclado e mouse, como uma versão leve de um jogo interativo.

Por exemplo, o modelo pode pegar o prompt “um trilho de floresta nevada” e produzir um vídeo contínuo que parece gameplay. Você pode se mover para a frente, virar para a esquerda ou para a direita, e o modelo gera cada novo quadro com base em sua entrada. Não há um motor 3D tradicional por trás disso. O vídeo evolui com base em suas ações.

O que ele pode realmente fazer

O Hunyuan-GameCraft da Tencent suporta visões em primeira e terceira pessoa, com transições suaves entre elas. Você pode explorar paisagens, ruas da cidade, campos de batalha ou até ambientes de ficção científica. Cada movimento, como olhar em volta ou andar, está ligado ao sistema de previsão do modelo.

Os controles são familiares, pois você pode usar as teclas WASD ou as setas para se mover e olhar em volta. A IA lida com o resto. Por trás dos panos, ela está lendo suas entradas como sinais de movimento e construindo cada quadro com base nisso. Os dados de treinamento incluem mais de um milhão de cliques de vídeo de mais de 100 jogos populares. Essa ampla exposição é o que ajuda o modelo a entender diferentes estilos visuais (como cidades ciberpunk, castelos medievais ou paisagens naturais) e reconstruí-los de forma convincente.

Nos demos lançados até agora, as cenas são variadas e visualmente ricas. Você vê ambientes como ruas da cidade, paisagens nevadas, margens de rios e muito mais. Isso se sente próximo a se mover por uma cena ou um nível de jogo pré-renderizado. Mas é importante ver essas como prévias de pesquisa. O que estamos vendo é saída altamente curada. Não está claro ainda como a qualidade seria consistente ou estável em uma ampla gama de prompts ou interações mais longas.

Já vimos outros projetos visando objetivos semelhantes. Os modelos WHAM e Muse da Microsoft se concentram em prever quadros de gameplay futuros com base em regras aprendidas. Odyssey é outro exemplo recente que transforma vídeo em uma cena explorável usando IA.

Como o Hunyuan GameCraft funciona por trás dos panos?

O Hunyuan-GameCraft é construído em cima de IA de geração de vídeo sofisticada (modelos de difusão) com truques especiais. A ideia-chave é que ele trata as entradas do teclado/mouse como parte do “contexto” ou história do vídeo. Técnicamente, ele converte esses controles em um tipo de sinal de movimento de câmera para que saiba como você deseja que a visão mude. Em seguida, ele prevê os próximos quadros de vídeo quadro a quadro, estendendo o clipe na direção que você o “move”.

Para manter a cena de pulando, o modelo usa um método baseado em história. Ele lembra onde você parou (um pouco como segurar o estado do jogo na memória) para que o mundo não teleporte repentinamente para outro lugar. Eles chamam isso de “condicionamento híbrido de história”. Basicamente, ele ocasionalmente alimenta os quadros antigos de volta em si mesmo para que detalhes importantes (como a posição de objetos e iluminação) permaneçam consistentes à medida que você se move. Os criadores também garantiram que o modelo possa ser executado mais rápido ao destilá-lo (ou seja, encolher um modelo grande em um menor e mais rápido). Dessa forma, ele pode acompanhar as teclas que você pressiona em (quase) tempo real, desde que você tenha uma GPU potente.

Em resumo, você fornece um prompt de imagem ou texto inicial e uma sequência de pressionamentos de tecla. A IA, então, continua prevendo novas imagens para que pareça que você está caminhando ou olhando em volta da cena. Graças ao truque especial de história, o mundo do jogo permanece aproximadamente consistente ao longo do tempo. Por exemplo, se você caminhar por um corredor ou girar 180°, as paredes e o chão permanecerão no lugar em vez de travar. A equipe mostra que ele até preserva a consistência 3D por um longo tempo, o que é bastante impressionante para vídeo gerado.

Casos de uso

Então, o que os jogadores e desenvolvedores podem fazer com essa tecnologia? Em um nível básico, é uma ferramenta criativa. Designers de jogos poderiam usá-la para prototipar novos ambientes ou ideias de níveis instantaneamente. Escritores e diretores poderiam gerar storyboards ou cenas apenas digitando descrições e, em seguida, ajustá-las “jogando” pela cena. Para os jogadores, poderia ser uma forma divertida de experimentar mini-jogos personalizados que você cria na hora (como “Quero uma luta de dragão em Marte” e, de repente, você pode controlar isso). Poderia também ajudar a treinar outras IAs: por exemplo, poderíamos treinar robôs ou agentes em mundos virtuais infinitos que a IA gira.

Não há um aplicativo web público ainda, e a tecnologia ainda precisa de mais refinamento em termos de qualidade visual e responsividade. Nos demos de outros modelos semelhantes, quando a câmera se move muito longe ou gira demais, a cena pode começar a quebrar. O condicionamento híbrido de história da Hunyuan reduz isso, mas grandes mudanças de perspectiva ainda podem causar glitches de textura ou geometria distorcida. No momento, funciona melhor como uma prévia de pesquisa, algo que mostra o que é possível, em vez de uma experiência completamente jogável.

Pensamentos finais

Nesta etapa, o conceito é sólido. Há um potencial visível em como o vídeo dirigido por entrada pode ser moldado para se parecer e se sentir como gameplay. Mas ainda é cedo. Isso é um demo de pesquisa, não um produto final. Geração em tempo real em alta resolução para sessões de jogo prolongadas ainda é um desafio técnico.

Amar é um aficionado por jogos e escritor de conteúdo freelancer. Como um escritor de conteúdo de jogos experiente, ele está sempre atualizado sobre as últimas tendências da indústria de jogos. Quando não está ocupado criando artigos de jogos convincentes, você pode encontrá-lo dominando o mundo virtual como um jogador experiente.