Inovadora

GameCraft da Tencent é uma tecnologia de IA selvagem para geração de vídeos jogáveis

Publicado 1 de julho de 2025

Amar Roy

Caminho florestal brilhante para o castelo, com o texto “Powered by Hunyuan-Gamecraft”

Dez centavos Hunyuan lançou algo genuinamente ambicioso: uma nova tecnologia chamada Hunyuan-GameCraft. Não se trata de IA gerando imagens estáticas ou clipes curtos. Trata-se de criar experiências de vídeo reproduzíveis a partir de prompts de texto simplesEscreva “um barco em um lago” e, no momento seguinte, você estará pilotando esse barco em águas calmas em tempo real.

Ele introduz controle em tempo real em vídeo gerado por IA, trazendo movimento, perspectiva e fluxo semelhante ao da jogabilidade na experiência. Apoiado por modelos de difusão e filmagens de jogos em larga escala, o GameCraft combina geração de vídeo de IA com controle do jogador em tempo real.

O que é o Hunyuan-GameCraft da Tencent?

Hunyuan-GameCraft é um modelo de geração de vídeo baseado em difusão desenvolvido pela equipe de IA da Tencent. Seu diferencial é a capacidade de gerar uma cena de vídeo controlável usando apenas um prompt de texto ou imagem. Depois que a cena é criada, você pode explorá-la usando o teclado e o mouse, como uma versão simplificada de um jogo jogável.

Por exemplo, o modelo pode pegar o prompt "uma trilha na floresta nevada" e gerar um vídeo contínuo que se parece com um jogo. Você pode avançar, virar à esquerda ou à direita, e o modelo gera cada novo quadro com base na sua entrada. Não há um mecanismo 3D tradicional por trás disso. O vídeo evolui com base nas suas ações.

O que ele realmente pode fazer

O Hunyuan-GameCraft da Tencent oferece visualizações em primeira e terceira pessoa, com transições suaves entre elas. Você pode explorar paisagens, ruas da cidade, campos de batalha ou até mesmo ambientes de ficção científica. Cada movimento, como olhar ao redor ou andar, está vinculado ao sistema de previsão do modelo.

Os controles são familiares, já que você pode usar WASD ou as teclas de seta para se mover e olhar ao redor. A IA cuida do resto. Nos bastidores, ela lê suas entradas como sinais de movimento e constrói cada quadro com base nisso. Os dados de treinamento incluem mais de um milhão de videoclipes de mais de 100 jogos populares. Essa ampla exposição é o que ajuda o modelo a entender diferentes estilos visuais (como cidades cyberpunk, castelos medievais ou paisagens naturais) e reconstruí-los de forma crível.

Nas demos lançadas até agora, as cenas são variadas e visualmente ricas. Você vê ambientes como ruas de cidades, paisagens nevadas, margens de rios e muito mais. A sensação é de estar passando por uma cutscene ou por uma fase pré-renderizada do jogo. Mas é importante encará-las como prévias de pesquisa. O que estamos vendo é um resultado altamente selecionado. Ainda não está claro quão consistente ou estável seria a qualidade em uma ampla gama de prompts ou interações mais longas.

Vimos outros projetos visando objetivos semelhantes. Modelos WHAM e Muse da Microsoft foco em prever quadros futuros de jogo com base em regras aprendidas. Odyssey é outro exemplo recente que transforma um vídeo em uma cena explorável usando IA.

Como a Hunyuan GameCraft funciona nos bastidores?

O Hunyuan-GameCraft é construído com base em uma sofisticada IA de geração de vídeo (modelos de difusão) com truques especiais. A ideia principal é que ele trata as entradas do teclado/mouse como parte do "contexto" ou história do vídeo. Tecnicamente, ele converte esses controles em uma espécie de sinal de movimento da câmera para que saiba como você deseja que o ponto de vista mude. Então, ele... prevê os próximos quadros de vídeo quadro a quadro, estendendo o clipe na direção em que você o “move”.

Para evitar que a cena salte, o modelo usa um método baseado em histórico. Ele lembra onde você parou (um pouco como se estivesse mantendo o estado do jogo na memória) para que o mundo não se teletransporte repentinamente para outro lugar. Eles chamam isso de "condicionamento de histórico híbrido". Basicamente, ele ocasionalmente realimenta os quadros antigos para que detalhes importantes (como a posição dos objetos e a iluminação) permaneçam consistentes enquanto você caminha. Os criadores também garantiram que o modelo pudesse rodar mais rápido, destilando-o (ou seja, reduzindo um modelo grande a um menor e mais rápido). Dessa forma, ele consegue acompanhar seus toques de tecla em (quase) tempo real, graças a uma GPU robusta.

Resumindo, você fornece uma imagem inicial ou um prompt de texto e uma sequência de pressionamentos de tecla. A IA continua prevendo novas imagens para que pareça que você está andando ou olhando ao redor da cena. Graças ao truque especial de histórico, o mundo do jogo permanece praticamente consistente ao longo do tempo. Por exemplo, se você caminhar por um corredor ou girar 180°, as paredes e o piso permanecerão no lugar em vez de apresentar falhas. A equipe demonstra que ele até preserva a consistência 3D por um longo tempo, o que é bastante impressionante para vídeos gerados.

Casos de uso

Então, o que jogadores e desenvolvedores podem fazer com essa tecnologia? Em um nível básico, é uma ferramenta criativa. Designers de jogos podem usá-la para prototipar novos ambientes ou criar ideias de níveis instantaneamente. Roteiristas e diretores podem gerar storyboards ou cutscenes apenas digitando descrições e, em seguida, ajustá-los "jogando" a cena. Para jogadores, pode ser uma maneira divertida de experimentar minijogos personalizados que você cria na hora (como "Eu quero uma luta de dragões em Marte" e, de repente, você pode controlar isso). Também pode ajudar a treinar outras IAs: por exemplo, podemos treinar robôs ou agentes em mundos virtuais infinitos que a IA cria.

Ainda não existe um aplicativo web público, e a tecnologia ainda precisa de mais refinamento em termos de qualidade visual e capacidade de resposta. Em demonstrações de outros modelos semelhantes, quando a câmera se move demais ou gira demais, a cena pode começar a falhar. O condicionamento histórico híbrido de Hunyuan reduz isso, mas grandes mudanças de perspectiva ainda podem causar falhas na textura ou geometria distorcida. No momento, ele funciona melhor como uma prévia de pesquisa, algo que mostra o que é possível, em vez de uma experiência totalmente jogável.

Considerações Finais

Neste estágio, o conceito é sólido. Há um potencial visível na forma como o vídeo controlado por entrada pode ser moldado para ter a aparência e a sensação de um jogo. Mas ainda é cedo. Esta é uma demonstração de pesquisa, não um produto finalizado. A geração em tempo real em alta resolução para sessões de jogo prolongadas ainda é um desafio técnico.

Tópicos relacionados:Hunyuan-GameCraft IA de jogos da Tencent GameCraft da Tencent

Amar Roy

Amar é um aficionado por jogos e redator freelancer de conteúdo. Como um escritor de conteúdo de jogos experiente, ele está sempre atualizado com as últimas tendências da indústria de jogos. Quando ele não está ocupado criando artigos de jogos atraentes, você pode encontrá-lo dominando o mundo virtual como um jogador experiente.