tecnoloxía
GameCraft de Tencent é tecnoloxía de IA salvaxe para a xeración de vídeo xogable

Tencent's Hunyuan o equipo lanzou algo realmente ambicioso: unha nova tecnoloxía chamada Hunyuan-GameCraft. Non se trata de que a IA xere imaxes fixas ou vídeos curtos. Trátase de crear experiencias de vídeo reproducibles a partir de simples indicacións de textoEscribe «un barco nun lago» e, ao instante seguinte, estarás a gobernar ese barco por augas tranquilas en tempo real.
Introduce control en tempo real no vídeo xerado por IA, achegando movemento, perspectiva e fluxo de experiencia semellante ao xogoApoiado en modelos de difusión e imaxes de xogos a grande escala, GameCraft combina a xeración de vídeo con IA co control do xogador en tempo real.
Que é o Hunyuan GameCraft de Tencent?
Hunyuan-GameCraft é un modelo de xeración de vídeo baseado na difusión desenvolvido polo equipo de IA de Tencent. O que o diferencia é a capacidade de xerar unha escena de vídeo controlable usando só unha indicación de texto ou imaxe. Unha vez creada a escena, podes explorala usando o teclado e o rato, coma se fose unha versión lixeira dun xogo xogable.
Por exemplo, o modelo pode coller a indicación "un sendeiro forestal nevado" e xerar un vídeo continuo que semella unha partida. Podes avanzar, xirar á esquerda ou á dereita e o modelo xera cada novo fotograma en función da túa entrada. Non hai ningún motor 3D tradicional detrás disto. O vídeo evoluciona en función das túas accións.
O que realmente pode facer
Hunyuan-GameCraft de Tencent admite vistas en primeira e terceira persoa, con transicións suaves entre elas. Podes explorar paisaxes, rúas da cidade, campos de batalla ou mesmo entornos de ciencia ficciónCada movemento, como mirar arredor ou camiñar, está ligado ao sistema de predición do modelo.
Os controis son familiares, xa que podes usar WASD ou as teclas de frecha para moverte e mirar ao redor. A IA encárgase do resto. Entre bastidores, le as túas entradas como sinais de movemento e constrúe cada fotograma baseándose niso. Os datos de adestramento inclúen máis dun millón de videoclips de máis de 100 xogos populares. Esa ampla exposición é o que axuda ao modelo a comprender diferentes estilos visuais (como cidades cyberpunk, castelos medievais ou paisaxes naturais) e reconstruílos de forma crible.
Nas demos publicadas ata o de agora, as escenas son variadas e visualmente ricas. Vese entornos como rúas urbanas, paisaxes nevadas, beiras de ríos e moito máis. Parece que se move por unha escena cinemática ou un nivel de xogo prerenderizado. Pero é importante velas como vistas previas da investigación. O que estamos a ver é un resultado altamente seleccionado. Aínda non está claro o consistente ou estable que sería a calidade nunha ampla gama de indicacións ou interaccións máis longas.
Vimos outros proxectos que buscaban obxectivos semellantes. Os modelos WHAM e Muse de Microsoft centrarse en predicir futuros frames de xogo baseándose en regras aprendidas. Odisea é outro exemplo recente que converte un vídeo nunha escena explorable mediante a IA.
Como funciona Hunyuan GameCraft entre bastidores?
Hunyuan-GameCraft está construído sobre unha sofisticada IA de xeración de vídeo (modelos de difusión) con trucos especiais. A idea principal é que trata as entradas do teclado/rato como parte do "contexto" ou historia do vídeo. Tecnicamente, converte eses controis nunha especie de sinal de movemento de cámara para saber como queres que cambie o punto de vista. Despois... predí os seguintes fotogramas de vídeo fotograma a fotograma, estendendo o clip na dirección na que o "movas".
Para evitar que a escena salte dun lado para outro, o modelo emprega un método baseado no historial. Lembra onde o deixaches (un pouco como gardar o estado do xogo na memoria) para que o mundo non se teletransporte de súpeto a outro lugar. A isto chámanlle "condicionamento híbrido do historial". Basicamente, ocasionalmente realimenta os fotogramas antigos para que os detalles importantes (como a posición dos obxectos e a iluminación) se manteñan consistentes mentres camiñas. Os creadores tamén se aseguraron de que o modelo poida executarse máis rápido destilándoo (é dicir, reducindo un modelo grande a un máis pequeno e rápido). Deste xeito, pode seguir o ritmo das túas pulsacións de teclas en (case) tempo real, dada unha GPU potente.
En resumo, dáselle unha imaxe ou texto inicial e unha secuencia de pulsacións de teclas. A IA entón segue predicindo novas imaxes para que pareza que estás camiñando ou mirando arredor da escena. Grazas ao truco especial do historial, o mundo do xogo mantense aproximadamente consistente ao longo do tempo. Por exemplo, se andas por un corredor ou xiras 180°, as paredes e o chan permanecerán no seu lugar en lugar de fallar. O equipo demostra que incluso conserva a consistencia 3D durante moito tempo, o que é bastante impresionante para o vídeo xerado.
Casos de uso
Entón, que poden facer os xogadores e os desenvolvedores con esta tecnoloxía? A un nivel básico, é unha ferramenta creativa. Os deseñadores de xogos poderían usala para crear prototipos de novos entornos ou crear ideas de nivel ao instante. Os escritores e directores poderían xerar guións gráficos ou escenas cinemáticas simplemente escribindo descricións e logo axustalas "xogando" coa escena. Para os xogadores, podería ser unha forma divertida de experimentar minixogos personalizados que creas sobre a marcha (como "Quero unha loita de dragóns en Marte" e, de súpeto, podes controlalo). Tamén podería axudar a adestrar outras IA: por exemplo, poderiamos adestrar robots ou axentes en mundos virtuais infinitos que a IA xira.
Aínda non hai ningunha aplicación web pública e a tecnoloxía aínda precisa máis refinamento en termos de calidade visual e capacidade de resposta. En demostracións doutros modelos similares, cando a cámara se move demasiado ou xira demasiado, a escena pode comezar a deteriorarse. O condicionamento histórico híbrido de Hunyuan reduce iso, pero os grandes cambios de perspectiva aínda poden causar fallos de textura ou xeometría deformada. Neste momento, funciona mellor como unha vista previa da investigación, algo que mostra o que é posible, en lugar dunha experiencia totalmente xogable.
Consideracións Finais
Nesta fase, o concepto é sólido. Existe un potencial visible en como se pode dar forma ao vídeo baseado en entradas para que pareza e se sinta como unha partida. Pero aínda é cedo. Trátase dunha demostración de investigación, non dun produto rematado. A xeración en tempo real a alta resolución para sesións de xogo prolongadas segue sendo un reto técnico.











