Tecnología
GameCraft de Tencent es una tecnología de IA innovadora para la generación de vídeos jugables

Diez centavos Hunyuán El equipo ha lanzado algo realmente ambicioso: una nueva tecnología llamada Hunyuan-GameCraft. No se trata de que la IA genere imágenes fijas o clips cortos. Se trata de crear Experiencias de video reproducibles a partir de indicaciones de texto simplesEscribe "un barco en un lago" y, al instante siguiente, estarás conduciendo ese barco por aguas tranquilas en tiempo real.
Introduce control en tiempo real en videos generados por IA, aportando movimiento, perspectiva y Un flujo similar al del juego en la experienciaCon el respaldo de modelos de difusión y secuencias de juegos a gran escala, GameCraft combina la generación de videos con IA con el control del jugador en tiempo real.
¿Qué es Hunyuan-GameCraft de Tencent?
Hunyuan-GameCraft es un modelo de generación de video basado en la difusión, desarrollado por el equipo de IA de Tencent. Su principal característica es la capacidad de generar una escena de video controlable con solo una indicación de texto o imagen. Una vez creada la escena, se puede explorar con el teclado y el ratón, como una versión simplificada de un juego jugable.
Por ejemplo, el modelo puede tomar la indicación "un sendero forestal nevado" y generar un video continuo que simula una partida. Puedes avanzar, girar a la izquierda o a la derecha, y el modelo genera cada nuevo fotograma según tus acciones. No hay un motor 3D tradicional detrás de esto. El video evoluciona según tus acciones.
Lo que realmente puede hacer
Hunyuan-GameCraft de Tencent admite vistas en primera y tercera persona, con transiciones fluidas entre ellas. Puedes explorar paisajes, calles de la ciudad, campos de batalla o incluso... entornos de ciencia ficciónCada movimiento, como mirar alrededor o caminar, está vinculado al sistema de predicción del modelo.
Los controles son familiares, ya que puedes usar WASD o las teclas de flecha para moverte y mirar. La IA se encarga del resto. En segundo plano, interpreta tus entradas como señales de movimiento y construye cada fotograma basándose en ellas. Los datos de entrenamiento incluyen más de un millón de videoclips de más de 100 juegos populares. Esta amplia exposición es lo que ayuda al modelo a comprender diferentes estilos visuales (como ciudades ciberpunk, castillos medievales o paisajes naturales) y a reconstruirlos de forma creíble.
En las demos publicadas hasta la fecha, las escenas son variadas y visualmente ricas. Se ven entornos como calles de la ciudad, paisajes nevados, riberas y más. Se siente como si se estuviera moviendo a través de una escena cinemática o un nivel de juego pre-renderizado. Sin embargo, es importante considerarlas como avances de investigación. Lo que estamos viendo es un resultado altamente seleccionado. Aún no está claro cuán consistente o estable será la calidad en una amplia gama de indicaciones o interacciones más largas.
Hemos visto otros proyectos que apuntan a objetivos similares. Los modelos WHAM y Muse de Microsoft centrarse en predecir cuadros de juego futuros basados en reglas aprendidas. Odyssey es otro ejemplo reciente que convierte el vídeo en una escena explorable mediante IA.
¿Cómo funciona Hunyuan GameCraft detrás de escena?
Hunyuan-GameCraft se basa en una sofisticada IA de generación de video (modelos de difusión) con trucos especiales. La idea clave es que trata las entradas del teclado/ratón como parte del contexto o la historia del video. Técnicamente, convierte esos controles en una especie de señal de movimiento de cámara para saber cómo quieres que cambie el punto de vista. Luego... predice los próximos fotogramas del vídeo fotograma a fotograma, extendiendo el clip en la dirección en la que lo “mueva”.
Para evitar que la escena salte, el modelo utiliza un método basado en el historial. Recuerda dónde lo dejaste (similar a guardar el estado del juego en memoria) para que el mundo no se teletransporte repentinamente a otro lugar. A esto lo llaman "condicionamiento de historial híbrido". Básicamente, se retroalimenta ocasionalmente con los fotogramas antiguos para que los detalles importantes (como la posición de los objetos y la iluminación) se mantengan constantes al caminar. Los creadores también se aseguraron de que el modelo se ejecutara más rápido mediante la destilación (es decir, reduciendo un modelo grande a uno más pequeño y rápido). De esta manera, puede seguir el ritmo de tus pulsaciones de teclas en (casi) tiempo real, con una GPU potente.
En resumen, le das una imagen inicial o un mensaje de texto y una secuencia de pulsaciones de teclas. La IA va prediciendo nuevas imágenes para que parezca que estás caminando o mirando la escena. Gracias al truco especial del historial, el mundo del juego se mantiene prácticamente constante a lo largo del tiempo. Por ejemplo, si caminas por un pasillo o giras 180°, las paredes y el suelo se mantendrán en su lugar en lugar de fallar. El equipo demuestra que incluso conserva la consistencia 3D durante mucho tiempo, lo cual es bastante impresionante para un vídeo generado.
Casos de uso
¿Qué pueden hacer los jugadores y desarrolladores con esta tecnología? Básicamente, es una herramienta creativa. Los diseñadores de juegos podrían usarla para prototipar nuevos entornos o ideas de niveles al instante. Los guionistas y directores podrían generar guiones gráficos o escenas cinemáticas con solo escribir descripciones y luego modificarlas "jugando" la escena. Para los jugadores, podría ser una forma divertida de experimentar minijuegos personalizados que se crean sobre la marcha (como "Quiero una pelea de dragones en Marte" y de repente puedes controlarla). También podría ayudar a entrenar otras IA: por ejemplo, podríamos entrenar robots o agentes en mundos virtuales infinitos que la IA crea.
Todavía no existe una aplicación web pública, y la tecnología aún necesita más refinamiento en términos de calidad visual y capacidad de respuesta. En demostraciones de otros modelos similares, cuando la cámara se mueve demasiado o gira demasiado, la escena puede empezar a fallar. El condicionamiento histórico híbrido de Hunyuan reduce este problema, pero los grandes cambios de perspectiva aún pueden causar fallos en las texturas o deformaciones geométricas. Actualmente, funciona mejor como una vista previa de investigación, algo que muestra lo que es posible, en lugar de una experiencia completamente jugable.
Conclusión
En esta etapa, el concepto es sólido. Hay potencial visible en cómo el video basado en la entrada puede configurarse para que se vea y se sienta como un juego. Pero aún es pronto. Esta es una demostración de investigación, no un producto terminado. La generación en tiempo real a alta resolución para sesiones de juego prolongadas aún representa un desafío técnico.











