Technologie

Tencents GameCraft Ist Wilde AI-Technologie für Generierung von Spielbaren Videos

Published July 1, 2025

Updated March 31, 2026

Amar Roy

Glowing forest path to castle, with “Powered by Hunyuan-Gamecraft” text

Tencents Hunyuan-Team hat etwas wirklich Ambitioniertes veröffentlicht: eine neue Technologie namens Hunyuan-GameCraft. Es geht hier nicht darum, dass AI stillstehende Bilder oder kurze Clips generiert. Es geht darum, spielbare Videoerfahrungen aus einfachen Textprompts zu erstellen. Schreiben Sie “ein Boot auf einem See” und im nächsten Moment steuern Sie dieses Boot über ruhige Gewässer in Echtzeit.

Es führt Echtzeit-Steuerung in AI-generierte Videos ein, bringt Bewegung, Perspektive und spielähnlichen Fluss in die Erfahrung. Unterstützt durch Diffusionsmodelle und groß angelegte Spielvideos, kombiniert GameCraft AI-Video-Generierung mit Echtzeit-Steuerung durch den Spieler.

Was Ist Tencents Hunyuan-GameCraft?

Hunyuan-GameCraft ist ein diffusionbasierter Video-Generierungs-Modell, das von Tencents AI-Team entwickelt wurde. Was es auszeichnet, ist die Fähigkeit, eine steuerbare Video-Szene mithilfe eines Text- oder Bildprompts zu generieren. Sobald die Szene erstellt ist, können Sie sie mit der Tastatur und der Maus erkunden, ähnlich wie ein leichtes Spiel.

Zum Beispiel kann das Modell den Prompt “ein verschneiter Waldweg” nehmen und ein kontinuierliches Video ausgeben, das wie Gameplay aussieht. Sie können vorwärts gehen, nach links oder rechts drehen, und das Modell generiert jedes neue Bild basierend auf Ihrer Eingabe. Es gibt keinen herkömmlichen 3D-Engine dahinter. Das Video entwickelt sich basierend auf Ihren Aktionen.

Was Es Tatsächlich Kann

Tencents Hunyuan-GameCraft unterstützt First-Person- und Third-Person-Ansichten, mit nahtlosen Übergängen zwischen ihnen. Sie können Landschaften, Stadtstraßen, Schlachtfelder oder sogar Science-Fiction-Umwelten erkunden. Jede Bewegung wie Umschauen oder Gehen ist an das Vorhersagesystem des Modells gekoppelt.

Die Steuerung ist vertraut, da Sie die WASD- oder Pfeiltasten verwenden können, um sich zu bewegen und umzuschauen. Die AI übernimmt den Rest. Im Hintergrund liest es Ihre Eingaben als Bewegungssignale und baut jedes Bild basierend darauf auf. Die Trainingsdaten umfassen über eine Million Video-Clips aus mehr als 100 beliebten Spielen. Diese breite Exposition hilft dem Modell, unterschiedliche visuelle Stile (wie Cyberpunk-Städte, mittelalterliche Burgen oder natürliche Landschaften) zu verstehen und glaubwürdig zu rekonstruieren.

In den bisher veröffentlichten Demos sind die Szenen vielfältig und visuell reich. Sie sehen Umgebungen wie Stadtstraßen, schneebedeckte Landschaften, Ufer und mehr. Es fühlt sich an, als würde man durch eine Cutscene oder ein vorgerendertes Spiellevel bewegen. Aber es ist wichtig, diese als Forschungsvorschauen zu betrachten. Was wir sehen, ist hochgradig kuratierte Ausgabe. Es ist noch nicht klar, wie konsistent oder stabil die Qualität über eine breite Palette von Prompts oder längere Interaktionen hinweg wäre.

Wir haben andere Projekte gesehen, die ähnliche Ziele verfolgen. Microsofts WHAM- und Muse-Modelle konzentrieren sich auf die Vorhersage zukünftiger Gameplay-Frames basierend auf gelernten Regeln. Odyssey ist ein weiteres jüngstes Beispiel, das Video in eine erkundbare Szene mithilfe von AI umwandelt.

Wie Funktioniert Hunyuan GameCraft Im Hintergrund?

Hunyuan-GameCraft basiert auf einer fortschrittlichen Video-Generierungs-AI (Diffusionsmodellen) mit speziellen Tricks. Die Hauptidee besteht darin, dass es Ihre Tastatur-/Maus-Eingaben als Teil des Video-“Kontexts” oder der Geschichte behandelt. Technisch gesehen wandelt es diese Steuerungen in eine Art Kamera-Bewegungssignal um, damit es weiß, wie Sie die Perspektive ändern möchten. Dann vorhersagt es die nächsten Video-Frames frame für frame, indem es den Clip in die Richtung erweitert, in die Sie ihn “bewegen”.

Um zu verhindern, dass die Szene herumspringt, verwendet das Modell eine historische Methode. Es erinnert sich daran, wo Sie aufgehört haben (ein bisschen wie das Halten des Spielzustands im Speicher), damit die Welt nicht plötzlich an einem anderen Ort teleportiert. Sie nennen dies “hybride historische Bedingung”. Im Wesentlichen füttert es gelegentlich die alten Frames wieder in sich selbst ein, damit wichtige Details (wie die Position von Objekten und Beleuchtung) konsistent bleiben, während Sie gehen. Die Ersteller haben auch sichergestellt, dass das Modell schneller laufen kann, indem es destilliert wird (d. h. ein großes Modell in ein kleineres, schnelleres umgewandelt wird). Auf diese Weise kann es mit Ihren Tastenanschlägen in (fast) Echtzeit mithalten, vorausgesetzt, Sie haben eine leistungsstarke GPU.

In Kürze geben Sie ihm ein Startbild oder einen Textprompt und eine Sequenz von Tastenanschlägen. Die AI generiert dann kontinuierlich neue Bilder, sodass es aussieht, als würden Sie durch die Szene gehen oder umschauen. Dank des speziellen Historien-Tricks bleibt die Spielwelt in etwa konsistent über die Zeit. Zum Beispiel bleibt die 3D-Konsistenz auch über eine lange Zeit hinweg erhalten, was für generierte Videos ziemlich beeindruckend ist.

Anwendungsfälle

Was können also Gamer und Entwickler mit dieser Technologie machen? Auf grundlegender Ebene ist es ein kreatives Werkzeug. Spieldesigner könnten es verwenden, um neue Umgebungen oder Levelideen sofort zu prototypisieren. Schriftsteller und Regisseure könnten Storyboards oder Cutscenes generieren, indem sie einfach Beschreibungen eingeben und dann durch die Szene “spielen”. Für Gamer könnte es eine lustige Möglichkeit sein, benutzerdefinierte Minispiele zu erleben, die Sie auf der Fliege erstellen (wie “Ich will einen Drachenkampf auf dem Mars” und plötzlich können Sie dies steuern). Es könnte auch helfen, andere AIs zu trainieren: Zum Beispiel könnten wir Roboter oder Agenten in endlosen virtuellen Welten trainieren, die die AI aufbaut.

Es gibt noch keine öffentliche Web-App, und die Technologie benötigt noch mehr Verfeinerung in Bezug auf visuelle Qualität und Reaktionsfähigkeit. In Demos aus anderen ähnlichen Modellen kann die Szene anfangen, zusammenzubrechen, wenn die Kamera zu weit bewegt oder zu sehr rotiert wird. Hunyuans hybride historische Bedingung reduziert dies, aber große Perspektivverschiebungen können immer noch Texturfehler oder verformte Geometrie verursachen. Im Moment funktioniert es am besten als Forschungsvorschau, etwas, das zeigt, was möglich ist, anstatt eine vollständig spielbare Erfahrung zu bieten.

Schlussgedanken

In diesem Stadium ist das Konzept solide. Es gibt sichtbares Potenzial in der Art und Weise, wie inputgesteuertes Video geformt werden kann, um wie Gameplay auszusehen und sich anzufühlen. Aber es ist noch früh. Dies ist eine Forschungsdemo, kein fertiges Produkt. Echtzeit-Generierung in hoher Auflösung für verlängerte Spielsitzungen ist immer noch eine technische Herausforderung.