기술
텐센트의 GameCraft는 와일드 AI 기술로 플레이 가능한 비디오 생성
텐센트의 Hunyuan 팀은 진정으로 대담한 것을 발표했습니다. 새로운 기술인 Hunyuan-GameCraft입니다. 이것은 정지 이미지 또는 짧은 클립을 생성하는 AI에 관한 것이 아닙니다. 이것은 간단한 텍스트 프롬프트에서 플레이 가능한 비디오 경험을 생성하는 것입니다. “호수上的 배”를 작성하고, 다음 순간, 당신은 실제 시간에 고요한 물 위를 배를 조종합니다.
실시간 제어를 AI 생성 비디오에 도입하여 운동, 관점 및 게임플레이와 같은 흐름을 경험에 가져옵니다. 확산 모델과 대규모 게임 영상으로 뒷받침되는 GameCraft는 AI 비디오 생성과 실시간 플레이어 제어를 결합합니다.
텐센트의 Hunyuan-GameCraft는 무엇인가?
Hunyuan-GameCraft는 텐센트의 AI 팀이 개발한 확산 기반 비디오 생성 모델입니다. 이를 구별하는 것은 텍스트 또는 이미지 프롬프트를 사용하여 제어 가능한 비디오 장면을 생성하는 능력입니다. 장면이 생성되면 키보드와 마우스를 사용하여 탐색할 수 있습니다. 예를 들어, 모델은 “하얀 눈의 숲길” 프롬프트를 받아서 연속적인 비디오를 출력할 수 있습니다. 당신은 앞으로 이동하거나 왼쪽 또는 오른쪽으로 회전할 수 있고, 모델은 새로운 프레임을 생성합니다. 전통적인 3D 엔진이 없습니다. 비디오는 당신의 행동에 따라 진화합니다.
실제로 무엇을 할 수 있는가
텐센트의 Hunyuan-GameCraft는 1인칭 및 3인칭 뷰를 지원하며, 그 사이를 부드럽게 전환할 수 있습니다. 당신은 풍경, 도시 거리, 전장 또는甚至 과학 소설 환경을 탐색할 수 있습니다. 모든 움직임은 모델의 예측 시스템에 연결됩니다.
제어는 친숙합니다. WASD 또는 화살표 키를 사용하여 이동하고 주변을 볼 수 있습니다. AI는 나머지를 처리합니다. 뒤에서는 입력을 모션 큐로 읽고 각 프레임을 생성합니다. 훈련 데이터에는 100개 이상의 인기 게임에서 1백만 개 이상의 비디오 클립이 포함되어 있습니다. 이러한 광범위한 노출은 모델이 다양한 시각적 스타일을 이해하고 재구성할 수 있도록 도와줍니다.
발표된 데모에서 장면은 다양하고 시각적으로 풍부합니다. 도시 거리, 눈이 내린 풍경, 강가 등이 있습니다. 이것은 컷신 또는 프리 렌더링된 게임 레벨을 통해 이동하는 것과 비슷합니다. 그러나 이것을 연구 프리뷰로 본다는 것이 중요합니다. 우리는高度로 큐레이션된 출력을 보고 있습니다. 일관성이나 안정성의 품질이 다양한 프롬프트 또는 더 긴 상호작용에서 일관되게 유지되는지 여부는 아직 명확하지 않습니다.
우리는 유사한 목표를 가진 다른 프로젝트를 보았습니다. 마이크로소프트의 WHAM 및 Muse 모델은 학습된 규칙에 따라 미래의 게임플레이 프레임을 예측하는 데 중점을 둡니다. 오디세이는 또 다른 최근의 예입니다. 비디오를 AI를 사용하여 탐색 가능한 장면으로 변환합니다.
Hunyuan GameCraft는 어떻게 작동하는가?
Hunyuan-GameCraft는 고급 비디오 생성 AI(확산 모델)로 특별한 기술이 있습니다. 핵심 아이디어는 키보드/마우스 입력을 비디오 “컨텍스트” 또는 스토리로 처리하는 것입니다. 기술적으로 이것은 카메라 이동 신호로 변환하여 모델이 어떻게 보기를 변경하고 싶은지 알 수 있습니다. 그런 다음 다음 비디오 프레임을 예측하여 확장합니다.
장면이 점프하는 것을 방지하기 위해 모델은 히스토리 기반 방법을 사용합니다. 이전에 남긴 위치를 기억합니다(게임 상태를 메모리에 저장하는 것과 비슷함). 이로 인해 세부 사항이 일관성을 유지합니다. 이것을 “하이브리드 히스토리 컨디셔닝”이라고 합니다. 기본적으로 모델은 이전 프레임을 자신에게 다시 피딩하여 중요한 세부 사항을 일관되게 유지합니다. 생성자는 또한 모델을 축소하여 더 빠르게 실행할 수 있도록 했습니다. 이렇게 하면 거의 실시간으로 키 입력을 처리할 수 있습니다.
사용 사례
게이머와 개발자는 이 기술을 사용하여 무엇을 할 수 있나요? 기본적으로 이것은 창의적인 도구입니다. 게임 디자이너는 즉시 새로운 환경이나 레벨 아이디어를 프로토 타입으로 사용할 수 있습니다. 작가와 감독은 설명을 입력하고 장면을 “재생”하여 스토리보드를 생성하거나 컷신을 생성할 수 있습니다. 게이머에게 이것은 사용자 정의 미니 게임을 즉석에서 생성하는 재미있는 방법일 수 있습니다(예: “나는 화성에서 용과 싸우고 싶다”고 입력하면 즉시 조종할 수 있습니다). 또한 다른 AI를 훈련하는 데 도움이 될 수 있습니다. 예를 들어, 우리는 AI가 생성한 무한한 가상 세계에서 로봇이나 에이전트를 훈련할 수 있습니다.
まだ 공개 웹 앱은 없으며, 기술은 시각적 품질과 반응성 측면에서 더 많은 정련이 필요합니다. 다른 유사한 모델의 데모에서 카메라가 너무 멀리 이동하거나 회전하면 장면이 깨질 수 있습니다. Hunyuan의 하이브리드 히스토리 컨디셔닝은 이를 줄입니다. 그러나 큰 관점의 변화는 여전히 텍스처 글리치 또는歪んだ 기하학을 일으킬 수 있습니다. 현재 이것은 연구 프리뷰로 작동하며, 무엇이 가능한지 보여줍니다. 완전히 플레이 가능한 경험은 아닙니다.
최종 생각
이 단계에서 개념은 견고합니다. 입력에 의한 비디오가 게임플레이와 같은 경험을 생성하는 데 어떻게 형성될 수 있는지에 대한 가시적인 가능성이 있습니다. 그러나 여전히 초기입니다. 이것은 연구 데모이며, 완성된 제품은 아닙니다. 높은 해상도에서 연장된 플레이 세션을 위한 실시간 생성은 여전히 기술적인 도전입니다.