기술
텐센트의 헌원-게임크래프트는 와일드 AI 기술로 플레이 가능한 비디오 생성
텐센트의 헌원 팀은真正로 야심적인 것을 발표했습니다. 새로운 기술인 헌원-게임크래프트입니다. 이것은 AI가 정지 이미지나 짧은 클립을 생성하는 것이 아닙니다. 이것은 간단한 텍스트 프롬프트에서 플레이 가능한 비디오 경험을 생성하는 것입니다. “보트가 있는 호수”라고 작성하면, 다음 순간에 당신은 실시간으로 그 호수로 보트를 조종합니다.
실시간 제어를 AI 생성 비디오에 도입하여 움직임, 관점, 게임플레이와 같은 흐름을 경험에 가져옵니다. 확산 모델과 대규모 게임 영상으로 지원되는 게임크래프트는 AI 비디오 생성과 실시간 플레이어 제어를 결합합니다.
텐센트의 헌원-게임크래프트는 무엇인가?
헌원-게임크래프트는 텐센트의 AI 팀이 개발한 확산 기반 비디오 생성 모델입니다. 무엇이 그것을 특별하게 만드는지 알아보겠습니다. 텍스트 또는 이미지 프롬프트만 사용하여 제어 가능한 비디오 장면을 생성할 수 있습니다. 장면이 생성되면 키보드와 마우스를 사용하여 탐색할 수 있습니다. 전통적인 3D 엔진이 없다는 점에 주목하세요. 비디오는 사용자의 입력에 따라 발전합니다.
예를 들어, 모델은 “눈이 내린 산길”이라는 프롬프트를 받아서 게임플레이와 같은 연속적인 비디오를 생성할 수 있습니다. 사용자는 앞으로 이동하거나 왼쪽 또는 오른쪽으로 돌아볼 수 있으며 모델은 사용자의 입력에 따라 각 새 프레임을 생성합니다. 전통적인 3D 엔진이 없다는 점에 주목하세요. 비디오는 사용자의 동작에 따라 발전합니다.
그것이 실제로 할 수 있는 일은 무엇인가?
텐센트의 헌원-게임크래프트는 1인칭 및 3인칭 뷰를 지원하며, 그 사이를 원활하게 전환할 수 있습니다. 사용자는 풍경, 도시 거리, 전장 또는 даже 과학 픽션 환경을 탐색할 수 있습니다. 모든 움직임은 모델의 예측 시스템에 연결됩니다.
제어는 익숙합니다. 사용자는 W, A, S, D 키 또는 화살표 키를 사용하여 이동하고 돌아볼 수 있습니다. AI는 나머지를 처리합니다. 뒤에서는 사용자의 입력을 동작 신호로 읽고 각 프레임을 생성합니다. 훈련 데이터에는 100개 이상의 인기 게임에서 수집된 100만 개 이상의 비디오 클립이 포함되어 있습니다. 이러한 광범위한 노출은 모델이 다양한 시각적 스타일(예: 사이버펑크 도시, 중세 성, 자연 풍경)을 이해하고 믿을 수 있게 재구성하는 데 도움이 됩니다.
현재까지 공개된 데모에서 장면은 다양하고 시각적으로 풍부합니다. 사용자는 도시 거리, 눈이 내린 풍경, 강가 등 다양한 환경을 볼 수 있습니다. 이것은 컷신이나 프리렌더링된 게임 레벨을 통해 이동하는 것과 비슷합니다. 그러나 이것을 연구 프리뷰로 간주하는 것이 중요합니다. 우리가 보는 것은高度로 큐레이션된 출력입니다. 아직 프롬프트나 상호작용의 범위에 걸쳐 품질이나 안정성이 일관적이고 안정적인지 명확하지 않습니다.
우리는 유사한 목표를 가진 다른 프로젝트를 보았습니다. 마이크로소프트의 WHAM 및 Muse 모델은 학습된 규칙에 따라 미래 게임플레이 프레임을 예측하는 데 중점을 둡니다. 오디세이는 비디오를 AI를 사용하여 탐색 가능한 장면으로 변환하는 또 다른 최근의 예입니다.
헌원 게임크래프트는 어떻게 작동하는가?
헌원-게임크래프트는 고급 비디오 생성 AI(확산 모델)와 특별한 기술로 구축됩니다. 핵심 아이디어는 키보드/마우스 입력을 비디오 “컨텍스트” 또는 이야기의 일부로 처리한다는 것입니다. 기술적으로 이것은 카메라 이동 신호로 변환하여 모델이 어떻게 보기를 변경하고 싶은지 알 수 있습니다. 그런 다음 모델은 다음 비디오 프레임을 예측하여 사용자가 이동하는 방향으로 클립을 확장합니다.
장면이突然히 이동하지 않도록 모델은 기초가 되는 방법을 사용합니다. 모델은 이전에 방문한 위치를 기억하므로(게임 상태를 메모리에 유지하는 것과 비슷하게) 세계가突然히 다른 곳으로 텔레포트되지 않습니다. 이것을 “하이브리드 히스토리 컨디셔닝”이라고 합니다. 모델은 때때로 이전 프레임을 자신에게 다시 공급하여 중요한 세부 사항(예: 물체 위치 및 조명)이 일관성을 유지하도록 합니다. 개발자들은 모델을 축소하여(즉, 큰 모델을 더 작은 모델로 축소) 더 빠르게 실행할 수 있도록 했습니다. 이렇게 하면 거의 실시간으로 키 입력에 따라 처리할 수 있습니다(강력한 GPU가 제공되는 경우).
간단히 말해서, 시작 이미지를 제공하거나 텍스트 프롬프트와 키 입력 시퀀스를 제공합니다. 그런 다음 AI는 새로운 이미지를 예측하여 장면을 탐색하는 것과 같은 효과를 냅니다. 특별한 기록 기술 덕분에 게임 세계는 시간이 지남에 따라 대략 일관성을 유지합니다. 예를 들어, 복도 아래로 걸어갈 때 또는 180도 돌아갈 때 벽과 바닥이 그대로 유지됩니다. 개발자들은 이것이 오랜 시간 동안 3D 일관성을 유지한다는 것을 보여주었습니다. 생성된 비디오에서 이것은 상당히 인상적인 것입니다.
사용 사례
그러면 게임 개발자와 사용자는 이 기술을 무엇에 사용할 수 있을까요? 기본적으로 이것은 창의적인 도구입니다. 게임 디자이너는 즉시 새로운 환경이나 레벨 아이디어를 프로토タイプ화할 수 있습니다. 작가와 감독은 설명을 입력하여 스토리보드를 생성하거나 컷신을 생성한 다음 장면을 “재생”하여 수정할 수 있습니다. 사용자에게 이것은 즉흥적으로 생성된 사용자 정의 미니 게임을 즐기는 재미있는 방법이 될 수 있습니다(예: “화성에서 용과 싸우고 싶다”고 입력하면 즉시 조종할 수 있습니다). 또한 다른 AI를 교육하는 데 도움이 될 수 있습니다. 예를 들어, 우리는 AI가 생성한 무한한 가상 세계에서 로봇이나 에이전트를 교육할 수 있습니다.
まだ 공개 웹 앱은 없으며, 기술은 아직 시각적 품질과 반응성 측면에서 더 많은 개선이 필요합니다. 다른 유사한 모델의 데모에서 카메라가 너무遠く 이동하거나 회전하면 장면이崩壊하기 시작할 수 있습니다. 헌원의 하이브리드 기록 조건은이를 줄입니다. 그러나 큰 관점의 변화는 여전히 텍스처의 결함이나歪んだ 기하학을 일으킬 수 있습니다. 현재 이것은 연구 프리뷰로 작동하며, 무엇이 가능한지 보여주지만 아직 완전히 플레이 가능한 경험은 아닙니다.
최종 생각
이 단계에서 개념은 확고합니다. 입력으로 구동되는 비디오가 게임플레이와 비슷하게 보이고 느껴질 수 있는 가능성이 보입니다. 그러나 아직 초기입니다. 이것은 연구 데모이며, 완성된 제품이 아닙니다. 높은 해상도에서 확장된 플레이 세션을 위한 실시간 생성은 여전히 기술적인 도전입니다.











