Công nghệ
Công nghệ AI trò chơi hoang dã của Tencent’s GameCraft để tạo video chơi được
Công ty Tencent’s Hunyuan đã phát hành một công nghệ mới thực sự tham vọng: một công nghệ gọi là Hunyuan-GameCraft. Điều này không liên quan đến việc AI tạo ra hình ảnh tĩnh hoặc đoạn clip ngắn. Nó liên quan đến việc tạo ra trải nghiệm video chơi được từ các lời nhắc văn bản đơn giản. Viết “một con thuyền trên một hồ”, và giây tiếp theo, bạn sẽ điều khiển con thuyền đó trên mặt nước yên tĩnh trong thời gian thực.
Nó giới thiệu khả năng kiểm soát thời gian thực vào video được tạo ra bởi AI, mang lại chuyển động, góc nhìn và luồng chơi game vào trải nghiệm. Với sự hỗ trợ của các mô hình khuếch tán và cảnh quay trò chơi quy mô lớn, GameCraft kết hợp tạo video AI với kiểm soát thời gian thực của người chơi.
What Is Tencent’s Hunyuan-GameCraft?
Hunyuan-GameCraft là một mô hình tạo video dựa trên khuếch tán được phát triển bởi đội ngũ AI của Tencent. Điều làm cho nó khác biệt là khả năng tạo ra một cảnh video có thể điều khiển được bằng cách sử dụng chỉ một lời nhắc văn bản hoặc hình ảnh. Khi cảnh được tạo ra, bạn có thể khám phá nó bằng bàn phím và chuột, giống như một phiên bản nhẹ của trò chơi có thể chơi được.
Ví dụ, mô hình có thể nhận lời nhắc “một con đường rừng tuyết” và tạo ra một video liên tục trông giống như gameplay. Bạn có thể di chuyển về phía trước, quay trái hoặc phải, và mô hình tạo ra mỗi khung hình mới dựa trên đầu vào của bạn. Không có công cụ 3D truyền thống nào ở đây. Video phát triển dựa trên hành động của bạn.
What It Can Actually Do
Tencent’s Hunyuan-GameCraft hỗ trợ cả góc nhìn thứ nhất và thứ ba, với chuyển đổi mượt mà giữa chúng. Bạn có thể khám phá các phong cảnh, đường phố thành phố, chiến trường hoặc thậm chí môi trường khoa học viễn tưởng. Mỗi chuyển động như nhìn xung quanh hoặc đi bộ, đều được gắn với hệ thống dự đoán của mô hình.
Các điều khiển đều quen thuộc, vì bạn có thể sử dụng phím WASD hoặc phím mũi tên để di chuyển và nhìn xung quanh. AI xử lý phần còn lại. Ở hậu trường, nó đọc đầu vào của bạn như các tín hiệu chuyển động và xây dựng mỗi khung hình dựa trên đó. Dữ liệu đào tạo bao gồm hơn một triệu đoạn clip video từ hơn 100 trò chơi phổ biến. Sự phơi sáng rộng rãi này giúp mô hình hiểu các phong cách hình ảnh khác nhau (như thành phố cyberpunk, lâu đài thời trung cổ hoặc phong cảnh tự nhiên) và tái tạo chúng một cách đáng tin cậy.
Trong các bản demo được phát hành cho đến nay, các cảnh đều đa dạng và phong phú về mặt hình ảnh. Bạn thấy các môi trường như đường phố thành phố, phong cảnh tuyết, bờ sông và nhiều hơn nữa. Nó cảm giác gần giống như di chuyển qua một cảnh cắt hoặc một cấp độ trò chơi được tạo trước. Nhưng điều quan trọng là phải xem những điều này như các bản xem trước nghiên cứu. Những gì chúng ta đang thấy là đầu ra được chăm chút kỹ lưỡng. Hiện tại, nó vẫn chưa rõ ràng về mức độ nhất quán hoặc ổn định của chất lượng sẽ như thế nào trên một loạt các lời nhắc hoặc tương tác dài hơn.
Chúng tôi đã thấy các dự án khác nhắm đến các mục tiêu tương tự. Mô hình WHAM và Muse của Microsoft tập trung vào việc dự đoán các khung hình gameplay trong tương lai dựa trên các quy tắc đã học. Odyssey là một ví dụ gần đây khác chuyển đổi video thành một cảnh có thể khám phá bằng AI.
How Does Hunyuan GameCraft Work Behind the Scenes?
Hunyuan-GameCraft được xây dựng trên AI tạo video tinh vi (mô hình khuếch tán) với các thủ thuật đặc biệt. Ý tưởng chính là nó xử lý đầu vào bàn phím/chuột của bạn như một phần của “bối cảnh” hoặc câu chuyện của video. Về mặt kỹ thuật, nó chuyển đổi các điều khiển đó thành một loại tín hiệu di chuyển máy ảnh để nó biết bạn muốn thay đổi góc nhìn như thế nào. Sau đó, nó dự đoán các khung hình video tiếp theo khung hình theo khung hình, kéo dài đoạn clip theo hướng bạn “di chuyển” nó.
Để giữ cho cảnh không bị nhảy xung quanh, mô hình sử dụng một phương pháp dựa trên lịch sử. Nó nhớ nơi bạn rời khỏi (một chút như giữ trạng thái trò chơi trong bộ nhớ) để thế giới không đột nhiên dịch chuyển đến nơi khác. Họ gọi đây là “điều kiện lịch sử hỗn hợp.” Về cơ bản, nó thỉnh thoảng đưa các khung hình cũ trở lại vào chính nó để các chi tiết quan trọng (như vị trí của các vật thể và ánh sáng) vẫn nhất quán khi bạn đi bộ. Những người tạo ra nó cũng đảm bảo mô hình có thể chạy nhanh hơn bằng cách chưng cất nó (tức là thu nhỏ một mô hình lớn thành một mô hình nhỏ hơn, nhanh hơn). Điều này cho phép nó theo kịp các lần nhấn phím của bạn trong thời gian thực (gần như), với một GPU mạnh mẽ.
Tóm lại, bạn đưa cho nó một hình ảnh hoặc lời nhắc văn bản bắt đầu và một chuỗi các lần nhấn phím. Sau đó, AI tiếp tục dự đoán các hình ảnh mới để nó trông giống như bạn đang đi bộ hoặc nhìn xung quanh cảnh. Nhờ vào thủ thuật lịch sử đặc biệt, thế giới trò chơi vẫn tương đối nhất quán theo thời gian. Ví dụ, nếu bạn đi xuống một hành lang hoặc quay 180°, các tường và sàn sẽ vẫn ở đúng vị trí thay vì bị lỗi. Đội ngũ cho thấy nó thậm chí còn bảo tồn sự nhất quán 3D trong thời gian dài, điều này khá ấn tượng đối với video được tạo ra.
Use Cases
Vậy những người chơi game và nhà phát triển có thể làm gì với công nghệ này? Ở mức cơ bản, nó là một công cụ sáng tạo. Các nhà thiết kế trò chơi có thể sử dụng nó để tạo ra các môi trường hoặc ý tưởng cấp độ mới ngay lập tức. Các nhà văn và đạo diễn có thể tạo ra các bảng phân cảnh hoặc cảnh cắt chỉ bằng cách nhập mô tả và sau đó điều chỉnh chúng bằng cách “chơi” qua cảnh. Đối với những người chơi game, nó có thể là một cách thú vị để trải nghiệm các trò chơi nhỏ tùy chỉnh mà bạn tạo ra ngay lập tức (như “Tôi muốn một trận chiến rồng trên sao Hỏa” và đột nhiên bạn có thể kiểm soát điều đó). Nó cũng có thể giúp đào tạo các AI khác: ví dụ, chúng ta có thể đào tạo robot hoặc các tác nhân trong các thế giới ảo không giới hạn mà AI tạo ra.
Hiện tại, vẫn chưa có ứng dụng web công khai, và công nghệ vẫn cần được tinh chỉnh hơn về chất lượng hình ảnh và khả năng phản hồi. Trong các bản demo từ các mô hình tương tự, khi máy ảnh di chuyển quá xa hoặc quay quá nhiều, cảnh có thể bắt đầu bị phá vỡ. Điều kiện lịch sử hỗn hợp của Hunyuan giảm thiểu điều này, nhưng các thay đổi góc nhìn lớn vẫn có thể gây ra lỗi kết cấu hoặc hình học bị biến dạng. Hiện tại, nó hoạt động tốt nhất như một bản xem trước nghiên cứu, thứ cho thấy điều gì là có thể, chứ không phải là một trải nghiệm chơi game hoàn chỉnh.
Final Thoughts
Ở giai đoạn này, khái niệm là vững chắc. Có tiềm năng rõ ràng trong việc hình thành video được điều khiển bởi đầu vào để trông và cảm giác như gameplay. Nhưng nó vẫn còn sớm. Đây là một bản demo nghiên cứu, không phải là một sản phẩm hoàn thiện. Việc tạo ra video thời gian thực với độ phân giải cao cho các phiên chơi dài vẫn là một thách thức kỹ thuật.











