Connect with us

Công nghệ

Công Nghệ AI Hoang Dã Của Tencent’s GameCraft Để Tạo Video Chơi Được

Avatar photo
Glowing forest path to castle, with “Powered by Hunyuan-Gamecraft” text

Đội Hunyuan của Tencent đã phát hành một điều gì đó thực sự tham vọng: một công nghệ mới gọi là Hunyuan-GameCraft. Điều này không phải là về AI tạo ra hình ảnh tĩnh hoặc clip ngắn. Nó là về tạo ra trải nghiệm video chơi được từ các lời nhắc văn bản đơn giản. Viết “một con thuyền trên hồ,” và giây tiếp theo, bạn sẽ điều khiển con thuyền đó trên mặt nước yên tĩnh trong thời gian thực.

Nó giới thiệu điều khiển thời gian thực vào video được tạo ra bởi AI, mang lại chuyển động, góc nhìn và dòng chảy giống như trò chơi vào trải nghiệm. Được hỗ trợ bởi các mô hình khuếch tán và cảnh quay trò chơi quy mô lớn, GameCraft kết hợp tạo video AI với điều khiển thời gian thực của người chơi.

GameCraft Của Tencent Là Gì?

Hunyuan-GameCraft là một mô hình tạo video dựa trên khuếch tán được phát triển bởi đội AI của Tencent. Điều gì khiến nó khác biệt là khả năng tạo ra một cảnh video có thể điều khiển được bằng cách sử dụng chỉ một lời nhắc văn bản hoặc hình ảnh. Một khi cảnh được tạo ra, bạn có thể khám phá nó bằng bàn phím và chuột, giống như một phiên bản nhẹ của một trò chơi có thể chơi được.

Ví dụ, mô hình có thể lấy lời nhắc “một đường mòn rừng tuyết” và xuất ra một video liên tục trông giống như gameplay. Bạn có thể di chuyển về phía trước, quay trái hoặc phải, và mô hình tạo ra mỗi khung hình mới dựa trên đầu vào của bạn. Không có động cơ 3D truyền thống đằng sau điều này. Video tiến hóa dựa trên hành động của bạn.

Nó Có Thể Làm Được Gì?

Hunyuan-GameCraft của Tencent hỗ trợ cả góc nhìn thứ nhất và thứ ba, với chuyển đổi mượt mà giữa chúng. Bạn có thể khám phá các phong cảnh, đường phố thành phố, chiến trường hoặc thậm chí môi trường khoa học viễn tưởng. Mỗi chuyển động như nhìn xung quanh hoặc đi bộ, đều gắn liền với hệ thống dự đoán của mô hình.

Các điều khiển đều quen thuộc, vì bạn có thể sử dụng các phím WASD hoặc phím mũi tên để di chuyển và nhìn xung quanh. AI xử lý phần còn lại. Đằng sau cảnh, nó đọc đầu vào của bạn như các tín hiệu chuyển động và xây dựng từng khung hình dựa trên đó. Dữ liệu đào tạo bao gồm hơn một triệu clip video từ hơn 100 trò chơi phổ biến. Sự phơi sáng rộng rãi này giúp mô hình hiểu các phong cách hình ảnh khác nhau (như thành phố cyberpunk, lâu đài trung cổ, hoặc phong cảnh tự nhiên) và tái tạo chúng một cách thuyết phục.

Trong các bản demo được phát hành cho đến nay, các cảnh đều đa dạng và giàu hình ảnh. Bạn thấy các môi trường như đường phố thành phố, phong cảnh tuyết, bờ sông, và nhiều hơn nữa. Nó cảm giác gần giống như di chuyển qua một cảnh cắt hoặc một cấp độ trò chơi được tạo trước. Nhưng điều quan trọng là phải xem những điều này như các bản xem trước nghiên cứu. Những gì chúng ta đang thấy là đầu ra được chỉnh sửa kỹ lưỡng. Chưa rõ chất lượng hoặc sự ổn định sẽ nhất quán như thế nào trên một loạt các lời nhắc hoặc tương tác dài hơn.

Chúng ta đã thấy các dự án khác nhằm mục tiêu tương tự. Mô hình WHAM và Muse của Microsoft tập trung vào dự đoán các khung hình gameplay tương lai dựa trên các quy tắc đã học. Odyssey là một ví dụ gần đây khác chuyển đổi video thành một cảnh có thể khám phá được bằng AI.

GameCraft Của Hunyuan Làm Việc Như Thế Nào?

Hunyuan-GameCraft được xây dựng trên AI tạo video phức tạp (các mô hình khuếch tán) với các thủ thuật đặc biệt. Ý tưởng chính là nó xử lý các đầu vào bàn phím / chuột của bạn như một phần của “bối cảnh” hoặc câu chuyện video. Về mặt kỹ thuật, nó chuyển đổi các điều khiển đó thành một loại tín hiệu di chuyển máy ảnh để nó biết bạn muốn thay đổi góc nhìn như thế nào. Sau đó, nó dự đoán các khung hình video tiếp theo khung hình theo khung hình, kéo dài clip theo hướng bạn “di chuyển” nó.

Để giữ cho cảnh không bị nhảy xung quanh, mô hình sử dụng một phương pháp dựa trên lịch sử. Nó nhớ nơi bạn rời đi (một chút như giữ trạng thái trò chơi trong bộ nhớ) để thế giới không đột nhiên dịch chuyển đến nơi khác. Họ gọi đây là “điều kiện lịch sử lai”. Về cơ bản, nó thường xuyên đưa các khung hình cũ trở lại vào chính nó để các chi tiết quan trọng (như vị trí của các vật thể và ánh sáng) vẫn nhất quán khi bạn đi bộ. Các nhà tạo ra cũng đảm bảo mô hình có thể chạy nhanh hơn bằng cách chưng cất nó (tức là thu nhỏ một mô hình lớn thành một mô hình nhỏ hơn, nhanh hơn). Điều này cho phép nó theo kịp các lần nhấn phím của bạn trong (gần như) thời gian thực, với một GPU mạnh mẽ.

Tóm lại, bạn đưa cho nó một hình ảnh hoặc lời nhắc văn bản bắt đầu và một chuỗi nhấn phím. Sau đó, AI tiếp tục dự đoán các hình ảnh mới để nó trông giống như bạn đang đi bộ hoặc nhìn xung quanh cảnh. Nhờ thủ thuật lịch sử đặc biệt, thế giới trò chơi vẫn tương đối nhất quán theo thời gian. Ví dụ, nếu bạn đi xuống một hành lang hoặc quay 180°, các bức tường và sàn sẽ vẫn ở đúng vị trí thay vì bị lỗi. Đội ngũ cho thấy nó thậm chí còn bảo tồn sự nhất quán 3D trong một thời gian dài, điều này khá ấn tượng đối với video được tạo ra.

Các Trường Hợp Sử Dụng

Vậy những người chơi game và nhà phát triển có thể làm gì với công nghệ này? Ở mức cơ bản, nó là một công cụ sáng tạo. Các nhà thiết kế trò chơi có thể sử dụng nó để tạo ra các môi trường hoặc ý tưởng cấp độ mới ngay lập tức. Các nhà văn và đạo diễn có thể tạo ra các bảng phân cảnh hoặc cảnh cắt chỉ bằng cách nhập mô tả và sau đó điều chỉnh chúng bằng cách “chơi” qua cảnh. Đối với những người chơi game, nó có thể là một cách thú vị để trải nghiệm các trò chơi mini tùy chỉnh mà bạn tạo ra ngay lập tức (như “Tôi muốn một trận chiến rồng trên sao Hỏa” và đột nhiên bạn có thể điều khiển nó). Nó cũng có thể giúp đào tạo các AI khác: ví dụ, chúng ta có thể đào tạo các robot hoặc tác nhân trong các thế giới ảo vô tận mà AI tạo ra.

Chưa có ứng dụng web công khai, và công nghệ vẫn cần tinh chỉnh hơn về chất lượng hình ảnh và phản hồi. Trong các bản demo từ các mô hình tương tự, khi máy ảnh di chuyển quá xa hoặc quay quá nhiều, cảnh có thể bắt đầu bị hỏng. Điều kiện lịch sử lai của Hunyuan giảm thiểu điều đó, nhưng các thay đổi góc nhìn lớn vẫn có thể gây ra lỗi kết cấu hoặc hình học bị biến dạng. Hiện tại, nó hoạt động tốt nhất như một bản xem trước nghiên cứu, thứ cho thấy điều gì là có thể, chứ không phải là một trải nghiệm chơi được hoàn chỉnh.

Tư Duy Cuối Cùng

Ở giai đoạn này, khái niệm là vững chắc. Có tiềm năng rõ ràng trong cách video được điều khiển bởi đầu vào có thể được định hình để trông và cảm giác giống như gameplay. Nhưng nó vẫn còn sớm. Đây là một bản demo nghiên cứu, không phải là một sản phẩm hoàn thiện. Tạo ra thời gian thực với độ phân giải cao cho các phiên chơi dài vẫn là một thách thức kỹ thuật.

Amar là một người đam mê game và nhà viết nội dung tự do. Với tư cách là một nhà viết nội dung game giàu kinh nghiệm, anh ấy luôn cập nhật những xu hướng mới nhất của ngành công nghiệp game. Khi không bận rộn với việc tạo ra những bài viết game hấp dẫn, bạn có thể tìm thấy anh ấy đang thống trị thế giới ảo với tư cách là một game thủ lão luyện.

Advertiser Disclosure: Gaming.net is committed to rigorous editorial standards to provide our readers with accurate reviews and ratings. We may receive compensation when you click on links to products we reviewed. Please Play Responsibly: Gambling involves risk. Never bet more than you can afford to lose. If you or someone you know has a gambling problem, please visit GambleAware, GamCare, or Gamblers Anonymous. Casino Games Disclosure:  Select casinos are licensed by the Malta Gaming Authority. 18+ Disclaimer: Gaming.net is an independent informational platform and does not operate gambling services or accept bets. Gambling laws vary by jurisdiction and may change. Verify the legal status of online gambling in your location before participating.