Teknologi
Teknologi AI GameCraft Tencent yang Liar untuk Pembuatan Video yang Dapat Dimainkan
Tim Hunyuan Tencent telah merilis sesuatu yang sangat ambisius: teknologi baru yang disebut Hunyuan-GameCraft. Ini bukan tentang AI yang menghasilkan gambar diam atau klip pendek. Ini tentang menciptakan pengalaman video yang dapat dimainkan dari prompt teks sederhana. Tulis “sebuah perahu di danau,” dan momen berikutnya, Anda akan mengarahkan perahu itu di atas air yang tenang secara real-time.
Ini memperkenalkan kontrol waktu nyata ke dalam video yang dihasilkan AI, membawa gerakan, perspektif, dan aliran permainan-like ke dalam pengalaman. Didukung oleh model difusi dan footage game skala besar, GameCraft menggabungkan generasi video AI dengan kontrol pemain waktu nyata.
Apa itu Hunyuan-GameCraft Tencent?
Hunyuan-GameCraft adalah model generasi video berbasis difusi yang dikembangkan oleh tim AI Tencent. Yang membedakannya adalah kemampuan untuk menghasilkan adegan video yang dapat dikontrol menggunakan prompt teks atau gambar. Setelah adegan dibuat, Anda dapat mengeksplorasi menggunakan keyboard dan mouse, seperti versi ringan dari permainan yang dapat dimainkan.
Misalnya, model dapat mengambil prompt “sebuah jalur hutan salju” dan menghasilkan video kontinu yang terlihat seperti gameplay. Anda dapat bergerak maju, berbelok kiri atau kanan, dan model menghasilkan setiap frame baru berdasarkan input Anda. Tidak ada mesin 3D tradisional di balik ini. Video berkembang berdasarkan tindakan Anda.
Apa yang Dapat Dilakukan
Hunyuan-GameCraft Tencent mendukung tampilan pertama dan ketiga, dengan transisi yang mulus di antara keduanya. Anda dapat mengeksplorasi lanskap, jalan kota, medan perang, atau bahkan lingkungan sci-fi. Setiap gerakan seperti melihat sekitar atau berjalan, dihubungkan dengan sistem prediksi model.
Kontrolnya sudah familiar, karena Anda dapat menggunakan tombol WASD atau panah untuk bergerak dan melihat sekitar. AI menangani sisanya. Di balik layar, itu membaca input Anda sebagai petunjuk gerakan dan membangun setiap frame berdasarkan itu. Data pelatihan mencakup lebih dari satu juta klip video dari lebih dari 100 game populer. Itu membantu model memahami gaya visual yang berbeda (seperti kota cyberpunk, kastil abad pertengahan, atau lanskap alami) dan merekonstruksinya dengan meyakinkan.
Dalam demo yang dirilis sejauh ini, adegan-adegan sangat bervariasi dan kaya secara visual. Anda melihat lingkungan seperti jalan kota, lanskap salju, tepi sungai, dan lain-lain. Ini terasa seperti bergerak melalui adegan atau level permainan yang sudah dirender sebelumnya. Namun, penting untuk melihat ini sebagai pratinjau penelitian. Apa yang kita lihat adalah output yang sangat tercurasi. Belum jelas seberapa konsisten atau stabil kualitasnya akan di seluruh rentang prompt atau interaksi yang lebih lama.
Kita telah melihat proyek lain yang bertujuan untuk tujuan yang sama. Model WHAM dan Muse Microsoft fokus pada memprediksi frame gameplay masa depan berdasarkan aturan yang dipelajari. Odyssey adalah contoh lain yang baru-baru ini mengubah video menjadi adegan yang dapat dieksplorasi menggunakan AI.
Bagaimana Hunyuan GameCraft Bekerja di Balik Layar?
Hunyuan-GameCraft dibangun dengan teknologi AI generasi video yang canggih (model difusi) dengan trik khusus. Ide kunci adalah itu memperlakukan input keyboard/mouse Anda sebagai bagian dari “konteks” atau cerita video. Secara teknis, itu mengubah kontrol tersebut menjadi sinyal gerakan kamera sehingga itu tahu bagaimana Anda ingin mengubah sudut pandang. Kemudian itu memprediksi frame video berikutnya frame demi frame, memperpanjang klip dalam arah yang Anda “gerakkan”.
Untuk menjaga adegan dari melompat, model menggunakan metode berbasis sejarah. Itu mengingat di mana Anda meninggalkan (sedikit seperti menyimpan keadaan permainan di memori) sehingga dunia tidak tiba-tiba teleport ke tempat lain. Mereka menyebutnya “hybrid history conditioning.” Secara dasar, itu secara berkala memberi makan kembali frame lama ke dalam dirinya sendiri sehingga detail penting (seperti posisi objek dan pencahayaan) tetap konsisten saat Anda berjalan. Pembuatnya juga memastikan model dapat berjalan lebih cepat dengan menyulingnya (yaitu, mengubah model besar menjadi model yang lebih kecil dan lebih cepat). Dengan cara ini, itu dapat mengikuti ketukan kunci Anda dalam waktu nyata (hampir), dengan GPU yang kuat.
Singkatnya, Anda memberinya gambar atau prompt teks awal dan urutan ketukan kunci. AI kemudian terus memprediksi gambar baru sehingga terlihat seperti Anda berjalan atau melihat sekitar adegan. Berkat trik sejarah khusus, dunia permainan tetap konsisten sepanjang waktu. Misalnya, jika Anda berjalan di sepanjang lorong atau berputar 180°, dinding dan lantai akan tetap di tempatnya alih-alih glitch. Tim menunjukkan bahwa itu bahkan mempertahankan konsistensi 3D selama waktu yang lama, yang cukup mengesankan untuk video yang dihasilkan.
Kasus Penggunaan
Jadi, apa yang dapat dilakukan oleh gamer dan pengembang dengan teknologi ini? Pada tingkat dasar, ini adalah alat kreatif. Desainer game dapat menggunakannya untuk membuat lingkungan atau ide level baru secara instan. Penulis dan sutradara mungkin menghasilkan storyboard atau adegan yang hanya dengan mengetikkan deskripsi dan kemudian menyesuaikannya dengan “memainkan” adegan. Untuk gamer, ini bisa menjadi cara yang menyenangkan untuk mengalami mini-game kustom yang Anda buat secara instan (seperti “Saya ingin pertarungan naga di Mars” dan tiba-tiba Anda dapat mengontrolnya). Ini juga dapat membantu melatih AI lain: misalnya, kita dapat melatih robot atau agen di dunia virtual yang tidak terbatas yang AI buat.
Tidak ada aplikasi web publik yet, dan teknologi ini masih memerlukan penyempurnaan lebih lanjut dalam hal kualitas visual dan responsivitas. Dalam demo dari model serupa lainnya, ketika kamera bergerak terlalu jauh atau berputar terlalu banyak, adegan dapat mulai rusak. Hybrid history conditioning Hunyuan mengurangi itu, tetapi pergeseran perspektif besar masih dapat menyebabkan glitch tekstur atau geometri yang terdistorsi. Saat ini, itu bekerja paling baik sebagai pratinjau penelitian, sesuatu yang menunjukkan apa yang mungkin, daripada pengalaman yang dapat dimainkan sepenuhnya.
Pemikiran Akhir
Pada tahap ini, konsepnya solid. Ada potensi yang terlihat dalam bagaimana video yang diarahkan input dapat dibentuk untuk terlihat dan terasa seperti gameplay. Namun, ini masih awal. Ini adalah demo penelitian, bukan produk yang selesai. Generasi waktu nyata dengan resolusi tinggi untuk sesi permainan yang diperpanjang masih merupakan tantangan teknis.