प्रौद्योगिकी
टेंसेंट का गेमक्राफ्ट वाइल्ड एआई टेक है जो प्लेबल वीडियो जेनरेशन के लिए उपयोग किया जाता है
टेंसेंट की हुन्युआन टीम ने वास्तव में एक महत्वाकांक्षी परियोजना शुरू की है: एक नई तकनीक जिसे हुन्युआन-गेमक्राफ्ट कहा जाता है। यह अभी तक स्थिर छवियों या छोटे क्लिप को जनरेट करने के बारे में नहीं है, बल्कि यह सरल टेक्स्ट प्रॉम्प्ट से प्लेबल वीडियो अनुभव बनाने के बारे में है। “एक नाव एक झील पर” लिखें, और अगले ही पल, आप वास्तविक समय में शांत पानी में उस नाव को नियंत्रित कर रहे होंगे।
यह वास्तविक समय नियंत्रण को एआई-जनरेटेड वीडियो में लाता है, जिससे आंदोलन, दृष्टिकोण और गेमप्ले जैसा प्रवाह अनुभव में आता है। डिफ्यूजन मॉडल और बड़े पैमाने पर गेम फुटेज द्वारा समर्थित, गेमक्राफ्ट एआई वीडियो जेनरेशन को वास्तविक समय खिलाड़ी नियंत्रण के साथ मिलाता है।
टेंसेंट का हुन्युआन-गेमक्राफ्ट क्या है?
हुन्युआन-गेमक्राफ्ट टेंसेंट की एआई टीम द्वारा विकसित एक डिफ्यूजन-आधारित वीडियो जेनरेशन मॉडल है। जो इसे अलग बनाता है वह यह क्षमता है कि यह केवल एक टेक्स्ट या छवि प्रॉम्प्ट का उपयोग करके एक नियंत्रित वीडियो दृश्य बना सकता है। एक बार दृश्य बन जाने के बाद, आप इसे कीबोर्ड और माउस का उपयोग करके खोज सकते हैं, जैसे कि एक प्लेबल गेम का एक हल्का संस्करण।
उदाहरण के लिए, मॉडल “एक बर्फ से ढकी वन ट्रेल” प्रॉम्प्ट ले सकता है और एक निरंतर वीडियो आउटपुट कर सकता है जो गेमप्ले जैसा दिखता है। आप आगे बढ़ सकते हैं, बाएं या दाएं मुड़ सकते हैं, और मॉडल आपके इनपुट के आधार पर हर नए फ्रेम को जनरेट करता है। इसके पीछे कोई पारंपरिक 3डी इंजन नहीं है। वीडियो आपके कार्यों के आधार पर विकसित होता है।
यह वास्तव में क्या कर सकता है
टेंसेंट का हुन्युआन-गेमक्राफ्ट पहले व्यक्ति और तीसरे व्यक्ति के दृश्यों को सपोर्ट करता है, जिसमें उनके बीच चिकनी संक्रमण होती है। आप परिदृश्य, शहर की सड़कें, युद्ध के मैदान, या यहां तक कि विज्ञान-कथा वातावरण का अन्वेषण कर सकते हैं। हर आंदोलन, जैसे कि देखना या चलना, मॉडल के पूर्वानुमान प्रणाली से जुड़ा हुआ है।
नियंत्रण परिचित हैं, क्योंकि आप आगे बढ़ने और देखने के लिए WASD या तीर कुंजियों का उपयोग कर सकते हैं। एआई बाकी का ध्यान रखता है। पीछे की ओर, यह आपके इनपुट को गति संकेत के रूप में पढ़ रहा है और प्रत्येक फ्रेम का निर्माण उस पर आधारित कर रहा है। प्रशिक्षण डेटा में 100 से अधिक लोकप्रिय गेम्स के एक मिलियन से अधिक वीडियो क्लिप शामिल हैं। यह व्यापक जोखिम मॉडल को विभिन्न दृश्य शैलियों (जैसे साइबरपंक शहर, मध्ययुगीन किले, या प्राकृतिक परिदृश्य) को समझने और उन्हें विश्वसनीय रूप से पुनर्निर्माण करने में मदद करता है।
अब तक जारी किए गए डेमो में, दृश्य विविध और दृश्य रूप से समृद्ध हैं। आप शहर की सड़कों, बर्फ से ढके परिदृश्य, नदी के किनारे, और अधिक जैसे वातावरण देखते हैं। यह एक कटसीन या प्री-रेंडर्ड गेम स्तर के माध्यम से जाने के समान लगता है। लेकिन यह देखना महत्वपूर्ण है कि ये शोध पूर्वावलोकन हैं। जो हम देख रहे हैं वह अत्यधिक क्यूरेटेड आउटपुट है। यह अभी तक स्पष्ट नहीं है कि विभिन्न प्रॉम्प्ट या लंबे समय तक बातचीत के साथ गुणवत्ता कितनी संगत या स्थिर होगी।
हमने अन्य परियोजनाओं को समान लक्ष्यों की ओर देखते हुए देखा है। माइक्रोसॉफ्ट के व्हैम और म्यूज मॉडल सीखे गए नियमों के आधार पर भविष्य के गेमप्ले फ्रेम की भविष्यवाणी करने पर केंद्रित हैं। ओडिसी एक और हालिया उदाहरण है जो वीडियो को एआई का उपयोग करके एक अन्वेषण योग्य दृश्य में बदल देता है।
हुन्युआन गेमक्राफ्ट वास्तव में कैसे काम करता है?
हुन्युआन-गेमक्राफ्ट फैंसी वीडियो-जेनरेशन एआई (डिफ्यूजन मॉडल) के साथ विशेष ट्रिक्स पर बनाया गया है। मुख्य विचार यह है कि यह आपके कीबोर्ड/माउस इनपुट को वीडियो “संदर्भ” या कहानी के हिस्से के रूप में मानता है। तकनीकी रूप से, यह नियंत्रणों को एक प्रकार के कैमरा-मूव सिग्नल में परिवर्तित करता है ताकि यह जानता है कि आप दृष्टिकोण को कैसे बदलना चाहते हैं। फिर यह अगले वीडियो फ्रेम की भविष्यवाणी करता है फ्रेम-बाय-फ्रेम, क्लिप को आपके द्वारा “चलाए” गए दिशा में बढ़ाता है।
दृश्य को छलांगने से रोकने के लिए, मॉडल एक इतिहास-आधारित विधि का उपयोग करता है। यह याद रखता है कि आप कहां से चले गए (एक गेम राज्य को मेमोरी में रखने की तरह) ताकि दुनिया अचानक कहीं और टेलीपोर्ट न हो जाए। उन्हें इसे “हाइब्रिड इतिहास स्थिति” कहते हैं। मूल रूप से, यह कभी-कभी पुराने फ्रेम को खुद में वापस खिलाता है ताकि महत्वपूर्ण विवरण (जैसे कि वस्तुओं और प्रकाश व्यवस्था की स्थिति) संगत रहें जब आप चलते हैं। रचनाकारों ने सुनिश्चित किया है कि मॉडल को तेजी से चलाने के लिए इसे संक्षिप्त किया जा सकता है (अर्थात् एक बड़े मॉडल को एक छोटे, तेज मॉडल में संक्षिप्त करना))। इस तरह यह आपकी कुंजी टैप के साथ (लगभग) वास्तविक समय में तालमेल बिठा सकता है, बशर्ते एक शक्तिशाली जीपीयू हो।
उपयोग के मामले
तो गेमर्स और डेव्स इस तकनीक के साथ क्या कर सकते हैं? मूल स्तर पर, यह एक रचनात्मक उपकरण है। गेम डिज़ाइनर इसका उपयोग नए वातावरण या स्तर विचारों को तुरंत प्रोटोटाइप करने के लिए कर सकते हैं। लेखक और निर्देशक कहानी बोर्ड या कटसीन बनाने के लिए इसका उपयोग कर सकते हैं जो केवल विवरण टाइप करके और फिर दृश्य के माध्यम से “खेल” करके संशोधित किए जा सकते हैं। गेमर्स के लिए, यह कस्टम मिनी-गेम्स का अनुभव करने का एक मजेदार तरीका हो सकता है जो आप तुरंत बना सकते हैं (जैसे “मैं मंगल पर एक ड्रैगन की लड़ाई चाहता हूं” और अचानक आप इसे नियंत्रित कर सकते हैं)। यह अन्य एआई को प्रशिक्षित करने में भी मदद कर सकता है: उदाहरण के लिए, हम एआई द्वारा स्पिन अप की गई अंतहीन आभासी दुनिया में रोबोट या एजेंटों को प्रशिक्षित कर सकते हैं।
अभी तक कोई सार्वजनिक वेब ऐप नहीं है, और तकनीक को अभी भी दृश्य गुणवत्ता और प्रतिक्रिया के मामले में और अधिक परिष्करण की आवश्यकता है। अन्य समान मॉडल्स के डेमो में, जब कैमरा बहुत दूर जाता है या बहुत अधिक घूमता है, तो दृश्य टूटने लगता है। हुन्युआन की हाइब्रिड इतिहास स्थिति इसे कम करती है, लेकिन बड़े दृष्टिकोण परिवर्तन अभी भी टेक्सचर ग्लिच या विकृत ज्यामिति का कारण बन सकते हैं। अभी के लिए, यह एक शोध पूर्वावलोकन के रूप में काम करता है, जो दिखाता है कि क्या संभव है, न कि एक पूरी तरह से खेलने योग्य अनुभव के रूप में।
अंतिम विचार
इस चरण में, अवधारणा ठोस है। इनपुट-चालित वीडियो को गेमप्ले जैसा दिखने और महसूस करने के लिए आकार देने की दृष्टि में दिखाई देने वाली संभावना है। लेकिन यह अभी भी शुरुआती है। यह एक शोध डेमो है, एक समाप्त उत्पाद नहीं। वास्तविक समय में उच्च रिज़ॉल्यूशन पर लंबे समय तक खेल सत्र के लिए जेनरेशन अभी भी एक तकनीकी चुनौती है।