التكنولوجيا
لعبة GameCraft من Tencent هي تقنية ذكاء اصطناعي جامحة لتوليد مقاطع فيديو قابلة للتشغيل

تينسنت هونيوان أصدر الفريق شيئًا طموحًا بحق: تقنية جديدة تُسمى Hunyuan-GameCraft. لا يتعلق الأمر بتوليد الذكاء الاصطناعي للصور الثابتة أو المقاطع القصيرة، بل يتعلق بإنشاء تجارب فيديو قابلة للتشغيل من خلال مطالبات نصية بسيطةاكتب "قاربًا في بحيرة"، وفي اللحظة التالية، ستجد نفسك تقود هذا القارب عبر المياه الهادئة في الوقت الفعلي.
إنه يقدم التحكم في الوقت الفعلي في الفيديو الذي تم إنشاؤه بواسطة الذكاء الاصطناعي، مما يوفر الحركة والمنظور و تدفق يشبه اللعب في التجربةبفضل نماذج الانتشار ولقطات الألعاب واسعة النطاق، يدمج GameCraft بين إنشاء الفيديو بالذكاء الاصطناعي والتحكم باللاعب في الوقت الفعلي.
ما هي لعبة Hunyuan-GameCraft من Tencent؟
Hunyuan-GameCraft هو نموذج لتوليد الفيديو قائم على الانتشار، طوّره فريق الذكاء الاصطناعي في Tencent. ما يميزه هو إمكانية توليد مشهد فيديو قابل للتحكم بمجرد توجيه نص أو صورة. بمجرد إنشاء المشهد، يمكنك استكشافه باستخدام لوحة المفاتيح والفأرة، كنسخة بسيطة من لعبة قابلة للعب.
على سبيل المثال، يمكن للنموذج استقبال "مسار غابة ثلجية" وإخراج فيديو متواصل يشبه أسلوب اللعب. يمكنك التحرك للأمام، أو الانعطاف يسارًا أو يمينًا، ويُولّد النموذج كل إطار جديد بناءً على مُدخلاتك. لا يوجد مُحرك ثلاثي الأبعاد تقليدي وراء هذا، بل يتطور الفيديو بناءً على أفعالك.
ما يمكن أن يفعله فعليا
تدعم لعبة Hunyuan-GameCraft من Tencent منظورَي الشخص الأول والثالث، مع انتقالات سلسة بينهما. يمكنك استكشاف المناظر الطبيعية، وشوارع المدن، وساحات المعارك، أو حتى... بيئات الخيال العلميكل حركة مثل النظر حولك أو المشي، مرتبطة بنظام التنبؤ الخاص بالنموذج.
أدوات التحكم مألوفة، حيث يمكنك استخدام مفاتيح WASD أو الأسهم للتحرك والنظر. يتولى الذكاء الاصطناعي الباقي. خلف الكواليس، يقرأ الذكاء الاصطناعي مُدخلاتك كإشارات حركة، ويُنشئ كل إطار بناءً عليها. تتضمن بيانات التدريب أكثر من مليون مقطع فيديو من أكثر من 100 لعبة شائعة. هذا العرض الواسع هو ما يُساعد النموذج على فهم الأنماط البصرية المختلفة (مثل مدن السايبربانك، والقلاع التي تعود للعصور الوسطى، والمناظر الطبيعية) وإعادة بنائها بشكل مُقنع.
في العروض التجريبية الصادرة حتى الآن، تتنوع المشاهد وتثريها بصريًا. ترى بيئات مثل شوارع المدينة، والمناظر الطبيعية الثلجية، وضفاف الأنهار، وغيرها. يبدو الأمر أشبه بمشاهد سينمائية أو مراحل لعبة مُعدّة مسبقًا. لكن من المهم اعتبارها معاينات بحثية. ما نراه هو إنتاج مُنتقى بعناية فائقة. لم يتضح بعد مدى ثبات أو استقرار الجودة عبر مجموعة واسعة من المطالبات أو التفاعلات الطويلة.
لقد رأينا مشاريع أخرى تهدف إلى تحقيق أهداف مماثلة. نماذج WHAM وMuse من Microsoft التركيز على التنبؤ بإطارات اللعب المستقبلية استنادًا إلى القواعد التي تم تعلمها. الأوديسة وهو مثال حديث آخر يحول الفيديو إلى مشهد قابل للاستكشاف باستخدام الذكاء الاصطناعي.
كيف تعمل Hunyuan GameCraft خلف الكواليس؟
صُممت لعبة Hunyuan-GameCraft على أساس ذكاء اصطناعي متطور لتوليد الفيديو (نماذج الانتشار) مع حيل خاصة. الفكرة الرئيسية هي أنها تتعامل مع مدخلات لوحة المفاتيح/الفأرة كجزء من سياق الفيديو أو قصته. من الناحية الفنية، تُحوّل هذه العناصر إلى ما يشبه إشارة حركة الكاميرا، لتعرف كيف تريد تغيير زاوية المشاهدة. ثم... يتنبأ بإطارات الفيديو التالية إطارًا تلو الآخر، مع تمديد المقطع في الاتجاه الذي "تحركه" فيه.
لمنع قفز المشهد، يستخدم النموذج أسلوبًا قائمًا على التاريخ. يتذكر النموذج من أين توقفت (يشبه إلى حد ما حفظ حالة اللعبة في الذاكرة) حتى لا ينتقل العالم فجأةً إلى مكان آخر. يُطلق على هذه العملية اسم "تكييف التاريخ الهجين". ببساطة، يُعيد النموذج الإطارات القديمة إلى نفسه من حين لآخر، بحيث تبقى التفاصيل المهمة (مثل موقع الأشياء والإضاءة) متسقة أثناء المشي. كما حرص المطورون على أن يعمل النموذج بشكل أسرع من خلال تقليصه (أي تقليص نموذج كبير إلى نموذج أصغر وأسرع). بهذه الطريقة، يمكنه مواكبة نقراتك على المفاتيح في الوقت الفعلي (تقريبًا)، بفضل وحدة معالجة الرسومات القوية.
باختصار، ما عليك سوى إدخال صورة أو نصّ تمهيدي وسلسلة من ضغطات المفاتيح. ثمّ يستمرّ الذكاء الاصطناعي في التنبؤ بالصور الجديدة، بحيث يبدو وكأنك تمشي أو تنظر حول المشهد. بفضل خدعة التاريخ الخاصة، يبقى عالم اللعبة متسقًا تقريبًا مع مرور الوقت. على سبيل المثال، إذا مشيت في ممرّ أو استدرت 180 درجة، ستبقى الجدران والأرضية في مكانها بدلًا من أن تتعطل. يُظهر الفريق أنّه يحافظ على اتساق العرض ثلاثي الأبعاد لفترة طويلة، وهو أمرٌ مثير للإعجاب بالنسبة للفيديو المُولّد.
استخدم حالات
إذن، ما الذي يمكن للاعبين والمطورين فعله بهذه التقنية؟ في الأساس، إنها أداة إبداعية. يمكن لمصممي الألعاب استخدامها لإنشاء نماذج أولية لبيئات جديدة أو تطوير أفكارهم فورًا. يمكن للكتاب والمخرجين إنشاء لوحات قصصية أو مشاهد سينمائية بمجرد كتابة الأوصاف، ثم تعديلها من خلال "اللعب" خلال المشهد. بالنسبة للاعبين، قد تكون طريقة ممتعة لتجربة ألعاب مصغرة مخصصة تُنشئها بنفسك (مثل "أريد قتال تنين على المريخ" وفجأة يمكنك التحكم في ذلك). يمكن أن تساعد أيضًا في تدريب أنظمة ذكاء اصطناعي أخرى: على سبيل المثال، يمكننا تدريب الروبوتات أو العملاء في عوالم افتراضية لا نهاية لها يديرها الذكاء الاصطناعي.
لا يوجد تطبيق ويب عام حتى الآن، ولا تزال التقنية بحاجة إلى مزيد من التطوير من حيث جودة الصورة والاستجابة. في العروض التوضيحية لنماذج أخرى مشابهة، قد يبدأ المشهد بالتعطل عند تحرك الكاميرا بعيدًا جدًا أو دورانها كثيرًا. يُخفف نظام هونيوان الهجين لضبط التاريخ من ذلك، لكن التغييرات الكبيرة في المنظور قد تُسبب خللًا في الملمس أو تشوهات في الهندسة. حاليًا، يُفضل استخدامه كمعاينة بحثية، أي كشيء يُظهر الإمكانيات، وليس كتجربة لعب كاملة.
الخلاصة
في هذه المرحلة، الفكرة متينة. هناك إمكانات واضحة في كيفية تصميم الفيديو المُدار بالمدخلات ليبدو وكأنه تجربة لعب. لكن لا يزال الوقت مبكرًا. هذا عرض تجريبي بحثي، وليس منتجًا نهائيًا. لا يزال إنشاء الفيديو في الوقت الفعلي بدقة عالية لجلسات اللعب المطولة يُمثل تحديًا تقنيًا.