التكنولوجيا
تكنولوجيا Hunyuan-GameCraft من تينسنت: تكنولوجيا ذكاء اصطناعي متطورة لإنشاء تجارب فيديو قابلة للتشغيل
أطلق فريق Hunyuan التابع لشركة تينسنت شيءًا طموحًا حقًا: تكنولوجيا جديدة تسمى Hunyuan-GameCraft. لا يتعلق الأمر هنا بإنشاء صور ثابتة أو مقاطع فيديو قصيرة. بل يتعلق بإنشاء تجارب فيديو قابلة للتشغيل من نصوص بسيطة. اكتب “قارب على بحيرة”، وفي اللحظة التالية، ستكون تقود ذلك القارب عبر مياه هادئة في الوقت الفعلي.
يُدخل التحكم في الوقت الفعلي إلى فيديوهات تم إنشاؤها بواسطة الذكاء الاصطناعي، مما يُضيف الحركة والمنظور والتدفق الشبيه باللعبة إلى التجربة. مدعومًا بنماذج انتشار وملفات فيديو ألعاب كبيرة النطاق، يدمج GameCraft بين إنشاء فيديو بواسطة الذكاء الاصطناعي والتحكم في الوقت الفعلي بواسطة اللاعب.
ما هي Hunyuan-GameCraft من تينسنت؟
Hunyuan-GameCraft هو نموذج إنشاء فيديو يعتمد على الاندماج تم تطويره بواسطة فريق الذكاء الاصطناعي في تينسنت. ما يميزه هو القدرة على إنشاء مشهد فيديو قابل للتحكم باستخدام نص أو صورة بسيطة. بمجرد إنشاء المشهد، يمكنك استكشافه باستخدام لوحة المفاتيح والفأرة، مثل نسخة خفيفة من لعبة قابلة للتشغيل.
على سبيل المثال، يمكن للنموذج أن يأخذ النص “مسار غابة ثلجية” وينتج فيديو متواصل يبدو مثل اللعبة. يمكنك التقدم إلى الأمام أو الانعطاف إلى اليمين أو اليسار، وينتج النموذج كل إطار جديد بناءً على إدخالاتك. لا يوجد محرك ثلاثي الأبعاد تقليدي خلف هذا. يتطور الفيديو بناءً على أفعالك.
ما الذي يمكنه فعله بالفعل؟
يدعم Hunyuan-GameCraft من تينسنت مناظير الأول شخص والشخص الثالث، مع انتقالات سلسة بينهما. يمكنك استكشاف المناظر الطبيعية وشارع المدينة وميدان المعركة أو حتى بيئات الخيال العلمي. كل حركة مثل النظر حولك أو المشي، ترتبط بنظام التنبؤ بالنموذج.
التحكم مألوف، حيث يمكنك استخدام مفاتيح WASD أو السهم للحركة والنظر حولك. يتعامل الذكاء الاصطناعي مع الباقي. في الخلفية، يقرأ إدخالاتك كإشارات حركة وينشيء كل إطار بناءً على ذلك. يتضمن بيانات التدريب أكثر من مليون مقطع فيديو من أكثر من 100 لعبة شائعة. تلك التعرض الواسع هو ما يساعد النموذج على فهم أنماط بصرية مختلفة (مثل مدن الخيال العلمي أو القلاع القديمة أو المناظر الطبيعية) وإعادة بنائها بشكل معقول.
في العروض التي تم إصدارها حتى الآن، تكون المشاهد متنوعة وغنية بصريًا. ترى بيئات مثل شوارع المدينة ومناظر ثلجية وضفاف الأنهار والمزيد. يبدو الأمر قريبًا من التحرك عبر مشهد أو مستوى لعبة تم إعداده مسبقًا. ومع ذلك، من المهم النظر إلى هذه العروض على أنها معاينة أبحاث. ما نراه هو مخرجات معدة بعناية. لا يزال غير واضح كيف سيكون جودة المنتج النهائي أو استقراره عبر مجموعة واسعة من الإدخالات أو التفاعلات الأطول.
لقد رأينا مشاريع أخرى تهدف إلى أهداف مماثلة. نماذج WHAM و Muse من مايكروسوفت تركز على التنبؤ بإطارات اللعبة المستقبلية بناءً على القواعد المكتسبة. Odyssey هو مثال آخر حديث يتحول إلى مشهد قابل للاستكشاف باستخدام الذكاء الاصطناعي.
كيف تعمل Hunyuan GameCraft خلف الكواليس؟
تم بناء Hunyuan-GameCraft على أساس الذكاء الاصطناعي لإنشاء الفيديو (نماذج الاندماج) مع خدع خاصة. الفكرة الرئيسية هي أن يتم التعامل مع إدخالات لوحة المفاتيح والفأرة كجزء من “السياق” أو القصة للفيديو. تقنيًا، يتم تحويل تلك التحكمات إلى نوع من إشارات تحريك الكاميرا حتى يعرف كيف تريد تغيير نقطة الالتفات. ثم يتنبأ بالإطارات التالية للفيديو إطارًا تلو الآخر، متبوعًا بالمقاطع في الاتجاه الذي “تتحرك” فيه.
为了 منع المشهد من القفز حول، يستخدم النموذج طريقة تاريخية. يتذكر حيث تركت вещاء (شيء مثل الاحتفاظ بحالة اللعبة في الذاكرة) حتى لا ينتقل العالم فجأة إلى مكان آخر. يسمون هذا “التحديق التاريخي الهجين”. بشكل أساسي، يقوم بتمرير الإطارات القديمة إلى نفسه من وقت لآخر حتى تظل التفاصيل المهمة (مثل موقع الكائنات والإضاءة) ثابتة أثناء سيرك. كما قام المبتكرون بضمان تشغيل النموذج بشكل أسرع من خلال التقطير (أي تصغير نموذج كبير إلى نموذج أصغر وأسرع). بهذه الطريقة، يمكنه مواكبة ضغطات المفاتيح الخاصة بك في الوقت الفعلي تقريبًا، مع معالج رسومات قوي.
باختصار، تقدم له صورة أو نص بدئي وتسلسل من ضغطات المفاتيح. ثم يتنبأ الذكاء الاصطناعي بصور جديدة حتى يبدو الأمر كما لو كنت تسير أو تنظر حول المشهد. بفضل خدعة التاريخ الخاصة، يبقى عالم اللعبة متسقًا تقريبًا مع مرور الوقت. على سبيل المثال، إذا سارت في ممر أو التفتت 180 درجة، ستظل الجدران والأرضية في مكانها بدلاً من أن تتعطل. يظهر الفريق أنه يحافظ على الاتساق ثلاثي الأبعاد لمدة طويلة، وهو أمر مثير للإعجاب لفيديو تم إنشاؤه.
استخدامات
ما الذي يمكن أن يفعله به لاعبو الألعاب ومطوري الألعاب؟ على مستوى أساسي، إنه أداة إبداعية. يمكن لمصممي الألعاب استخدامها لإنشاء بيئات أو أفكار مستويات جديدة على الفور. قد ينتج الكتاب والمخرجون لوحات قصة أو مشاهد قاتلة بالكتابة فقط وصفحاتها وتنقيحها من خلال “لعب” المشهد. بالنسبة للاعبين، يمكن أن يكون طريقة ممتعة لتجربة ألعاب مصغرة مخصصة التي تُنشئها على الفور (مثل “أريد معركة تنين على المريخ” و突然 يمكنك التحكم في ذلك). يمكن أن يساعد أيضًا في تدريب الذكاء الاصطناعي الآخر: على سبيل المثال، يمكننا تدريب الروبوتات أو الوكلاء في عوالم افتراضية لا نهاية لها التي يُنشئها الذكاء الاصطناعي.
لا يوجد تطبيق ويب عام حتى الآن، ولا يزال التقنية بحاجة إلى المزيد من التحسين فيما يتعلق بالجودة البصرية والاستجابة. في العروض من نماذج مماثلة، عندما يتحرك الكاميرا بعيدًا أو يتحرك كثيرًا، يمكن أن يبدأ المشهد في التدهور. تقلل تحديق التاريخ الهجين من ذلك، ولكن التغييرات الكبيرة في المنظور يمكن أن تسبب仍ًا تشوهات نصية أو هندسة معوجة. حاليًا، يعمل بشكل أفضل كعرض أبحاث، شيء يُظهر ما هو ممكن، بدلاً من تجربة قابلة للتشغيل بالكامل.
أفكار ختامية
في هذه المرحلة، المفهوم صلب. هناك إمكانات مرئية في كيفية تشكيل الفيديو الذي يعتمد على الإدخال ليشبه اللعبة. ولكنها لا تزال في مرحلة مبكرة. هذا هو عرض أبحاث، وليس منتجًا نهائيًا. لا يزال التوليد في الوقت الفعلي بدقة عالية لمجلس اللعب الممتد هو تحدي تقني.











