Connect with us

التكنولوجيا

تكنولوجيا腾讯 GameCraft هي تكنولوجيا ذكاء اصطناعي برية لجلب فيديو قابل للتشغيل

Avatar photo
Glowing forest path to castle, with “Powered by Hunyuan-Gamecraft” text

أطلق فريق Hunyuan التابع لشركة تكنولوجيا腾讯 شيء حقًا طموح: تقنية جديدة تسمى Hunyuan-GameCraft. هذا ليس عن جيل الذكاء الاصطناعي للصور الثابتة أو مقاطع الفيديو القصيرة. إنه عن إنشاء تجارب فيديو قابلة للتشغيل من نصوص بسيطة. اكتب “قارب على بحيرة” ، وفي اللحظة التالية ، ستكون تقود ذلك القارب عبر مياه هادئة في الوقت الفعلي.

يُدخل التحكم في الوقت الفعلي إلى فيديو تم إنشاؤه بواسطة الذكاء الاصطناعي ، مما يجلب الحركة والمنظور و مثل تدفق اللعبة إلى التجربة. مدعومًا بنماذج انتشار كبيرة ومقاطع فيديو ألعاب ، يدمج GameCraft جيل فيديو الذكاء الاصطناعي مع التحكم في الوقت الفعلي لللاعب.

ما هو Hunyuan-GameCraft من تكنولوجيا腾讯؟

Hunyuan-GameCraft هو نموذج جيل فيديو يعتمد على الانتشار تم تطويره بواسطة فريق الذكاء الاصطناعي في تكنولوجيا腾讯. ما يميزه هو القدرة على إنشاء مشهد فيديو قابل للتحكم باستخدام نص أو صورة بسيطة. بمجرد إنشاء المشهد ، يمكنك استكشافه باستخدام لوحة المفاتيح والفأرة ، مثل نسخة خفيفة من لعبة قابلة للتشغيل.

على سبيل المثال ، يمكن للنموذج أخذ نص “مسار غابات ثلجية” وتنفيذ فيديو مستمر يبدو مثل اللعبة. يمكنك التحرك إلى الأمام ، والالتفاف إلى اليسار أو اليمين ، وينتج النموذج كل إطار جديد بناءً على مدخلاتك. لا يوجد محرك 3D تقليدي وراء هذا. يتطور الفيديو بناءً على أفعالك.

ما الذي يمكنه فعله بالفعل

يدعم Hunyuan-GameCraft من تكنولوجيا腾讯 مناظير الأولى والثالثة ، مع انتقالات سلسة بينهما. يمكنك استكشاف المناظر الطبيعية وشارع المدينة وميدان المعركة ، أو حتى بيئات الخيال العلمي. كل حركة مثل النظر حولك أو المشي ، ترتبط بنظام التنبؤ بالنموذج.

الضوابط مألوفة ، حيث يمكنك استخدام WASD أو مفاتيح السهم للحركة والنظر حولك. يتعامل الذكاء الاصطناعي مع الباقي. في الخلفية ، يقرأ مدخلاتك كإشارات حركة ويبني كل إطار بناءً على ذلك. يتضمن بيانات التدريب أكثر من مليون مقطع فيديو من أكثر من 100 لعبة شعبية. تلك التعرض الواسع هو ما يساعد النموذج على فهم أنماط بصرية مختلفة (مثل مدن الخيال العلمي أو القلاع الوسطى أو المناظر الطبيعية) وإعادة بنائها بشكل معقول.

في العروض التوضيحية التي تم إصدارها حتى الآن ، تكون المشاهد متنوعة وغنية بصريًا. ترى بيئات مثل شوارع المدينة ومناظر ثلجية وضفاف الأنهار والمزيد. يشبه التحرك عبر مشهد أو مستوى لعبة تم إعداده مسبقًا. لكن من المهم النظر إلى هذه العروض التوضيحية كعروض بحثية. ما نراه هو مخرجات متعمدة للغاية. لم ي trở rõ بعد كيف ستكون الجودة متسقة أو مستقرة عبر مجموعة واسعة من النصوص أو تفاعلات أطول.

لقد رأينا مشاريع أخرى تهدف إلى أهداف مماثلة. نماذج Microsoft’s WHAM و Muse تركز على التنبؤ بإطارات اللعبة المستقبلية بناءً على القواعد المكتسبة. Odyssey هو مثال آخر تم إصداره مؤخرًا الذي يحول مقطع فيديو إلى مشهد قابل للاستكشاف باستخدام الذكاء الاصطناعي.

كيف يعمل Hunyuan GameCraft خلف الكواليس؟

Hunyuan-GameCraft مبني على جيل فيديو الذكاء الاصطناعي المتقدم (نماذج الانتشار) مع خدع خاصة. الفكرة الرئيسية هي أنه يعامل مدخلات لوحة المفاتيح / الفأرة كجزء من “السياق” أو القصة للفيديو. تقنيًا ، يتحول إلى نوع من إشارة تحريك الكاميرا حتى يعرف كيف تريد تغيير نقطة ال관. ثم يتنبأ بإطارات الفيديو التالية إطارًا تلو الآخر ، ويطيل المقطع في الاتجاه الذي “تتحرك” فيه.

为了 منع المشهد من القفز ، يستخدم النموذج طريقة تاريخية. يتذكر أين تركت (شيء مثل الاحتفاظ بحالة اللعبة في الذاكرة) حتى لا ينتقل العالم فجأة إلى مكان آخر. يسمون ذلك “التشغيل التاريخي الهجين”. بشكل أساسي ، يقوم بإعادة تغذية الإطارات القديمة إلى نفسه من وقت لآخر حتى تظل التفاصيل المهمة (مثل موقع الكائنات والإضاءة) متسقة أثناء سيرك. كما قام المبتكرون بضمان تشغيل النموذج بشكل أسرع عن طريق تقليصه (أي تحويل نموذج كبير إلى نموذج أصغر وأسرع). بهذه الطريقة ، يمكنه مواكبة ضربات المفتاح في الوقت الفعلي تقريبًا ، مع معالج رسومات قوي.
في اختصار ، تقدم له صورة أو نص بدئي وتسلسل من ضربات المفتاح. ثم يتنبأ الذكاء الاصطناعي دائمًا بصور جديدة حتى يبدو كما لو كنت تمشي أو تنظر حول المشهد. بفضل خدعة التاريخ الخاصة ، يبقى عالم اللعبة متسقًا تقريبًا مع مرور الوقت. على سبيل المثال ، إذا سارت في ممر أو التفتت 180 درجة ، ستظل الجدران والأرضية في مكانها بدلاً من أن تتعطل. يظهر الفريق أنه يحافظ حتى على الاتساق ثلاثي الأبعاد لفترة طويلة ، وهو أمر ممتاز لفيديو تم إنشاؤه.

حالات الاستخدام

ما الذي يمكن للاعبين والمطورين فعله مع هذه التقنية؟ على مستوى أساسي ، إنه أداة إبداعية. يمكن لمصممي الألعاب استخدامه لإنشاء بيئات أو أفكار مستويات جديدة على الفور. قد يستخدم الكتاب والمخرجون إنشاء قصص مصورة أو مشاهد قصيرة فقط عن طريق كتابة الوصف ثم تعديلها من خلال “لعب” المشهد. بالنسبة للاعبين ، يمكن أن يكون طريقة ممتعة لتجربة ألعاب مصغرة مخصصة التي تنشئها على الفور (مثل “أريد معركة تنين على المريخ” و突然 يمكنك التحكم في ذلك). يمكن أن يساعد أيضًا في تدريب الذكاء الاصطناعي الآخر: على سبيل المثال ، يمكننا تدريب الروبوتات أو الوكلاء في عوالم افتراضية لا نهاية لها التي يبتكرها الذكاء الاصطناعي.

لا يوجد تطبيق ويب عام حتى الآن ، والتقنية لا تزال تحتاج إلى المزيد من التطوير من حيث الجودة البصرية والاستجابة. في عروض توضيحية من نماذج مماثلة ، عندما يتحرك الكاميرا بعيدًا جدًا أو يلتف كثيرًا ، يمكن أن يبدأ المشهد في التدهور. يقلل تشغيل Hunyuan التاريخي الهجين من ذلك ، ولكن يمكن أن تسبب التحولات الكبيرة في المنظور مشاكل في النسيج أو هندسة مشوهة. في الوقت الحالي ، يعمل بشكل أفضل كعرض بحثي ، شيء يظهر ما هو ممكن ، بدلاً من تجربة قابلة للتشغيل بالكامل.

أفكار نهائية

في هذه المرحلة ، المفهوم صلب. هناك إمكانية مرئية في كيفية تشكيل فيديو مدفوع بالمدخلات ليشبه ويتشابه مع اللعبة. لكنها لا تزال في مراحلها الأولى. هذا هو عرض بحثي ، وليس منتجًا منتهيًا. لا يزال التوليد في الوقت الفعلي بدقة عالية لجلسات اللعب الممتدة تحديًا تقنيًا.

عمار هو محب للألعاب ومؤلف محتوى حر. كما أنه كاتب محتوى ألعاب متمرس ، دائمًا على اطلاع بآخر الاتجاهات في صناعة الألعاب. عندما لا يكون مشغولا بكتابة مقالات ألعاب مقنعة ، يمكنك العثور عليه وهو يهيمن على العالم الافتراضي كلاعب متمرس.