טכנולוגיה
GameCraft של Tencent היא טכנולוגיית בינה מלאכותית פרועה ליצירת וידאו שניתן לשחק בו

של טנסנט הוניואן הצוות הוציא משהו באמת שאפתני: טכנולוגיה חדשה בשם Hunyuan-GameCraft. זה לא עניין של בינה מלאכותית שיוצרת תמונות סטילס או קליפים קצרים. זה עניין של יצירה חוויות וידאו ניתנות להפעלה באמצעות הנחיות טקסט פשוטותכתבו "סירה על אגם", וברגע הבא, אתם מנווטים את הסירה הזו על פני מים רגועים בזמן אמת.
זה מציג שליטה בזמן אמת בסרטונים שנוצרו על ידי בינה מלאכותית, ומביא תנועה, פרספקטיבה ו... זרימה דמוית משחקיות לתוך החוויהGameCraft, המגובה במודלים של דיפוזיה וצילומי משחקים בקנה מידה גדול, משלבת יצירת וידאו מבוסס בינה מלאכותית עם שליטה בזמן אמת של השחקן.
מה זה Hunyuan-GameCraft של טנסנט?
Hunyuan-GameCraft הוא מודל ליצירת וידאו מבוסס דיפוזיה שפותח על ידי צוות הבינה המלאכותית של Tencent. מה שמייחד אותו הוא היכולת ליצור סצנת וידאו ניתנת לשליטה באמצעות טקסט או תמונה בלבד. לאחר יצירת הסצנה, ניתן לחקור אותה באמצעות מקלדת ועכבר, כמו גרסה קלה של משחק שניתן לשחק.
לדוגמה, המודל יכול לקבל את ההנחיה "שביל יער מושלג" ולהפיק סרטון רציף שנראה כמו משחק. ניתן לנוע קדימה, לפנות שמאלה או ימינה, והמודל מייצר כל פריים חדש בהתבסס על הקלט שלכם. אין מנוע תלת-ממדי מסורתי מאחורי זה. הסרטון מתפתח בהתבסס על הפעולות שלכם.
מה זה באמת יכול לעשות
Hunyuan-GameCraft של Tencent תומך בתצוגות גוף ראשון ושלישי, עם מעברים חלקים ביניהן. ניתן לחקור נופים, רחובות ערים, שדות קרב, או אפילו... סביבות מדע בדיוניכל תנועה, כמו הסתכלות סביב או הליכה, קשורה למערכת החיזוי של המודל.
הפקדים מוכרים, שכן ניתן להשתמש במקשי WASD או במקשי החצים כדי לנוע ולהסתכל מסביב. הבינה המלאכותית מטפלת בשאר. מאחורי הקלעים, היא קוראת את הקלט שלך כרמזי תנועה ובונה כל פריים על סמך זה. נתוני האימון כוללים מעל מיליון קטעי וידאו מיותר מ-100 משחקים פופולריים. חשיפה רחבה זו היא שעוזרת למודל להבין סגנונות ויזואליים שונים (כמו ערי סייברפאנק, טירות מימי הביניים או נופים טבעיים) ולשחזר אותם בצורה אמינה.
בדמואים שיצאו עד כה, הסצנות מגוונות ועשירות מבחינה ויזואלית. רואים סביבות כמו רחובות עיר, נופים מושלגים, גדות נהרות ועוד. זה מרגיש כמו מעבר דרך קטע קטע או שלב משחק שעבר רינדרד מראש. אבל חשוב לראות את אלה כתצוגות מקדימות של מחקר. מה שאנחנו רואים הוא פלט שנבחר בקפידה. עדיין לא ברור עד כמה האיכות תהיה עקבית או יציבה על פני מגוון רחב של הנחיות או אינטראקציות ארוכות יותר.
ראינו פרויקטים אחרים שמטרתם הייתה להגיע ליעדים דומים. מודלי WHAM ו-Muse של מיקרוסופט התמקדות בחיזוי מסגרות משחק עתידיות על סמך כללים שנלמדו. אודיסיאה היא דוגמה נוספת עדכנית שהופכת וידאו לסצנה ניתנת לחקירה באמצעות בינה מלאכותית.
איך Hunyuan GameCraft עובדת מאחורי הקלעים?
Hunyuan-GameCraft בנוי על בינה מלאכותית מתוחכמת ליצירת וידאו (מודלים של דיפוזיה) עם טריקים מיוחדים. הרעיון המרכזי הוא שהוא מתייחס לקלטים של המקלדת/עכבר כחלק מ"הקשר" או הסיפור של הסרטון. מבחינה טכנית, הוא ממיר את הפקדים הללו למעין אות תנועת מצלמה כך שהוא יודע כיצד אתה רוצה שנקודת המבט תשתנה. לאחר מכן הוא... מנבא את פריימים הווידאו הבאים פריים אחר פריים, תוך הארכת הסרטון בכיוון שבו אתה "מזיז" אותו.
כדי למנוע מהסצנה לקפוץ, המודל משתמש בשיטה מבוססת היסטוריה. הוא זוכר היכן הפסקתם (קצת כמו לשמור את מצב המשחק בזיכרון) כך שהעולם לא יעבור פתאום למקום אחר. הם קוראים לזה "התניה היברידית של היסטוריה". בעיקרון, הוא מזין מדי פעם את הפריימים הישנים בחזרה לעצמו כך שפרטים חשובים (כמו מיקום האובייקטים והתאורה) יישארו עקביים בזמן ההליכה. היוצרים גם דאגו שהמודל יוכל לפעול מהר יותר על ידי זיקוקו (כלומר, כיווץ מודל גדול למודל קטן ומהיר יותר). בדרך זו הוא יכול לעמוד בקצב הקשות המקשים שלכם (כמעט) בזמן אמת, בהינתן GPU חזק.
בקיצור, אתם נותנים לו תמונה או טקסט התחלתיים ורצף של לחיצות מקשים. לאחר מכן, הבינה המלאכותית ממשיכה לחזות תמונות חדשות כך שזה ייראה כאילו אתם הולכים או מסתכלים סביב הסצנה. הודות לטריק ההיסטוריה המיוחד, עולם המשחק נשאר עקבי פחות או יותר לאורך זמן. לדוגמה, אם אתם הולכים במסדרון או מסתובבים ב-180 מעלות, הקירות והרצפה יישארו במקומם במקום להיתקל בתקלות. הצוות מראה שהוא אפילו שומר על עקביות תלת-ממדית לאורך זמן, וזה די מרשים עבור וידאו שנוצר.
השתמש במקרים
אז מה גיימרים ומפתחים יכולים לעשות עם הטכנולוגיה הזו? ברמה הבסיסית, זהו כלי יצירתי. מעצבי משחקים יכולים להשתמש בו כדי ליצור אב טיפוס של סביבות חדשות או ליצור רעיונות באופן מיידי. כותבים ובמאים יכולים ליצור סטורי-בורדס או קטעי קטע פשוט על ידי הקלדת תיאורים ואז להתאים אותם על ידי "משחק" בסצנה. עבור גיימרים, זו יכולה להיות דרך מהנה לחוות מיני-משחקים מותאמים אישית שאתה יוצר תוך כדי תנועה (כמו "אני רוצה קרב דרקונים על מאדים" ופתאום אתה יכול לשלוט בזה). זה יכול גם לעזור לאמן בינה מלאכותית אחרת: לדוגמה, נוכל לאמן רובוטים או סוכנים בעולמות וירטואליים אינסופיים שהבינה המלאכותית מייצרת.
עדיין אין אפליקציית אינטרנט ציבורית, והטכנולוגיה עדיין זקוקה לשיפור נוסף מבחינת איכות ויזואלית ותגובתיות. בהדגמות מדגמים דומים אחרים, כאשר המצלמה זזה רחוק מדי או מסתובבת יותר מדי, הסצנה יכולה להתחיל להישבר. התניה היסטורית היברידית של Hunyuan מפחיתה זאת, אך שינויים גדולים בפרספקטיבה עדיין יכולים לגרום לתקלות מרקם או גיאומטריה מעוותת. כרגע, זה עובד בצורה הטובה ביותר כתצוגה מקדימה של מחקר, משהו שמראה מה אפשרי, ולא כחוויית משחק מלאה.
מחשבות סופיות
בשלב זה, הקונספט מוצק. יש פוטנציאל נראה לעין באופן שבו ניתן לעצב וידאו מונחה קלט כך שיראה וירגיש כמו משחקיות. אבל זה עדיין מוקדם. זוהי הדגמת מחקר, לא מוצר מוגמר. יצירה בזמן אמת ברזולוציה גבוהה עבור סשנים ממושכים של משחק היא עדיין אתגר טכני.











