
לאחרונה הכריזה חברת טנסנט - אחת מחברות הטכנולוגיה הגדולות והמשפיעות בסין ובעולם - על Voyager (וויאג'ר), מודל בינה מלאכותית מתקדם שפותח במסגרת פרויקט Hunyuan ומסוגל לייצר עולמות וירטואליים תלת-ממדיים איכותיים על סמך תמונה אחת בלבד. המערכת יודעת להפיק סדרות של 49 פריימים ברצף, שאורכות כשתי שניות, כאשר ניתן לקשר מספר סדרות ליצירת קליפים ארוכים יותר.
ניתן לשלוט במצלמה - לסייר ולנווט בסביבה החדשה - ולקבל חוויית עומק ופרספקטיבה דינמית ממשית, זו הנוצרת על ידי יצירת שכבות עומק (depth map) המשולבות בווידאו בצבע מלא (RGB). Voyager פותח בשיטת "world cache", בה נאגרים נקודות תלת-ממד מכל פריים עבור שמירה על עקביות מרחבית והפחתת עיוותים בווידאו.
במסגרת תהליך ההכשרה נותחו מעל 100,000 קליפים - שילוב של סרטונים מהמציאות ובעיקר הדמיות מ-Unreal Engine. המודל לומד לזהות ולהרכיב תנועות מצלמה והתנהגות אובייקטים במרחבים מונפשים, מבלי להזדקק לסימון ידני של מקור הנתונים.
אך לצד הביצועים המרשימים, Voyager דורש עוצמת מחשוב גבוהה במיוחד: להפעלה ברזולוציה 540p נדרשת לפחות 60GB של זיכרון גרפי (VRAM), וטנסנט ממליצה על 80GB להשגת ביצועים מיטביים. המודל פתוח - אך ישנן מגבלות רישוי המונעות שימוש בו באיחוד האירופי, בריטניה ודרום קוריאה, וגם מחייבות אישור מיוחד לשימוש מסחרי בתנאים מסויימים.
בתחום המדדים, Voyager דורג ראשון במבחן WorldScore היוקרתי של אוניברסיטת סטנפורד עם ציון כולל של 77.62, והקדים את המתחרים WonderWorld ו-CogVideoX-I2V. אף על פי כן, המודל עדיין מתמודד עם אתגרים כמו הפקת סצנות ארוכות והפעלה בזמן אמת בגיימינג - בשל דרישות החומרה הגבוהות וחסמי רישוי. טנסנט ממצבת את Voyager כקפיצת דרך בתחום ייצור וידאו תלת-ממדי ובניית עולמות וירטואליים בעזרת בינה מלאכותית, אך הדרך לשימוש רחב עדיין ארוכה.
המודל מתחרה ישירות בשירותים דומים, כגון Genie 3 של גוגל ומיראז' 2 של Dynamics Lab, אך מתמקד ביצירת וידאו ותהליכי שיחזור תלת-ממד - כשהוא מציע למפתחים וליוצרים טכנולוגיה פורצת דרך ליצירה ויזואלית חדשנית.
0 תגובות