להחיות כל תמונה

Voyager: מודלך הבינה מלאכותית שהופך כל תמונה לסיור בעולם תלת-ממדי | צפו

מודל החדש, שמוביל את תחום ייצור עולמות וירטואליים בידי בינה מלאכותית, יוצר מסדרות וידאו תלת-ממדיות מתוך תמונה אחת בלבד | Voyager מתבסס על טכנולוגיית RGB-D ומאפשר לשנות זווית ראיה ולהתקדם ברחבי הסביבה שנוצרת בעזרת נקודת מבט חופשית, ויחד עם חידושים טכנולוגיים מרשימים ונתוני ביצועים מובילים, צפוי להוביל את השוק - אך מציב אתגרים למשתמשים מבחינת דרישות חומרה ומגבלות רישוי (טכנולוגיה)

תמונה שהפכה לתלת מימד בעזרת המודל (צילום: Tencent)

לאחרונה הכריזה חברת טנסנט - אחת מחברות הטכנולוגיה הגדולות והמשפיעות בסין ובעולם - על Voyager (וויאג'ר), מודל בינה מלאכותית מתקדם שפותח במסגרת פרויקט Hunyuan ומסוגל לייצר עולמות וירטואליים תלת-ממדיים איכותיים על סמך תמונה אחת בלבד. המערכת יודעת להפיק סדרות של 49 פריימים ברצף, שאורכות כשתי שניות, כאשר ניתן לקשר מספר סדרות ליצירת קליפים ארוכים יותר.

ניתן לשלוט במצלמה - לסייר ולנווט בסביבה החדשה - ולקבל חוויית עומק ופרספקטיבה דינמית ממשית, זו הנוצרת על ידי יצירת שכבות עומק (depth map) המשולבות בווידאו בצבע מלא (RGB). Voyager פותח בשיטת "world cache", בה נאגרים נקודות תלת-ממד מכל פריים עבור שמירה על עקביות מרחבית והפחתת עיוותים בווידאו.

סרטון תדמית של החברה (צילום: Tencent)

במסגרת תהליך ההכשרה נותחו מעל 100,000 קליפים - שילוב של סרטונים מהמציאות ובעיקר הדמיות מ-Unreal Engine. המודל לומד לזהות ולהרכיב תנועות מצלמה והתנהגות אובייקטים במרחבים מונפשים, מבלי להזדקק לסימון ידני של מקור הנתונים.

אך לצד הביצועים המרשימים, Voyager דורש עוצמת מחשוב גבוהה במיוחד: להפעלה ברזולוציה 540p נדרשת לפחות 60GB של זיכרון גרפי (VRAM), וטנסנט ממליצה על 80GB להשגת ביצועים מיטביים. המודל פתוח - אך ישנן מגבלות רישוי המונעות שימוש בו באיחוד האירופי, בריטניה ודרום קוריאה, וגם מחייבות אישור מיוחד לשימוש מסחרי בתנאים מסויימים.

בתחום המדדים, Voyager דורג ראשון במבחן WorldScore היוקרתי של אוניברסיטת סטנפורד עם ציון כולל של 77.62, והקדים את המתחרים WonderWorld ו-CogVideoX-I2V. אף על פי כן, המודל עדיין מתמודד עם אתגרים כמו הפקת סצנות ארוכות והפעלה בזמן אמת בגיימינג - בשל דרישות החומרה הגבוהות וחסמי רישוי. טנסנט ממצבת את Voyager כקפיצת דרך בתחום ייצור וידאו תלת-ממדי ובניית עולמות וירטואליים בעזרת בינה מלאכותית, אך הדרך לשימוש רחב עדיין ארוכה.

המודל מתחרה ישירות בשירותים דומים, כגון Genie 3 של גוגל ומיראז' 2 של Dynamics Lab, אך מתמקד ביצירת וידאו ותהליכי שיחזור תלת-ממד - כשהוא מציע למפתחים וליוצרים טכנולוגיה פורצת דרך ליצירה ויזואלית חדשנית.

האם הכתבה עניינה אותך?

כן (100%)

לא (0%)

תוכן שאסור לפספס:

0 תגובות

אין לשלוח תגובות הכוללות דברי הסתה, לשון הרע ותוכן החורג מגבול הטעם הטוב.

אולי גם יעניין אותך:

עוד בחדשות הטכנולוגיה: