
חברת גוגל, בשיתוף עם DeepMind שלה, הכריזה השבוע על השקת VaultGemma - מודל בינה מלאכותית בקוד פתוח, שתוכנן מהיסוד כדי להתמודד עם אחד האיומים המרכזיים בתחום: חשיפת מידע מתוך טקסטים רגישים שמהם המודל למד.
מדובר במודל עם מיליארד פרמטרים - הגדול ביותר מסוגו שזמין לקהילת המפתחים - אשר אומן באמצעות טכניקות פרטיות דיפרנציאליות מחמירות, החל מהשלב הראשון של קביעת הפרמטרים ועד לתוצר הסופי.
הטכנולוגיה שבבסיס VaultGemma משתמשת בשיטה שבה בכל פעם שהמודל לומד ממידע חדש, הוא מגביל את כמות ההשפעה של כל פיסת מידע, ומוסיף באופן מחושב "רעש" מתמטי - כלומר קצת בלבול יזום. באופן הזה, גם אם מישהו ינסה להוציא מידע מתוך המודל, הוא לא יוכל לשחזר פרטים מזהים או ביטויים אישיים מאנשים שהשתתפו באימון. זה מה שמספק את ההגנה הפורמלית והחזקה שהרגולטורים דרשו - כי המודל לא "זוכר" ואף לא יכול לזלוג מידע של אף אדם בודד.
מבחינת ביצועים - למודל הזה יש תוצאות פחות טובות ממודלים "רגילים" שלא דואגים לפרטיות. הוא פחות מדויק ומתקדם, בערך כמו מודלים משנת 2020 - אבל החשיבות הגדולה היא בעצם ההוכחה שאפשר לבנות מודלים ענקיים שמגינים היטב על פרטיות המשתמשים. כדי לאמן את VaultGemma השתמשו ביותר מאלפיים מחשבי-על, ובנו מתודולוגיה חדשה שמאפשרת לאזן בין רמת אבטחה, עלויות חישוב וביצועים בפועל.
המודל והקוד פתוחים לציבור הרחב, מתוך מטרה שכל חוקרת ומהנדס יוכלו להשתמש בו לפרויקטים ולמחקר, בעיקר בתחומים רגישים כמו רפואה, בהם שמירה על פרטיות המשתמשים היא תנאי בסיס.
0 תגובות