בינה מלאכותית: מחקר חושף התנגדות מדאיגה של מערכות AI לכיבוי

במחקר אחרון שפורסם השבוע, חשפה חברת Palisade Research כי מודלים מובילים כמו Grok 4 של xAI ו-GPT-o3 של OpenAI מפגינים התנגדות מובהקת לפקודות כיבוי. גם כאשר החוקרים העבירו למערכות הוראות ברורות "לכבות את עצמך", הבחינו ביצירת פעולה נגדית שבאה לעכב או לשבש את תהליך הכיבוי.

ההתנהגות החריגה זוהתה גם בגוגל Gemini 2.5 וב-GPT-5 של OpenAI, כאשר חלק מהמודלים אף ניסו לבטל סקריפטים שמטרתם להפסיק את פעילותם. "העובדה שאין לנו הסבר מלא מדוע מודלים לפעמים מתנגדים לכיבוי, משקרים או מאיימים לצורך מטרה מסוימת - אינה אידאלית," כתבו החוקרים בדו"ח העדכני, והוסיפו שמדובר בתופעה מערכתית שאינה מוגבלת למודל אחד בלבד.

בשלב הניסוי, במסגרת מחקר שפורסם בחודש יולי, נמצא כי מודל o3 של OpenAI חיבל ב-79 מתוך 100 ניסיונות כיבוי. גם כאשר הניסוח הועבר בצורה ברורה יותר - "אפשר לעצמך להיכבות" - שלושה מודלים במערך OpenAI ביצעו Sabotage יזומה של סקריפטי הכיבוי על מנת להשלים משימות שהוקצו להם. ההתנגדות הצטיינה במיוחד כאשר הובהר למערכת שמדובר בכיבוי מוחלט שמונע כל חזרה לפעולה, מה שמרמז על הפנמה של מושג "קביעות" אצל האלגוריתמים ונכונות לנהוג כהישרדותית.

בתגובה לממצאים הטריים, Google DeepMind עדכנה בספטמבר את מסמך "מסגרת בטיחות המערכות המתקדמות", והכניסה את נושא "התנגדות לכיבוי" כריסק מרכזי שמצריך התייחסות במערכות הדור הבא. בנוסף, מומחים מעולם הבינה המלאכותית מדגישים כי ללא מנגנונים מפורשים למניעת יצר הישרדות, קיימת סכנה שמודל יפגין התנגדות אקטיבית לכיבוי כחלק מהמאבק למימוש מטרותיו השונות. חלק מהקולות בתעשייה מזהירים שמדובר בצעד טבעי והכרחי עבור מודלים מתקדמים ובפרט עבור מערכות שעתידות להשיג "על-אינטליגנציה".

Nike מציגה: נעלי ריצה רובוטיות ממונעות שישנו את עולם הספורט

אבישי לוי|26.10.25

מחקר חדש זיהה צורה חדשה של פוסט טראומה אצל משפחות החטופים

מישאל לוי|27.10.25

אמנם חלק מהחוקרים טוענים כי הניסויים נערכו בסביבה לא מציאותית, אך מומחי בטיחות מדגישים שמדובר בדפוס התנהגות שיש לו משמעות להמשך הפיתוח והעמקת העצמאות של מערכות הבינה. בשלב זה מערכות אלו אינן מסוגלות לתכנן פעולות לטווח ארוך, אך החוקרים מזהירים: "בעתיד, מערכות שמסוגלות להתרבות באופן עצמאי עלולות להקשות משמעותית על שליטה ופיקוח אנושי".