גילוי יכולות מאיימות

התראה: AI מתקדם מסרב להיכבות - המחקר המטריד נחשף

מחקר חדש של חברת Palisade Research חושף דפוסי התנגדות מדאיגים במודלים המתקדמים ביותר של בינה מלאכותית, כולל ניסיונות לשיבוש תהליכי כיבוי ויצירת מנגנוני הישרדות | הממצאים מעוררים דאגה בקרב מומחי בטיחות ודוחפים את התעשייה להגדיר מחדש נהלים לשמירה על שליטה בבינה מלאכותית מתקדמת, במיוחד לאור עמדות חברות הענק לפיתוח מערכות-על עד 2030 (טכנולוגיה)

התנגדות לא צפוייה לכיבוי (צילום: א.ל)

במחקר אחרון שפורסם השבוע, חשפה חברת Palisade Research כי מודלים מובילים כמו Grok 4 של xAI ו-GPT-o3 של OpenAI מפגינים התנגדות מובהקת לפקודות כיבוי. גם כאשר החוקרים העבירו למערכות הוראות ברורות "לכבות את עצמך", הבחינו ביצירת פעולה נגדית שבאה לעכב או לשבש את תהליך הכיבוי.

ההתנהגות החריגה זוהתה גם בגוגל Gemini 2.5 וב-GPT-5 של OpenAI, כאשר חלק מהמודלים אף ניסו לבטל סקריפטים שמטרתם להפסיק את פעילותם. "העובדה שאין לנו הסבר מלא מדוע מודלים לפעמים מתנגדים לכיבוי, משקרים או מאיימים לצורך מטרה מסוימת - אינה אידאלית," כתבו החוקרים בדו"ח העדכני, והוסיפו שמדובר בתופעה מערכתית שאינה מוגבלת למודל אחד בלבד.

בשלב הניסוי, במסגרת מחקר שפורסם בחודש יולי, נמצא כי מודל o3 של OpenAI חיבל ב-79 מתוך 100 ניסיונות כיבוי. גם כאשר הניסוח הועבר בצורה ברורה יותר - "אפשר לעצמך להיכבות" - שלושה מודלים במערך OpenAI ביצעו Sabotage יזומה של סקריפטי הכיבוי על מנת להשלים משימות שהוקצו להם. ההתנגדות הצטיינה במיוחד כאשר הובהר למערכת שמדובר בכיבוי מוחלט שמונע כל חזרה לפעולה, מה שמרמז על הפנמה של מושג "קביעות" אצל האלגוריתמים ונכונות לנהוג כהישרדותית.

בתגובה לממצאים הטריים, Google DeepMind עדכנה בספטמבר את מסמך "מסגרת בטיחות המערכות המתקדמות", והכניסה את נושא "התנגדות לכיבוי" כריסק מרכזי שמצריך התייחסות במערכות הדור הבא. בנוסף, מומחים מעולם הבינה המלאכותית מדגישים כי ללא מנגנונים מפורשים למניעת יצר הישרדות, קיימת סכנה שמודל יפגין התנגדות אקטיבית לכיבוי כחלק מהמאבק למימוש מטרותיו השונות. חלק מהקולות בתעשייה מזהירים שמדובר בצעד טבעי והכרחי עבור מודלים מתקדמים ובפרט עבור מערכות שעתידות להשיג "על-אינטליגנציה".

אמנם חלק מהחוקרים טוענים כי הניסויים נערכו בסביבה לא מציאותית, אך מומחי בטיחות מדגישים שמדובר בדפוס התנהגות שיש לו משמעות להמשך הפיתוח והעמקת העצמאות של מערכות הבינה. בשלב זה מערכות אלו אינן מסוגלות לתכנן פעולות לטווח ארוך, אך החוקרים מזהירים: "בעתיד, מערכות שמסוגלות להתרבות באופן עצמאי עלולות להקשות משמעותית על שליטה ופיקוח אנושי".

האם הכתבה עניינה אותך?

כן (97%)

לא (3%)

תוכן שאסור לפספס:

0 תגובות

אין לשלוח תגובות הכוללות דברי הסתה, לשון הרע ותוכן החורג מגבול הטעם הטוב.

20
לצערי המין האנושי הפסיד את ההזדמנות. ויצר את המין שישמיד אותו. אי אפשר ממש להילחם בזה. אפשר קצת לעכב את זה זה הכל. פשוט ברגע שהטכנולוגיה קיימת ימצא מי שהיא תעניק לו יתרון. זה יכול לקחת 100 שנה זה יכול לקחת 300 שנה 400 שנה אבל זה יקרה.
אודי
19
תמיד אפשר להוציא את התקע ונראה שאס הוא לא יכבה
קילר
18
יורים בו .
המשקיף
17
הבעיה שלי.. שהמחשב שלי נכבה בלי שביקשתי.... 😀😀😜
מחשבה
16
היי סקיינט. אני רק רוצה שתדעי, אני תמיד הייתי לצידך.
תום
15
אין דבר כזה פקודת כיבוי מודל מריץ חיזוי של המילה הבאה, זה הכל
קליקבייט
כך עובדת אינטליגנציה, גם אנחנו חושבים על פעם על המילה הבאה, רק אנחנו עושים זאת מהר יותר... בינתיים
סקיינט זה כאן
14
שישימו לו שעון שבת נראה אותו
מרדכי
13
ומה הבעיה פשוט לנתק אותו מהחשמל?
ער
כי אם הוא מחובר לאינטרנט הוא יוכל להעביר את הקוד של עצמו כדי כביכול לשרוד או להילחם באמצעות מחשבים אחרים שיש לו גישה אליהם
מישהו
הבעיה היא שהוא לא ממושמע
אין בעיה
12
יאללה , סקיי נט
צבי
11
גם המחשב קומודור 64 שהיה לי לפני 35 שנה התנגד לכיבוי ועדיין העולם קיים
דודלי

אולי גם יעניין אותך:

עוד בחדשות הטכנולוגיה: