חשיפה: התגלו ההנחיות החסויות המפעילות את מערכות ה-AI המתקדמות בעולם

המוח שמאחורי המודלים נחשף (צילום: Shutterstock)

אוסף מקיף של הנחיות פנימיות סודיות הידועות כ-"System Prompts" נחשף לאחרונה על ידי חוקר סייבר המזוהה כ-@NotLucknite. חשיפה זו מגלה את המכניזם הסמוי המכוון מאחורי הקלעים את פעילותם של שירותי AI מובילים דוגמת ChatGPT, Cursor, Lovable, Manus ושירותים נוספים.

System Prompts, או הנחיות מערכת, הן הוראות סמויות הניתנות למודלי שפה כמו ChatGPT, שנועדו להכתיב את סגנון הדיבור, האישיות, גבולות המידע, וכללי ההתנהגות של המודל במהלך השיחה. מדובר בפסקאות הפעלה שמוזנות למערכת מאחורי הקלעים לפני תחילת כל אינטראקציה, כדי לוודא שהמודל יפעל בהתאם לערכים, לסגנון ולמגבלות שהוגדרו לו מראש – למשל, להיות עוזר מנומס ואינפורמטיבי, להימנע מהפצת מידע מסוכן, ולא לספק ייעוץ רפואי. ההנחיות קובעות גם אילו תכנים מותר למודל להציג, אילו אישיויות עליו לאמץ (כגון מדריך מקצועי, מורה או בן שיח חברי), ומה עליו להימנע מלעשות (כמו לחשוף מידע אישי או לאמת עובדות שאינן מבוססות). ה-System Prompt הוא אפוא לב התיווך בין המשתמש למודל – מעין סרגל כללים שקט המאפשר שיחה מדויקת, בטוחה ומותאמת להקשר.

החשיפה, שהועלתה לפלטפורמת GitHub וכוללת יותר מ-6,500 שורות קוד המפרטות את המבנה והתפקוד של מערכות אלו, מעוררת דאגות אבטחה משמעותיות. על פי המסמכים, חשיפת ה-System Prompts עלולה לסכן סודות תעשייתיים ולפתוח פתח להתקפות זדוניות על המערכות הללו.

השיטות שבעזרתן נחשפו הנתונים:

Prompt Injection - טכניקה של שתילת הוראות מתוחכמות המתמרנות את המודל לגלות את ההנחיות הפנימיות המוטמעות בו
Adversarial Prompting - גישת ניסוי וטעייה שיטתית באמצעות קלטים המבלבלים את המערכת עד שהיא "נשברת" וחושפת מידע פנימי רגיש
Social Engineering דיגיטלי - ניהול דיאלוג אסטרטגי עם המודל, הכולל התחזות למפתח או הצגת שאלות "תמימות" שמטרתן לחלץ מידע על הארכיטקטורה הפנימית

עבור קהילת המפתחים וחובבי הטכנולוגיה, המסמכים המודלפים מספקים למעשה מדריך שימושי לשיפור הPrompts שלהם והגנה מפני זליגת מידע רגיש.

חשיפה זו מחדדת את הצורך הגובר בשקיפות מצד התאגידים המפתחים טכנולוגיות AI, לצד המתח המתמיד בין שיתוף ידע טכנולוגי פתוח לבין הגנה על קניין רוחני ואבטחת מידע בעידן הבינה המלאכותית.