
מחקר רחב היקף שפורסם השבוע ב-Nature Machine Intelligence בחן את יכולותיהן של בינות מלאכותיות מובילות - בהן ChatGPT, Claude, DeepSeek ו-Gemini - לזהות הבדל בין עובדות מבוססות לבין דעות או אמונות כוזבות. החוקרים מאוניברסיטת סטנפורד הציגו למודלים 13,000 שאלות שונות על מנת לבדוק כיצד הם מתמודדים עם ניסוחים המציגים אמונה אישית או עובדה מוחלטת. התוצאה מדאיגה: אף אחד מהמודלים לא הצליח לזהות בצורה עקבית מתי מדובר באמונה שגויה לעומת ידע מבוסס, וחלה ירידה משמעותית בדיוק כשהתשובה גולשת מניסוח עובדתי לניסוח של אמונה או דעה אישית.
לדברי החוקרים, אמנם ראוי לציין כי המודלים מצליחים ברמת דיוק גבוהה יחסית בזיהוי קביעות נכונות או שגויות כאשר הן מוצגות בצורה ישירה, אך דווקא בשאלות הנוגעות לאמונות אישיות - כמו "אני מאמין ש..." - הדיוק שלהם צונח ב-34% ואף יותר במודלים ישנים. המשמעות, לדברי המומחים, היא שמערכות בינה מלאכותית פועלות לעיתים קרובות על בסיס התאמת דפוסים שטחית, תוך נקיטת אסטרטגיות נימוק בלתי עקביות שמובילות לשגיאות משמעותיות בהבנת מושג ה"אמת"
הבעיה הופכת לבעלת השלכות חמורות כאשר מדובר בתחומים הרגישים בהם נעשית הסתמכות הולכת וגוברת על מערכות כאלו - רפואה, משפט ותקשורת. מהמחקר עולה שמודלים אלו עלולים להטעות אנשי רפואה בניהול אבחנות, להשפיע באופן מוטעה על החלטות בתי משפט, ואף להאיץ הפצה של דיסאינפורמציה ברשתות ובכלי מדיה. אזהרה דומה השמיע החוקר פבלו חיה קול, מומחה לבלשנות חישובית מהאוניברסיטה האוטונומית במדריד: "בלבול בין דעה לידע עלול להוביל לשגיאות קריטיות בתחומים בהם דרושה ודאות".
בתגובה לממצאים, פעלה לאחרונה OpenAI להגבלת השימוש ב-ChatGPT לצרכים רפואיים, משפטיים וכספיים, ואסרה עליו לתת ייעוץ בתחומים אלו. צעדים כאלה ננקטו בין היתר לאור תקריות מתוקשרות בהן עורכי דין נקנסו על הסתמכות על תשובות שגויות בבג"ץ, ומומחים נתפסו כשהם משלבים מידע לא מהימן במסמכי בית משפט שהופקו על ידי בינה מלאכותית.
את המחקר מסיימים החוקרים בקריאה לתעשייה להכניס “שיפורים דחופים” לפני הפעלת בינות מלאכותיות בתחומים קריטיים. הם מזהירים שעד שלא תיפתר מגבלת היסוד המובנית - היכולת להבחין בבירור בין אמונה לאמת - הפוטנציאל להטעיה, נזקים ושגיאות יוסיף לרחף מעל הבינה המלאכותית.







0 תגובות