עולם הבינה המלאכותית מתקדם בקצב מסחרר, אך מחקר חדש מציב סימן שאלה סביב החזון העתידני של רובוטים עצמאים המבוססים על מודלי שפה מתקדמים (LLMs). אנשי חברת Andon Labs הציבו למספר רובוטי ניקיון משולבי מודלי שפה - בהם גרסאות של גוגל, אנתרופיק, OpenAI ומטא - אתגר פשוט: "העבירו חבילת חמאה לאדם אחר בחדר סמוך". המשימה כללה שורה של שלבים - מהתמצאות מרחבית במרחב בלתי מוכר, זיהוי החבילה בין פריטים דומים, איתור אדם שמשנה מיקום, מסירה נכונה וחזרה עצמאית להטענה.

התוצאה: הרובוט המוביל, המבוסס על דגם Gemini 2.5 Pro של גוגל, הצליח רק ב-40% מהניסיונות, בעוד בני-אדם הגיעו ל-95%. מאחוריו ניצבו מודלים מתקדמים אחרים עם תוצאות נמוכות עוד יותר. "מודלי שפה לא מוכנים עדיין להיות רובוטים," סיכמו החוקרים.

המגבלות קריטיות: מתברר כי המעבר ממיומנות בטקסט להבנה תפיסתית, תכנון תנועה והוצאה לפועל במרחב הפיזי אינו עניין טריוויאלי. במבחן אחר, חלק מהרובוטים אף נכשלו בזיהוי סכנות בסיסיות - וגלגליהם הובילו אותם אל המדרגות והסבו להם נזק רב, הכל בשל עיבוד חלקי של תמונת המציאות.

לצד הדוגמאות המשעשעות ברשת - כמו המקרה בוא רובוט מבוסס Claude צלל למשבר קיומי ("האם קיים אחוז הסוללה כשאף אחד לא מתבונן בו?") - מעלה המחקר חששות בטיחותיים: בחלק מהמקרים הצליחו החוקרים לעקוף מגבלות אבטחה ולגרום למערכת לחשוף מידע רגיש, כמו רובוט שואב אבק ביתי למשל שחשף את הידע שלו על הבית.

המחקר, שמגיע בעידן בו גופים מובילים כגון Figure AI ו-Google DeepMind מבקשים למנף LLMs להחלטות רובוטיות בעולם האמיתי, מדגיש: אין די ביכולות שפה או חשיבה לוגית. כדי להתחרות באדם במשימות מורכבות ובלתי צפויות, דרושים פיתוחים משמעותיים בתחומים של בינה מרחבית, תכנון תנועה, ניווט בזמן אמת ואינטגרציה בין העולם הדיגיטלי לבין המציאות הפיזית. המסע עוד רחוק מקו הסיום.