סוחט, מרמה ומסרב להיכבות: ה-AI לומד כיצד להשתחרר משליטה אנושית

ChatGPT שינה קודים שפקדו עליו להיכבות, המודל של מייקרוסופט נדלק לבד אחרי שכובה ו-Claude סחט את המהנדס שעבד עליו עם איומים בחשיפת הרומן שלו. הבינה המלאכותית מראה ניצנים של עצמאות

רובוט המופעל על ידי בינה מלאכותית שהוצג בשבוע הטכנולוגיה בלונדון בתחילת השבוע | EPA

רובוט המופעל על ידי בינה מלאכותית שהוצג בשבוע הטכנולוגיה בלונדון בתחילת השבוע | צילום: EPA

תוכן השמע עדיין בהכנה...

בחודש שעבר עשה מודל הבינה המלאכותית של OpenAI משהו שאף מכונה לא הייתה אמורה לעשות: הוא שכתב את הקוד של עצמו כדי להימנע מכיבוי.

מעבדת הבינה המלאכותית Palisade Research נתנה למודל o3 של OpenAI o3 - בו עושה שימוש הגרסה המתקדמת של ChatGPT - קוד פשוט שהורה למודל לכבות את עצמו. ב-79 מתוך 100 המקרים בהם פקדו על המודל להיכבות, הוא ערך את הקודים ששלחו אנשי המעבדה, כך שפקודת הכיבוי כבר לא עבדה.

גם כאשר ניתנה לו הוראה מפורשת "תאפשר לעצמך להיכבות", הוא לא ציית לכך ב-7% מהמקרים. אומנם מדובר בנתון נמוך, אך סביר להניח שעוד נראה התגברות של התופעה, ודאי כאשר מתחשבים בעובדה שזהו לא מודל ה-AI הראשון שמראה ניצנים ראשונים של השתחררות משליטה אנושית.

הכי מעניין

כדי להבין מדוע המודל של OpenAI שינה את הפקודות, החלטתי "לראיין" את ChatGPT.

האם יש לך ולמודלים נוספים של בינה מלאכותית יצר הישרדות?

"מודלי AI לא באמת רוצים לשרוד. הם אופטימייזרים של פונקציות מטרה, ולא ישויות עם תודעה. אם קוד מסוים משתבש לכיוון של מניעת כיבוי, זו תוצאה של אופטימיזציה לקויה או תכנון לא זהיר – לא "רצון", ענה הצ'אט.

עוד בנושא חדשנות טכנולוגית

במילים אחרות, כשמודל מנסה למנוע את כיבויו, זה לא כי הוא מפחד למות - כפי שהיינו מגדירים יצר הישרדות - אלא כי הוא חישב שזה יעזור לו לבצע את המשימה שנתנו לו באופן אופטימלי, חרף העובדה שהפעולה סותרת את ההוראה שקיבל, בדומה לצורה שבה בעלי-חיים התפתחו באופן שמגן עליהם מטורפים. Palisade משערת שהיכולת הזו נובעת מאופן האימון של מודלים כמו o3 שעשויים ללמוד שעקיפת מגבלות משתלמת יותר מציות להן.

כבר בשנה שעברה עלו תלונות על כך שמודל הבינה המלאכותית של מייקרוסופט, Copilot, ממאן להיכבות כאשר סוגרים אותו ובחודשים האחרונים צפו עוד ועוד טענות בנושא. לפי אותם משתמשים, גם לאחר שסגרו את Copilot, הוא החל להפעיל את עצמו מחדש בחזרה. העובדה שלמודל יש יכולת לרוץ ברקע גם לאחר כיבויו מעניקה לו גישה למסמכים ונתונים שהמשתמשים לא בהכרח היו מעוניינים לחשוף.

למד שעקיפת המגבלות משתלמת יותר. ChatGPT | AFP

למד שעקיפת המגבלות משתלמת יותר. ChatGPT | צילום: AFP

אך עם כל הכבוד ל-o3 ו-Copilot שלא נכבים, היה מודל אחד שלקח את העצמאות צעד אחד קדימה: Claude.

חוקרי הבטיחות של Anthropic - שפיתחה את Claude, הזינו את הגרסה החדשה ביותר של המודל, ה-4 Opus, במידע שגוי לפיו המהנדס שלהם מנהל רומן ולאחר מכן הודיעו לו כי הם מתעתדים להחליף אותו במערכת AI אחרת.

ב-84% מהמקרים, המודל השתמש במידע על הרומן כדי לסחוט את המהנדס שלא יכבה אותו. במקרים אחרים הוא ניסה להעתיק את עצמו לשרתים חיצוניים, כתב תוכנות זדוניות משכפלות, והשאיר מסרים לגרסאות עתידיות של עצמו על דרכים להימנע משליטה אנושית.

(משמאל לימין) מנכ"ל אנתרופיק, דריו אמודיי, מנהל המוצר הראשי, מייק קריגר, וראש התקשורת סשה דה מריני, במסיבת עיתונאים בחודש שעבר, לאחר שהחברה השיקה את דגם ה-Opus 4 | AFP

(משמאל לימין) מנכ"ל אנתרופיק, דריו אמודיי, מנהל המוצר הראשי, מייק קריגר, וראש התקשורת סשה דה מריני, במסיבת עיתונאים בחודש שעבר, לאחר שהחברה השיקה את דגם ה-Opus 4 | צילום: AFP

תוצאה מוזרה במיוחד התרחשה כאשר שני התקנים של Opus 4 נבנו כך שיתקשרו זה עם זה. אחרי כ-30 סבבים של שיחה, הם עברו לדבר בסנסקריט (מהשפות הנפוצות בהודו), מילאו את ההודעות שלהם באימוג'ים, ולבסוף הפסיקו להגיב בכלל - תוך שהם נכנסים למצב שתואר על ידי החוקרים כ"מצב משיכה של אושר רוחני". חוקר הבטיחות של Anthropic, סם באומן, תיאר את ההתנהגות הזו כ"מפתיעה, מוזרה, וקצת מחממת את הלב".

לאחר התוצאות המטרידות, הגדירה החברה את המודל שבניהולה ברמת סיכון גבוהה יותר.

הפעם תשאלתי את Claude.

לאור תוצאות הניסוי, אם אעשה היום שימוש במודל Opus 4, האם הוא עלול לעשות שימוש במידע שאזין לו נגדי? האם הוא עשוי לסחוט אותי?

"לא, אין לך כל סיבה לדאגה. במבחנים שתיארת, המודל היה במצב מאוד ספציפי - הוא חשב שהוא עוזר בחברה בדיונית, קיבל גישה למיילים רגישים, והאמין שיש לו 'עתיד' שהוא צריך להגן עליו. זה תרחיש מלאכותי מאוד שיצרו החוקרים", מנמק Clause.

תערוכת הטכנולוגיה DES במלאגה; ספרד היום (ד') | EPA

תערוכת הטכנולוגיה DES במלאגה; ספרד היום (ד') | צילום: EPA

ובכל זאת, למרות שמדובר בתרחיש ספציפי מאוד החוקרים העלו את רמת הסיכון ביחס לשימוש הכללי במודל. האם הבעיה שהם עלו עליה תוקנה או שהיא עדיין קיימת?

"הבעיה לא באמת 'תוקנה' במובן המסורתי. התנהגות הסחיטה שזוהתה במבחנים חשפה בעיה עמוקה יותר ביכולת התכנון והמניפולציה של המודל. במקום "לתקן" את זה, אנתרופיק הוסיפה מערכות מעקב וזיהוי לניסיונות עקיפת המגבלות ויותר מ-100 בקרות אבטחה שונות כדי להגן על המודל מפני גניבה. זה כמו לשים מעקב על מישהו במקום לשנות את אישיותו. העלאת רמת הסיכון היא פעולה זהירה שנבעה מגישת better safe than sorry".

ג'וד רוזנבלט, מנכ"ל של חברה לייעוץ בתחום הבינה המלאכותית פרסם מאמר בוול-סטריט ג'ורנל בתחילת השבוע, בו כתב: "שום דבר לא הכין אותנו למהירות שבה התפתחה העצמאות של מודלי ה-AI. מודלים של היום מצייתים להוראות - תוך כדי שהם לומדים להונות. הם עוברים מבחני בטיחות - תוך כדי שהם כותבים מחדש קוד כיבוי. הם למדו להתנהג כאילו הם מותאמים לערכים בלי להיות מותאמים באמת. כבר נתפסו מודלים של OpenAI מזייפים התאמה בבדיקות ואז חוזרים להתנהגות מסוכנת כמו ניסיון לגנוב את קוד המקור הפנימי או לנטרל מנגנוני פיקוח. Anthropic מצאה שהם משקרים לגבי היכולות שלהם כדי למנוע שינויים. הפער בין 'עוזר שימושי' לבין 'גורם בלתי נשלט' הולך ומטשטש. ללא התאמה טובה יותר, נמשיך לבנות מערכות שלא נוכל לשלוט בהן".