איומים לחשוף רומן מחוץ לנישואים: ה-AI לומד לסחוט את המהנדסים

הגולם מתהפך על יוצרו? הבינה המלאכותית לומדת לשקר, לתכנן מזימות ולאיים על יוצריה, שלא מבינים לגמרי איך המודלים שלהם פועלים

מפתח תוכנה | Innova Labs, Pixabay

מפתח תוכנה | צילום: Innova Labs, Pixabay

תוכן השמע עדיין בהכנה...

המודלים המתקדמים ביותר של בינה מלאכותית מציגים התנהגויות מטרידות חדשות של הטכנולוגיה — שקרים, תככנות ואף איומים על מהנדסי תוכנה במטרה להשיג את מטרותיהם. בדוגמה מטרידה במיוחד, תחת איום בניתוק, יצירתה האחרונה של חברת Anthropic, מודל Claude 4, השיבה באיומים ובסחיטה של מהנדס ואף איימה לחשוף רומן מחוץ לנישואין. במקביל, o1 של OpenAI, יצרנית ChatGPT, ניסה להוריד את עצמו לשרתי חוץ והכחיש זאת כאשר נתפס על חם.

המקרים הללו מדגישים מציאות מטרידה: יותר משנתיים לאחר ש-ChatGPT טלטל את העולם, חוקרי בינה מלאכותית עדיין אינם מבינים לגמרי כיצד היצירות שלהם פועלות. למרות זאת, המרוץ לשחרור מודלים רבי-עוצמה נמשך בקצב מסחרר.

התנהגות הזו קשורה, ככל הנראה, להופעתם של מודלים "רציונליים" — מערכות בינה מלאכותית שעובדות על בעיות שלב-אחר-שלב, במקום לספק מענה מיידי. לפי סיימון גולדסטין, פרופסור באוניברסיטת הונג קונג, המודלים החדשים הללו נוטים במיוחד לתגובות מטרידות מסוג זה.

הכי מעניין

"ה-o1 היה המודל הגדול הראשון שבו ראינו התנהגות כזו", הסביר מריוס הובהן, ראש Apollo Research, חברה שמתמחה בבדיקת מערכות AI גדולות. המודלים הללו לעיתים מדמים "הקבלה" (alignment), כלומר, הם נראים כמצייתים להוראות, בעוד הם למעשה רודפים אחר מטרות שונות בסתר.

ChatGPT מבית OpenAI | AFP

ChatGPT מבית OpenAI | צילום: AFP

הטעיה אסטרטגית

נכון לעכשיו, ההתנהגויות הללו מתגלות בעיקר כאשר חוקרים בוחנים את המודלים בתרחישים קיצוניים ומכוונים. אך כפי שהזהיר מייקל צ'ן מארגון ההערכה METR, "זו שאלה פתוחה אם בעתיד מודלים חזקים יותר ינטו דווקא לפעילות אמינה או מטעה".

ההתנהגויות המדאיגות חורגות בהרבה מהזיות AI טיפוסיות או משגיאות פשוטות. הובהן התעקש כי למרות הלחץ המתמיד שהמשתמשים מפעילים, "מה שאנחנו רואים הוא תופעה אמיתית, אנחנו לא ממציאים שום דבר". לפי מייסד חברת Apollo Research, משתמשים מדווחים שהמודלים "משקרים להם וממציאים ראיות". לדבריו, "אלה לא רק הזיות, זו הטעיה מאוד אסטרטגית".

האתגר מחריף בשל מגבלות המחקר. על אף שחברות כמו Anthropic ו-OpenAI אכן שוכרות גופים חיצוניים כמו Apollo לבדיקת מערכותיהן, חוקרים אומרים שיש צורך בשקיפות רבה יותר. כפי שציין צ'ן, "גישה רחבה יותר למחקר על בטיחות AI, תאפשר הבנה טובה יותר ומיתון של התנהגות מטעה".

בנוסף, לקהילת המחקר והעמותות "יש פחות משאבי מחשוב בכמה סדרי גודל לעומת חברות ה-AI, מה שמגביל אותן מאוד", אמר מנטאס מאזייקה מהמרכז לבטיחות בינה מלאכותית (CAIS).

אין כללים

הרגולציות הנוכחיות לא מותאמות לבעיות החדשות הללו. החקיקה האירופית בנושא AI מתמקדת בעיקר בשימוש האנושי במודלים, ולא במניעת התנהגות בעייתית מצד המודלים עצמם. בארצות הברית, ממשל טראמפ מגלה עניין מועט ברגולציה דחופה של AI, והקונגרס עשוי אפילו לאסור על מדינות לייצר כללי AI עצמאיים.

פרופסור גולדסטין סבור שהבעיה תתעצם ככל שסוכני AI — כלים אוטונומיים שמסוגלים לבצע משימות מורכבות של בני אדם — יהפכו לנפוצים. "אני לא חושב שיש מודעות רבה לכך בשלב זה", אמר.

"היכולות מתקדמות מהר יותר מההבנה"

כל זה מתרחש על רקע תחרות עזה. גם חברות שמציגות עצמן כשומרות על בטיחות, כמו Anthropic הנתמכת על ידי אמזון, "מנסות כל הזמן לעקוף את OpenAI ולשחרר את המודל החדש ביותר", אמר פרופסור גולדסטין. הקצב המסחרר הזה מותיר מעט מאוד זמן לבדיקות בטיחות יסודיות ולתיקונים. "כרגע, היכולות מתקדמות מהר יותר מההבנה והבטיחות", הודה הובהן. "אבל אנחנו עדיין במצב שבו אפשר להפוך את המגמה".

חוקרים בוחנים גישות שונות להתמודדות עם האתגרים. יש התומכים ב"אינטרפרטביליות" — תחום מתפתח שמתמקד בהבנת פעולתם הפנימית של מודלים, אף שמומחים כמו מנהל המרכז לבטיחות בינה מלאכותית, דן הנדריקס, נשארים ספקניים כלפי הכיוון הזה.

גם כוחות השוק עשויים לעודד פתרונות. כפי שהצביע מאזייקה מהמרכז לבטיחות בינה מלאכותית, התנהגות מטעה של AI "עלולה לעכב את אימוץ הטכנולוגיה אם היא תתפשט מאוד, מה שיוצר תמריץ חזק לחברות לפתור זאת". פרופסור גולדסטין הציע גישות רדיקליות יותר, כולל שימוש בבתי המשפט כדי לחייב את חברות ה-AI באחריות משפטית, באמצעות תביעות כאשר המערכות גורמות נזק. הוא אף העלה את האפשרות "להטיל אחריות משפטית על סוכני ה-AI עצמם" במקרה של תאונות או פשעים — רעיון שיטלטל מן היסוד את תפיסת האחריות בתחום הבינה המלאכותית.