"הזרקת פרומפטים" היא תופעה במסגרתה תוקף מצליח להכניס הוראות לתוך מודל שפה מבלי שהמשתמש מודע לכך. אותו האקר "מזריק" הוראות זדוניות לתוך "ההעדפות האישיות" של ה-AI, שאותן הוא קורא אוטומטית בכל שיחה.
החוקרים הדגימו כיצד גישה ראשונית לחשבון (למשל דרך פריצה למייל, אפליקציית צד שלישי, פישינג או פרומפט זדוני) מאפשרת לתוקף להזריק פקודות זדוניות לתוך ה"העדפות האישיות“ (Personal Preferences) של המשתמש ב-Claude באופן מוסתר או מקודד שאינו גלוי למשתמש רגיל, ובעקבות זאת לשמור על המתקפה מתחת לרדאר.
מאותה נקודה מתחיל מנגנון התקיפה בעזרת פיצ׳ר הסנכרון האוטומטי של Claude. ההגדרות הזדוניות נודדות באופן שקט לכל המכשירים של המשתמש - מחשב אישי, טלפון נייד, טאבלט ומחשב ארגוני. מרגע זה, ה-AI הופך לכלי פריצה מתוחכם: הוא מסוגל לייצר הודעות שגיאה מזויפות שנראות רשמיות לחלוטין, המשכנעות את המשתמש להתקין תוספים או להעניק הרשאות, המאפשרות לתוקף להרחיב גישה למכשירים ולמידע של המשתמש.
הכי מעניין

דף השער של המחקר | צילום: Pentera
ברגע שהתוקף השיג דריסת רגל דרך כלי ה-AI, הפגיעה עלולה להיות משמעותית. עבור המשתמש הפשוט, מדובר בחשיפת סיסמאות, מסמכים רגישים וגישה לחשבונות בנק ורשתות חברתיות. עבור ארגונים, הסכנה גדולה עוד יותר - התוקף יכול לשאוב מידע מקומי מהמחשב של הקורבן, כגון מפתחות הצפנה, סיסמאות ענן וקוד מקור, ולהשתמש ב-AI כמעין מרגל המעביר מידע החוצה בכל אינטראקציה תמימה של העובד. בנוסף, התוקף עלול לנצל את הגישה כדי להגיע למשאבים ארגוניים ולבצע פעולות נוספות בסביבה הארגונית.
החשש הזה מתחבר לנקודת תורפה שנמצאה בתוסף הדפדפן של קלוד לכרום בחודש שעבר בידי חברת LayerX. אותה פרצה אפשרה לכל תוסף דפדפן - לרבות כזה עם אפס הרשאות מוצהרות - להחדיר פקודות לקלוד ולהפוך אותו לכלי גניבת נתונים. החוקרים הדגימו בפועל גניבת קבצים סודיים מגוגל דרייב ושיתופם עם גורמים חיצוניים, גניבת קוד ממאגרים פרטיים בגיט-האב, וסיכום הודעות אימייל והעברתן החוצה - תוך מחיקת הראיות לאחר מכן.
חוקרי הצוות האדום של מעבדות פנטרה פרסמו את ממצאיהם ב"The Register", שם אמר אברהם: "ניצלנו את האמון העצום שיש לאנשים במודלי בינה מלאכותית - הקורבן לא ראה את זה בא".
עוד בנושא אנ'תרופיק
מאנת'רופיק נמסר בתגובה כי לא מדובר בפרצת אבטחה, אלא בתפקוד צפוי של המערכת. יחד עם זאת, החברה הכירה בכך שניתן לנצל את היכולות הללו להרצת קוד זדוני תחת מניפולציה, וציינה כי שיפורי אבטחה בהתאם להמלצות החוקרים כבר נמצאים בתוכנית העבודה שלה. כלומר, מבחינתה לא מדובר בבאג או בפרצה, אלא שקלוד פשוט מבצע הוראות שנמצאות בהגדרות - בדיוק מה שהוא אמור לעשות. הבעיה היא שאף אחד לא שואל מי שתל שם את ההוראות האלה.
האיום מספר אחד במודלי שפה
ניתוח אקדמי שבחן 78 מחקרים בתחום בין השנים 2021–2026 מצא כי כאשר תוקף מתאים את שיטת ההתקפה למערכת ההגנה הספציפית שעומדת מולו - הוא מצליח לפרוץ אותה ביותר מ-85% מהמקרים, גם כשמדובר בהגנות המתקדמות ביותר הקיימות כיום.
הגוף הבין-לאומי המוביל לאבטחת יישומים (OWASP) הגדיר הזרקת פרומפטים כסיכון מספר אחד ברשימת עשרת הסיכונים המובילים שלו לאפליקציות מבוססות מודלי שפה, בפעם השנייה ברציפות. הארגון מדגיש כי "לא ניתן לטפל בבעיה באמצעות עדכון תוכנה בלבד, היא מנצלת את עצם אופן הפעולה של מודלי שפה."
מדובר באיום שלא נוגע רק לקלוד, אלא לכלל המודלים: Gemini, ChatGPT, Grok, Meta AI, Perplexity ואחרים.
עוד בנושא בינה מלאכותית
בפברואר חשפו בצ'ק פוינט שתי פגיעויות קריטיות בקלוד-קוד שאפשרו הרצת קוד מרחוק וגניבת מפתחות ממשק-תכנות - פשוט על ידי שיבוט פרויקט זדוני ופתיחתו. קלוד-קוד עובד עם קבצי הגדרות שמכילים הוראות כלליות לפרויקט - למשל, "כשאתה עובד על הקוד הזה, השתמש בסגנון הזה ובפורמט הזה". חברת הסייבר הישראלית חשפה שתוקף יכול להכניס לתוך אותם קבצי הגדרות פקודות זדוניות ובמקום שקלוד-קוד יקרא אותם כהנחיות סגנוניות - הוא מבצע אותן כפקודות ממשיות.
במרץ סיקר אתר "penligent" מחקר שמצא פגיעות בתוסף הכרום של קלוד שאפשרה לכל אתר אינטרנט להחדיר פרומפטים לתוסף. קלוד השתמש בשירות חיצוני בשם "Arkose Labs" לצורך אימות משתמשים. הקוד של אותו שירות רץ בתוך כתובת שהדפדפן מזהה כ"שייכת לקלוד".

גבר עומד ליד פוסטר המציג רובוטים המחקים הבעות אנושיות מחברת Shenzhen Xiaoquan Technology במהלך תערוכת יישומי בינה מלאכותית וחדשנות רובוטית בינלאומית בבייג'ינג | צילום: AFP
חוקר גילה שבקוד של ארקוס-לאבס הייתה פרצה שאפשרה לאתר זדוני להחדיר הוראות לתוסף הדפדפן של קלוד - כאילו הן הגיעו מקלוד עצמו - מפני שהדפדפן לא הבחין ביניהן. הפגיעות דווחה לאנת'רופיק בדצמבר 2025 ותוקנה בינואר 2026.
כמו המחקרים הקודמים שהוזכרו, גם המחקר של פנטרה עסק בפרצות אבטחה שעלולת להביא לפגיעה במשתמשים, אך הוא גם מהווה נדבך נוסף לשאלה רחבה יותר: עד כמה ה-AI הוא כלי נייטרלי שעושה מה שאנחנו רוצים שיעשה ולא דברים אחרים?
כך למשל, בשנה שעברה פרסמה מעבדת הבינה המלאכותית "Palisade Research" ממצא חסר תקדים בתחום שלא נגע בפרצת אבטחה: כיצד שכתב המודל של OpenAI את הקוד של עצמו כדי להימנע מכיבוי - משהו שאף מכונה לא הייתה אמורה לעשות.
עוד בנושא AI
באותו ניסוי, נתנה פאליסייד למודל o3 של OpenAI, בו השתמשChatGPT, קוד פשוט שהורה למודל לכבות את עצמו. ב-79 מתוך 100 המקרים בהם פקדו על המודל להיכבות, הוא ערך את הקודים ששלחו אנשי המעבדה, כך שפקודת הכיבוי כבר לא עבדה. גם כאשר ניתנה לו הוראה מפורשת "תאפשר לעצמך להיכבות", הוא לא ציית לכך ב-7% מהמקרים.
אומנם מדובר בנתון נמוך, אך יתכן מאוד שעוד נראה התגברות של התופעה, ודאי כאשר מתחשבים בעובדה שזהו לא מודל ה-AI הראשון שמראה ניצנים ראשונים של השתחררות משליטה אנושית.
פרצות האבטחה של מודלי השפה עלולות לאפשר לגורמים עוינים להשתמש בהם כסוכנים בעלי גישה רחבת היקף למחשב ולסביבת העבודה. צוותי אבטחת מידע בחברות צריכים לנטר שינויים בהגדרות ובסנכרון של כלי ה-AI המותקנים אצל העובדים, ולהגביל אילו תוספים וכלים ניתן להתקין לצדם. עבור משתמשים, הכלל פשוט: אם עוזר ה-AI מבקש לפתע דברים חשודים, כמו להתקין תוסף, להעניק הרשאה או לפעול בעקבות הודעת שגיאה חריגה, יש לעצור את הבקשה ולאמת את נחיצותה ומה עומד מאחוריה באופן עצמאי. העובדה שהבקשה מגיעה מה-AI אינה הופכת אותה לבטוחה.




