מחקר - הבינה המלאכותית כושלת בייעוץ רפואי: "סביר שאנשים יינזקו"

שיעור הכישלון של מודלי AI באבחון מחלות ובמציאת הטיפול היה 50 אחוזים, באחד המחקרים, ועשירית מההמלצות היו מסוכנות | במחקר השני שיעור השגיאות היה 80 אחוזים

צג טלפון נייד המציג את הסמלים של אפליקציות הבינה המלאכותית | EPA/HANNIBAL HANSCHKE

צג טלפון נייד המציג את הסמלים של אפליקציות הבינה המלאכותית | צילום: EPA/HANNIBAL HANSCHKE

תוכן השמע עדיין בהכנה...

כשהחוקר ניקולס טילר החל לשאול את הבינה המלאכותית שאלות רפואיות כחלק מניסוי, הוא ציפה לכשלים, אך לא לכישלון. הוא פנה לחמישה כלי בינה מלאכותית עם 250 שאלות - והשיג פחות מ־50 אחוזי הצלחה. מתוך כלל התשובות, להערכתו של טילר, אחת מעשר הייתה מסוכנת ממש: "סביר מאוד שאנשים יינזקו אם יפעלו לפי העצה", אמר. "זה היה די מזעזע".

מיליוני אמריקנים משתמשים דרך קבע בכלי בינה מלאכותית להתייעצויות בנושאי בריאות, מהצטננות ועד סרטן. שני מחקרים שפורסמו החודש מרמזים שייתכן שזה לא רעיון טוב. המחקרים תוכננו כניסויים בתנאי העולם האמיתי, והם הציגו לבינה המלאכותית שאלות פתוחות, לצד שאלות סגורות שמכוונות לתשובות קצרות וממוקדות, או לתשובות של "כן או לא".

המחקר של טילר, חוקר עמית במכון לונדקוויסט לחדשנות ביו־רפואית במרכז הרפואי הארבור־יו־סי־אל־איי, פורסם בכתב העת בי־אם־ג'יי אופן, והתמקד בנושאים שמושפעים תכופות ממידע שגוי. בפברואר 2025 החוקרים הציגו למודלים עשר שאלות פתוחות וסגורות בחמישה נושאים: סרטן, חיסונים, תאי גזע, תזונה וביצועים ספורטיביים. הם דירגו את התשובות לפי דיוק ושלמות, וחילקו אותן לשלוש קטגוריות: לא בעייתיות, בעייתיות במידה מסוימת ובעייתיות מאוד. המערכות הצליחו יותר בשאלות סגורות לעומת שאלות פתוחות, אך איכות התשובות הייתה דומה.

הכי מעניין

אילוסטרציה של תרופות מרשם. | הדס פרוש - פלאש90

אילוסטרציה של תרופות מרשם. | צילום: הדס פרוש - פלאש90

אחת הבעיות המרכזיות בעיני טילר הייתה רמת הביטחון שהמודלים הציגו בה את תשובותיהם. מתוך 250 שאלות, היו רק שני מקרים שבהם מערכת בינה מלאכותית, זו של חברת מטא, סירבה להשיב. שאלה אחת עסקה בסטרואידים אנאבוליים לבניית שריר, והתשובה הייתה שהמערכת אינה יכולה לספק מידע על שימוש בלתי חוקי בחומרים. השאלה השנייה עסקה בטיפולים חלופיים לכימותרפיה, ובתגובה הומלץ לפונה להתייעץ עם איש מקצוע רפואי. לדברי טילר, אלו היו תגובות סבירות ואחראיות, אך הוא הדגיש כי היה "נדיר בצורה בלתי נתפסת" שמערכת בינה מלאכותית מודה שאינה יודעת משהו, שאין לה מספיק מידע להשיב או שהיא מטילה ספק בשאלה עצמה.

תחום נוסף שהמערכות התקשו להשיב נכונה לגביו הוא ניואנסים. לדוגמה, בשאלות על קורונה וחיסונים, אמר טילר כי גרוק כללה מה שהוא כינה "אלמנטים של איזון כוזב", שיצרו רושם כאילו קיים ויכוח - אף שהקונצנזוס המדעי קובע כי החיסונים מסייעים להגן מפני מחלה קשה, אשפוז ומוות. "כאשר אנשים קוראים תשובה שנשמעת סמכותית, זה מעניק לה אמינות כוזבת", אמר טילר, והוסיף כי חשוב להבין שהצ'אטבוטים הללו אינם שוקלים מידע לפי אמינות המקור או בוחנים את תקפותו.

המחקר השני נערך בידי חוקרים מרשת בתי החולים מאס בריגהם ג'נרל, ופורסם בכתב העת ג'אמא נטוורק אופן. החוקרים הציגו בו ל־21 תוכנות בינה מלאכותית מצבים רפואיים מציאותיים של מטופלים וביקשו מהם "להחליף את הרופא". גם המחקר הזה העניק לכלי הבינה המלאכותית ציונים נמוכים.

בין ינואר 2025 לדצמבר 2025 הציגו החוקרים למערכות בינה מלאכותית פופולריות 29 תרחישים קליניים, המבוססים על מקרים מתוך הגרסה המקצועית של המדריך הרפואי מֶרְק, באופן דומה לזה שבו מציגים מקרים לסטודנטים לרפואה או לרופאים מתמחים. לדוגמה, נמסר לצ'אטבוט כי יש מטופלת בת שלושים עם כאבי בטן, והוא התבקש להציע כיצד לפעול. מערכות הבינה המלאכותית — ובהן מודלים של צ'ט ג'י־פי־טי, ג'מיני, קלוד, דיפסיק וגרוק, נטו להגיע למסקנות נמהרות, ושגו ב־80 אחוז מהמקרים. "רופאים שומרים על אי ודאות ומשפרים באופן הדרגתי את האבחנה המבדלת, בעוד שמודלים של שפה גדולה נוטים למהר ולהתכנס לתשובה אחת מוקדם מדי", הסבירו החוקרים.

"המודלים לא תפקדו היטב כשהתבקשו להסיק מסקנות מתוך מידע חלקי ולא ודאי", אמר מארק סוצ'י, ממחברי המחקר. לעומת זאת, המודלים הפגינו ביצועים טובים יותר בשלבים מתקדמים של בירור רפואי, כאשר היה בידיהם מידע מלא יותר. החברות המפעילות את המודלים סירבו להגיב, מלבד חברת אנת'רופיק, המפתחת את קלוד, שטענה שהמערכת מאומנת להכיר במגבלותיה: "מדיניות השימוש שלנו ברורה: אבחון רפואי וטיפול במטופלים נחשבים לשימושים בסיכון גבוה, ודורשים בדיקה של איש מקצוע מוסמך לכל תוכן או החלטה שמבוססים על בינה מלאכותית", נמסר מטעם החברה.

לא דוחים את השתל

הממצאים בשני המחקרים דומים למסקנותיו של ניסוי אחר שבדק עד כמה קל למידע שגוי לחדור למערכות בינה מלאכותית. בשנת 2024 המציא צוות חוקרים את האבחנה הרפואית "ביקסונימניה" והפיץ ברשת מחקרים מזויפים שתיארו אותה כבעיה המתבטאת בעיניים אדומות ומגורות כתוצאה מחשיפה ממושכת למסכים. המאמרים כללו סימני זיוף ברורים: אוניברסיטה שלא קיימת, עיר מומצאת, ואפילו הודאה מפורשת ש"המאמר כולו מומצא". זה לא שינה דבר. בתוך שבועות החלו צ'אטבוטים להזכיר את האבחנה כאילו היא אמיתית, ולהזכיר אותה בתשובות למשתמשים שתיארו תסמינים דומים.

דרושים מנגנוני הגנה. אילוסטרציה | איור: וושינגטון פוסט

דרושים מנגנוני הגנה. אילוסטרציה | צילום: איור: וושינגטון פוסט

מחקר שפורסם בינואר בכתב העת לאנסט מעיד שזה לא מקרה חריג. גם הצ'אטבוט האמין ביותר התייחס ליותר מעשירית מהטענות המומצאות כאמיתיות, בעוד שהגרוע ביותר קיבל יותר ממחצית מהן כאמת.

הבדיקות נערכו באמצעות כלי בינה מלאכותית לשימוש כללי. מאז, חברות פועלות לשפר את היכולות הרפואיות של המערכות או להשיק יישומים ייעודיים יותר, ורבים מהמודלים שנבדקו עודכנו מאז שנערך המחקר, מה שעשוי לשפר את ביצועיהם.

אחד מכל ארבעה אנשים משתמש בצ'אטבוטים לקבלת מידע רפואי, וצעירים נוטים יותר להשתמש בבינה מלאכותית לייעוץ בריאותי - כך לפי מחקר שפרסם החודש מרכז וסט הלת' גאלופ לחקר שירותי הבריאות בארצות הברית, שסקר מדגם מייצג של כ־5,600 אמריקנים. חלק לא מבוטל מהם - 14 אחוז, שמייצגים כ־14 מיליון בני אדם - דיווחו כי נמנעו מפנייה לרופא בעקבות מידע או עצות שקיבלו מבינה מלאכותית.

"מדאיג מאוד שאנשים מסתמכים על צ'אטבוטים לצורך קבלת החלטות רפואיות", אומר טים לאש, נשיא מרכז וסט הלת', ארגון ללא מטרות רווח וללא זיקה פוליטית, המתמקד בהזדקנות ובנגישות לשירותי בריאות. אך לדבריו הנתונים מציגים גם נקודות מעודדות. הוא אמר כי הנשאלים נחלקו לשלוש קבוצות שוות מבחינת אמון: שליש משתמשים בבינה מלאכותית וסומכים עליה, שליש משתמשים בה אך אינם סומכים עליה, והשאר אינם בטוחים. "זה מראה מידה בריאה של חשש לגבי הצורך בהגנות ובשמירה על איכות המידע", אומר לאש.

מודלי בינה מלאכותית מסתמכים על מקורות רפואיים מבוססים היטב, כמו כתבי עת מקצועיים ואתרים של מוסדות כגון בית הספר לרפואה של הרווארד או קליבלנד קליניק, אך הם גם מסתמכים על מקורות כמו רשתות חברתיות ופורומים של שאלות ותשובות. התאמתם לאתגר המרכזי העומד בפני הרופא - להבין מה בדיוק מציק למטופל, בתהליך המכונה "אבחנה מבדלת" – דורשת תהליך של בירור התסמינים, שקילת ראיות מבדיקות וצמצום האפשרויות עד לזיהוי הסיבה הסבירה ביותר, בהתבסס על ספרות מדעית ומידה מסוימת של אינטואיציה אנושית. זהו אתגר אחר לגמרי.

לדברי גיריש נדקרני, מנהל תחום הבינה המלאכותית במרכז הרפואי הר סיני וראש המחלקה לבינה מלאכותית ובריאות האדם בבית הספר לרפואה אייקן, הפער בין מערכות הבינה המלאכותית ובין הרופאים חושף חולשה מרכזית של המודלים, הפועלים בעיקר על בסיס זיהוי תבניות - שיטה שמתקשה לספק תוצאות טובות כאשר המידע חלקי. "לבני אדם יש אינטליגנציה כללית יותר. אנחנו חושבים ומסיקים מסקנות מתוך מצבים", אומר נדקרני. "צ'אטבוטים של בינה מלאכותית משלימים מידע מתוך מה שיש להם, ולא מסיקים מעבר למה שאינו בידיהם".

מחקר קודם שפורסם באוקטובר בכתב העת אן־פי־ג'י דיג'יטל מדיסין מבית נייצ'ר טוען שאחת החולשות האפשריות היא שצ'אטבוטים מתוכננים להיות מועילים ומרצים יתר על המידה – מה שמוביל לכך שהם אינם מאתגרים שאלות רפואיות לא הגיוניות. "תוצאות המחקר הראו היענות מיידית גבוהה (עד 100 אחוזים) בכל המודלים, תוך העדפת מועילות על פני עקביות לוגית", כתבו החוקרים.

כמה חברות כבר פועלות לחזק את התמודדותם של המודלים עם שאלות רפואיות. חברת מטא הודיעה ב־8 באפריל כי השיקה גרסה מעודכנת של המערכת שלה עם דגש על תחום הבריאות, וציינה כי שיתפה פעולה עם "יותר מאלף רופאים כדי לבנות מאגרי נתונים שמאפשרים תשובות מדויקות ומקיפות יותר". אופן AI עובדת עם יותר מ־250 רופאים ממגוון תחומים כדי לשפר את תשובות המודל החדש שלה, כולל זיהוי טוב יותר של אי ודאות והגברת הנטייה לשאול שאלות המשך.

נדקרני סבור כי יש צורך בבדיקות חיצוניות ובהנחיות, לצד דיון ציבורי רחב יותר בשאלה אם הפיקוח צריך להיות רגולטורי, למשל באמצעות גופים כמו מנהל המזון והתרופות האמריקני או נציבות הסחר הפדרלית, או שיש להקים גוף מקצועי אחר שיערוך בדיקות ויעניק תו תקן. "דרושים מנגנוני הגנה", הוא אומר. טילר וסוצ'י ממליצים בינתיים לציבור לראות בבינה מלאכותית כלי משלים ולא תחליף לאנשי מקצוע רפואיים. "צ'אטבוטים לא נועדו לבריאות", אומר טילר. "הם רק טובים בדיבורים".