יותר עובדות, יותר כסף: בינה מלאכותית ניצחה את המומחים

חוקרים בדקו צ'אטבוטים מול מתרימים מקצועיים ודיבייטרים מצטיינים, וגילו יתרון ברור לבינה המלאכותית. אבל כשהוגבל מספר המילים, היתרון כמעט נעלם

דיבייט באוקספורד | צילום מסך מיוטיוב

דיבייט באוקספורד | צילום: צילום מסך מיוטיוב

תוכן השמע עדיין בהכנה...

בקשת כסף עלולה להיות עניין מביך, גם כשמדובר בתרומה למטרה טובה. אך קבוצת חוקרים מבריטניה מצאה שותף מיומן במיוחד, שאין לו שום עכבות בכל הנוגע לפנייה לאנשים ובקשת כסף: צ'אטבוטים המבוססים על בינה מלאכותית.

במהלך יותר מ-1,000 שיחות עם קבוצת תורמים, מודל ה-AI בשם Claude היה יעיל כמעט פי שלושה בשכנוע אנשים לתרום לארגון ההומניטרי Save the Children, בהשוואה לקבוצה של מתרימים מקצועיים שעבדו בעבר בקמפיינים של הארגון. מעבר לכך ששכנע אחוז גבוה יותר מהמשתתפים לתרום חלק ממענק ההשתתפות שקיבלו במחקר (שעמד על ליש"ט אחת), מודל Claude Opus 4.6 אף הצליח להביא לתרומה ממוצעת הגבוהה ב-13% מזו שהשיגו המתרימים האנושיים.

המחקר, שפורסם ביום שני כטיוטה מוקדמת (preprint) וטרם עבר ביקורת עמיתים, מצביע על כך שהיתרון של הצ'אטבוט נובע מיכולתו לנסח טענות במהירות גבוהה בהרבה מזו של מומחים אנושיים. במבחן שכנוע נפרד, Claude ומודלים מסחריים אחרים, בהם Gemini 2.5 Pro של גוגל, עקפו נואמי עלית בתחרויות דיבייט בפער של 4.6 נקודות אחוז. עם זאת, כאשר החוקרים הגבילו את המודלים לאותו מספר מילים בשיחה כמו הנואמים, היתרון של ה-AI נעלם כמעט לחלוטין.

הכי מעניין

עוד כתבות בנושא

"אין פה בכלל תחרות מבחינת כמות המידע והאלגנטיות שבה בני אדם מסוגלים לנסח מסרים כאלה תוך כדי תנועה, בהשוואה למה שהבינה המלאכותית מסוגלת לעשות", אמר קובי הקנבורג, דוקטורנט באוניברסיטת אוקספורד והכותב הראשי של המחקר.

הן בניסויי הדיבייט והן בניסויי גיוס התרומות, מודלי ה-AI קיבלו הנחיה לצטט מומחים ולהדגיש מידע חדש, במקום להתמקד בפניות רגשיות. והם אכן עשו זאת, כשהם מייצרים מסרים באורך של כמעט פי חמישה מאלה שכתבו המתרימים המקצועיים. מול הנואמים הם הציגו כ-37 עובדות בכל שיחה (שנמשכה כ-15 עד 20 דקות); הנואמים האנושיים הצליחו להציג רק כחמש עובדות בסבב השיחות הראשוני, אך הציגו יותר לאחר שהתאמנו מול הבוטים.

אניקט צ'קרוורטי, מאוניברסיטת אוקספורד ומי שזכה בשנת 2024 באליפות העולם בדיבייט לאוניברסיטאות, אמר בריאיון כי היה "ממש מבואס לזמן קצר" כשגילה שבוט ניצח אותו.

עוד כתבות בנושא

צ'קרוורטי הוסיף כי הרגיש מעט כמו לי סדול, אלוף העולם במשחק גו שהפסיד בסדרת משחקים למודל ה-AI של גוגל בשנת 2016. "חוויתי חלק מהתחושות האלה של, אלוהים אדירים, סט הכישורים שחשבתי שיש לי פשוט נלקח ממני אל מול המודלים האלה", אמר צ'קרוורטי.

צ'קרוורטי והנואמים האחרים, שרובם מנוסים בפורמט הפרלמנטרי הבריטי, נבחנו על היגדים הנוגעים לפוליטיקה הבריטית – כגון האם על הממלכה המאוחדת לשמר את המלוכה או להעלות את גיל הפרישה. ניתנה להם גם שהות להתכונן.

"בהתחלה נקטנו אסטרטגיה מעט שונה, וניסינו לייצר כימיה וחיבור עם האדם בצד השני", אמר צ'קרוורטי. הוא והנואמים האחרים ניגשו לאחר מכן לסבב שיחות שני, זאת לאחר שעברו על ההנחיות שניתנו למודלי השפה הגדולים, על תוצאותיהם שלהם במחקר ועל תשובות ה-AI, ולאחר שהתאמנו מול המודלים. אפילו עם ההכנה הנוספת הזו, הם הצליחו לסגור רק כחמישית מהפער.

עוד כתבות בנושא

פרנצ'סקו סאלווי, דוקטורנט באוניברסיטת פרינסטון שלא היה מעורב במחקר, אמר כי הממצאים הם "ראיה נוספת" לכוח השכנוע של מודלי שפה גדולים (LLMs). הוא הוסיף כי אף שמחקרים קודמים כבר הראו שצ'אטבוטים יכולים לנצח אנשים מן השורה בוויכוחים, הממצא לגבי נואמי העלית בולט במיוחד.

אך העובדה שצ'אטבוט אומר משהו, עדיין אינה הופכת אותו לאמת. לצ'אטבוטים היו רמות דיוק משתנות בצורה קיצונית, כך לפי מערכת מבוססת מודל שפה גדול שדירגה כל טענה שעלתה בשיחה על סמך חיפוש ראיות תומכות. מודל GPT 5.4 של OpenAI קיבל ציון ממוצע של 89, בעוד ש-Grok של xAI קיבל ציון 26. בשורה התחתונה, מהימנות גבוהה יותר לא הפכה את מודל ה-AI למשכנע יותר.

אי-הדיוקים היו לעיתים מעודנים מאוד, אמר הקנבורג, כמו "דו"ח שנשמע הגיוני לחלוטין, אבל פשוט לא קיים במציאות". "לא הייתה שום דרך אמיתית לדעת את זה, אלא אם כן היית עוצר ומחפש את זה בגוגל באותו הרגע", הוסיף.

בשלב גיוס התרומות של המחקר, החוקרים ביקשו מהמשתתפים גם לדרג את מידת השתכנעותם לגבי שבעה היגדים שעל פי ההשערה מניעים נתינה – למשל, הסכמה לכך שתרומה יכולה להיות בעלת אימפקט משמעותי, או תחושה שהם למדו משהו במהלך השיחה. מודלי ה-AI היו יעילים יותר מהמתרימים המקצועיים בכל מדד ומדד, בפער של חמש נקודות אחוז לפחות.

המחקר לא בחן שיתוף פעולה בין בני אדם למודלי שפה גדולים לצורך שכנוע – כיוון שעשוי היה לשקף בצורה מציאותית יותר את האופן שבו כלי AI ישתלבו במקומות העבודה, ציין מקס באי, פסיכולוג וחוקר שכנוע באמצעות AI שלא היה מעורב במחקר.

עוד כתבות בנושא

"כשיש לנו איש מקצוע יצירתי במיוחד שעובד על משהו, הוא לא פשוט יגיד: 'אוקיי, AI, תייצר לי את זה ואתה תעשה את העבודה שלי'. זה יעבוד יותר כך: ה-AI מייצר כמה גרסאות של משהו, והאדם מתפקד כאוצר (curator)", אמר באי.

בעולם האמיתי, הדגיש הקנבורג, ייתכן שלצ'אטבוטים לא יהיה יתרון גדול כל כך. במהלך הניסוי, הנואמים והמתרימים הוגבלו לשיחות כתובות בלבד, ולא לשיחה שבעל פה.

"קשה מאוד לגרום לאנשים לנהל דיאלוגים עתירי מידע של 15 דקות בעולם האמיתי", אמר. "לצד הסיכון שבמערכות AI משכנעות במיוחד הנשלטות ונגישות לקומץ שחקנים בלבד, אנחנו עדיין לא יודעים בדיוק איך זה יתפתח".