כשהמודלים הממוחשבים של ענקיות הטכנולוגיה 'עליבאבא' ו'מיקרוסופט' התעלו החודש על בני אדם בפעם הראשונה במבחן הבנת הנקרא, שתי החברות חגגו את ההצלחה כאבן דרך היסטורית.
לואו סי, המדען הראשי לעיבוד שפה טבעית ביחידת מחקר הבינה המלאכותית ב'עליבאבא', נקט נימה פיוטית כשאמר ש"שאלות אובייקטיביות כגון 'מה גורם לגשם' יכולות להיענות כעת בדיוק גבוה בידי מכונות".

לימוד המחשב לקרוא היה במשך עשורים אחד הגביעים הקדושים ביותר בתחום הבינה המלאכותית, ונדמה שההישג מרמז על עתיד קרוב שבו מחשבים מצוידים בבינה מלאכותית יוכלו להבין מילים ולעבד משמעות באותה נזילות שבני האדם מקבלים כמובנת מאליה בכל יום.
אבל המחשבים לא ממש הגיעו למקום הזה, והם אפילו לא קרובים לשם – כך לטענת מומחים לבינה מלאכותית שבחנו את תוצאות המבדק. במקום זאת, ההישג מדגיש לא רק עד כמה רחוק התקדמה הטכנולוגיה הזאת, אלא כמה רב המרחק שעליה לעבור.
זה צעד גדול ליכולות השיווק של החברות, "אבל צעד קטן לאנושות", טוען אורן עציוני, מנכ"ל מכון אלן לבינה מלאכותית, קבוצת מחקר במימון מייסד 'מיקרוסופט' פול אלן. "המערכות הללו פריכות, כך שאפילו שינויים קטנים בפסקאות יכולים להוביל לתוצאות רעות מאוד" ולאי הבנות, מוסיף עציוני. וכשזה מגיע, למשל, להסקת מסקנות משני משפטים או הבנת רעיונות מרומזים, המודלים הממוחשבים משתרכים עוד יותר מאחור: "את ההשלכות מהסוג שאנחנו עורכים בטבעיות, בלי שאפילו נחשוב עליהן, המערכות הללו לא מסוגלות להן".
המבחן התבסס על מערך התשובות לשאלות של אוניברסיטת סטנפורד – אוסף של יותר מ־100 אלף שאלות שהפך לאחד משדות הקרב הגדולים בעולם הבינה המלאכותית לבחינת יכולתן של מכונות לקרוא ולהבין את הנקרא. למודלים הממוחשבים מוצגות פסקאות קצרות שנלקחו מלמעלה מ־500 דפי ויקיפדיה, העוסקים במגוון נושאים – כולל העיר ג'קסונוויל שבפלורידה, אי שוויון כלכלי ומגפת הדבר השחור. למשל, כשהוצגה למודלים פסקה על משחק הסופרבול החמישים, הם נשאלו אילו מוזיקאים כיכבו במופע המחצית של המשחק.
במבחן הראשון באוגוסט 2016, שבדק מודל שיצרו חוקרים באוניברסיטת סינגפור לניהול, השתרך המחשב מאחורי ממוצע ההישגים האנושי של אנשים ממערכות מיקור המונים כמו "הטורקי המכני" של 'אמזון', שקיבלו שכר תמורת מענה על שאלות בסקרים או השלמת משימות קטנות.
אבל אחרי תריסרי מבחנים עוקבים הציגו החודש החוקרים הוכחה שהמודלים שלהם הצליחו להביס סופית, אך בקושי, את בני האדם: המודלים של 'מיקרוסופט ריסרץ' אסיה' קיבלו ציון 82.6, בהשוואה ל־82.3 שקיבלו המשתתפים האנושיים.
לאחר ש'מיקרוסופט' ומעצמת הטכנולוגיה הסינית 'עליבאבא' טענו לניצחון הראשון של מערכות בינה מלאכותית, התפרסם זרם של דיווחים נלהבים בתקשורת שהעריכו שהבינה המלאכותית תוכל לא רק לקרוא טוב יותר מבני אדם, אלא יפחיתו "באופן חסר תקדים את הצורך בקלט אנושי". 'מיקרוסופט' ציינה שהיא משתמשת במודלים דומים במנוע החיפוש בינג, ו'עליבאבא' הוסיפה שהטכנולוגיה תהיה אולי בשימוש ל"שירות לקוחות, הדרכות במוזיאונים ותשובות ברשת האינטרנט לשאלות רפואיות".
אך מומחים לבינה מלאכותית טוענים שהמבחן מוגבל מכדי להשוות אותו ליכולת קריאה אמיתית. התשובות לא נבנו דרך הבנה של הטקסט, אלא באמצעות מערכת שמוצאת תבניות ומשווה מושגים באותה פסקה קצרה. המבחן נערך רק על ערכי ויקיפדיה, שמעוצבים באופן נקי, ולא על הקובץ הרחב היקף של ספרים, כתבות חדשות ולוחות מודעות שממלא את מרבית שעות הערות של בני האדם.
הוספת ג'יבריש שבני האדם מתעלמים ממנו בקלות מבלבלת לעיתים קרובות את מערכות הבינה המלאכותית, מה שגורם להן לפלוט תשובה מוטעית. נוסף לכך, בכל אחת מהפסקאות במבחן הופיעה התשובה לשאלה, מה שלא דרש מהמודלים הממוחשבים לעבד מושגים או להתמודד עם רעיונות אחרים.
לדברי סטיבן מריטי, מדען מחקר שעובד על שפת בינה מלאכותית בענקית מחשוב הענן 'סיילספורס', זהו "הישג מדהים". עם זאת, הוא מוסיף, לכנות זאת "על־אנושי" יהיה "טירוף". לדבריו, "אין למודלים יכולת לקבוע או לסמן שהם סבורים שאין די בפסקה כדי לענות על השאלה. הם תמיד יפלטו תשובה כלשהי".
אפילו פרנב רג'פורקר, חוקר בינה מלאכותית בסטנפורד שסייע לעצב את המבחן של האוניברסיטה, אומר שיש צורך "בקפיצה גדולה למדי" כדי שמכונות יוכלו באמת לקרוא ולהבין. "המטרה תמיד הייתה להגיע לרמת יכולת אנושית, ואנחנו מתקרבים לשם צעד אחר צעד", מסביר רג'פורקר.
מומחי בינה מלאכותית אומרים ש"הנס" האמיתי בהבנת הנקרא הוא הקריאה בין השורות: חיבור מושגים, היסק הגיוני של רעיונות והבנת מסרים מרומזים שלא נכתבו בפירוש בטקסט.
בתחומים האלה, לבינה המלאכותית יש עוד הרבה מאוד לאן להתקדם. המודלים הממוחשבים שנבחנו באתגר סכמת וינוגרד (WSC) התבקשו להבין את משמעותם של משפטים מעורפלים שבני האדם היו מעבדים למרות הקושי, והפגינו רמת ביצוע לא אחידה. מריטי תיאר דוגמה אחת שמערכות הבינה המלאכותית כיום עדיין מתקשות להבין: השאלה מה ההבדל בין מכונית "מלאה בבנזין", "מלאה בדלק" ו"מלאה בתפוזים".
חוקרי בינה מלאכותית אומרים שהם נחושים להתקדם לאתגרים חדשים של הבנת הנקרא מעבר לקריאה בסיסית של ויקיפדיה. מכון אלן למשל מאמן את מודל הבינה המלאכותית לענות על בעיות מתמטיקה בסגנון פסיכומטרי ועל בעיות מדעיות ברמת חטיבת הביניים.
אך לפי המומחים, בני האדם אינם צריכים לחשוש שיאבדו את עבודתם למכונות שלכאורה קוראות פסקאות העוסקות בגשם, או בכל דבר דומה אחר. "טכנית זה הישג, אבל זה לא שעלינו להתחיל לסגוד לאדונינו הרובוטיים", אומר פרופ' ארנסט דיוויס, מרצה למדעי המחשב באוניברסיטת ניו־יורק וחוקר בינה מלאכותית ותיק.
"כשאתה קורא פסקה, ההבנה לא מגיעה משום מקום. היא מבוססת במידה רבה מאוד על מה שאתה יודע על העולם", הוא מסביר. "אנחנו באמת צריכים להתמודד הרבה יותר לעומק עם הבעיה של מיצוי המשמעות העשירה של טקסט. הבעיה עדיין לא נפתרה".