שפת הבוט

זה נשמע כמו התעטשות, אבל CAPTCHA הם ראשי תיבות של מבחן טיורינג אוטומטי, פומבי ומלא שנועד להבדיל בין מחשבים ובני אדם • עמי בן בסט יצא למסע מילולי בעולם הקאפטשה

עמי בן בסט | 1/10/2006 11:08

התמונה שאתם רואים כאן הינה עמוד אינטרנט הנגוע בטפיל טכנולוגי. אין למזיק הזה שם ספציפי, אבל אפשר לכנות אותו בשם הכללי "בוט".

בוטים מן הסוג הזה, שהחלו להופיע כבר בשנות התשעים של המאה הקודמת יחד עם התפשטות האינטרנט, הם לא יותר מאשר תוכנות רובוטיות מידבקות המחלחלות ומתפשטות להן דרך לינקים לעמודי אינטרנט שונים, כשחלקן מכוון להניח גרפיטי של כתובות, בעיקר אתרי סקס, פורנו, הימורים ותרופות.

אם לא ננקטים אמצעי הגנה, יכולים הבוטים הללו להדביק עשרות, מאות ואלפי דפים, כמו שמראה הסרטון הזה.

ספאם תגובות שבוטים פרסמו בבלוג צילומסך

ואז באה הקאפטשה. כבר בימי ראשית האינטרנט נמצאו אלה שרצו להפוך את הטקסטים שהופיעו ברשת לבלתי קריאים לתוכנות מחשב. בשנת 2000 הציג צוות חוקרים מאוניברסיטת קרנגי מלון בארה"ב את CAPTCHA, ראשי תיבות של Completely Automated Public Turing test to tell Computers and Humans Apart, "מבחן טיורינג פומבי אוטומטי לגמרי להבחנה בין מחשבים ובני אדם" – תוכנית מחשב שיודעת לייצר מבחנים שרוב בני האדם יכולים לעבור, אבל לא תוכנות המחשב, לפחות לא בטכנולוגיה של ימינו.

אחת המטרות העיקריות של הקאפטשה הייתה למנוע מבוטים זדוניים להשתמש בשירותים מגוונים שהוצעו לגולשי האינטרנט, למשל להירשם לאתרים וחדרי צ'ט, להוריד קבצים מסוימים, להשתתף בסקרים מקוונים, לפתוח חשבונות אימייל, לכתוב הערות לבלוגים, וכד'. ורסיה נפוצה של הקאפטשה היא הצגת קוד המורכב מכמה אותיות מעוותות ולא

סדורות על רקע מטושטש ולא ברור. הנבחן מתבקש להעתיק את הקוד בצורה מדויקת, אות אחר אות, במקום המתאים.

מבחן הקאפטשה, אם לנקוט לרגע עמדה אובייקטיבית, הומצא על ידי בני אדם ומפלה (כמובן) את הבוטים לרעה. נכון שאלה יודעים לזהות אותיות "רגילות" באנגלית, אבל אין להם כל סיכוי לזהות, למשל תמונה מן הסוג הזה:

הרבה CAPTCHA עיבוד מחשב

אין צורך לומר שהופעת המבחן הביאה בעקבותיה מאבק מעניין בין אנשי הקאפטשה לבין יוצרי הבוטים המזהמים שחיפשו, ומחפשים כל הזמן, דרכים להכניס את הבוטים שלהם גם במקומות שהם אינם רצויים. זו גם אולי הסבה שלעיתים הולכים יוצרי הקאפטשות רחוק מידי - עד כדי כך שגם בעליהם, בני האנוש, מתקשים לעבור את המבחן. ראו למשל את התמונה הזאת:

לא קל, גם לבני ההומו סאפיינס צילומסך

אפשר עדיין להסתדר עם הטסט הזה, אבל לא בקלות, וגם בני אנוש יכולים לעיתים להילחץ. בבלוגים של "רשימות", לדוגמה, הייתה במשך תקופה ארוכה קאפטשה קשוחה למדי שנועדה אמנם למנוע הסתננות בוטים, אבל למעשה גרמה לכך שגם בני האדם נכשלו במבחן, פעם אחר פעם.

בזמן האחרון, תודה לאל, העניין טופל. "שינינו קצת את ההגדרות", אומר לי ירדן לוינסקי, ממנהלי רשימות, ואכן המבחן הנוכחי הוא פשוט למדי. מה שאיפשר לי, לאחר שוך הסערה, לצאת למסע לינגוויסטי מזורז בעקבות שפת הקאפטשה. לשם כך בדקתי בצורה אקראית רשימה ארוכה של קודים בשפה המשונה הזאת, קודים שהם כידוע לא יותר מאשר מילים מעוותות וחסרות משמעות. המילים המורכבות מצירופי אותיות סתמיים, לקוחות בדרך כלל מאחת הוורסיות של שפת ה-Gimpy, שפה שמתבססת על 850 מילים אנגליות בסיסיות ממילון אוגדן. על מנת לסבר את העין, הנה רשימה מקרית: sqku, wupa, igak, dbuf, bxsd, woua, gexi, וכך הלאה.

יכול להיות, חשבתי לעצמי, שהמילים הללו עושות את החיים קשים לבוטים (וגם למעבדי התמלילים של וורד, שנכנסים למצוקה וממהרים לסמנן באדום), אבל מה איתנו? אנחנו, כידוע, יצורים שלא רק מחפשים אחר האמת, אלא גם אחר משמעות. במובן זה לפחות, המילים הקפטשאיות האלה הופכות את המבחן עבורנו, בני האדם, לחסר עניין.

אבל רק רגע! האם עיסוק במילים חסרות משמעות הוא אכן חסר משמעות? מבלי להיגרר לפילוסופיה קפטשאית, ניתן לקבוע בזהירות כי העובדה שלמילה אין מובן, הינה מובן לכשעצמה...

חוץ מזה שגוגל, שהוא מנוע אובססיבי למדי, נוהג להעניק תוצאות ופירושים לכל צירוף אותיות, סתמי ככל שיהיה. לדוגמה, המילה "wupa" היא קיצור של תחנת טלוויזיה באטלנטה, ו-"gexi" היא סוג של "צליל קדום", וכך הלאה. מעבר לכך, התחושה שלי היא שהבוטים מכינים את שיעורי הבייט (byte) שלהם, ויום אחד, כאשר הבינה המלאכותית תתפתח עוד קצת, יתפתח גם מקצוע הלשון והבוטים יוכלו לעבור בקלות את מבחן הקאפטשה, לפחות במהדורה של היום. הילדים של פעם דברו בשפת הבי"ת, אלה ידברו בשפת הבוט.