בשידור חוקר | ללא

צילום: ללא

מהנדסים, חוקרים, טנקיסטים וחיילים על הרצף העבירו טירונות לבינה מלאכותית, ויצרו טכנולוגיה שצופה מבעד אלפי מצלמות ומזהה איומים. באימון המתקדם, אומרים מובילי הצוות, היא תשתפר עוד יותר

תוכן השמע עדיין בהכנה...

כשחברות הטכנולוגיה הגדולות בעולם מתחרות על פיתוח המודלים המתקדמים ביותר של בינה מלאכותית, מתקיים ברקע מרוץ מקביל - ושקט הרבה יותר, בינתיים - ליישום היכולות הללו לצרכים צבאיים. המערכה הגדולה מתחוללת בין ארצות הברית לסין. שתי המעצמות, בעולם הדו־קוטבי המתעצב, משקיעות מיליארדים בפיתוח מערכות AI שמטרתן לזהות איומים, לנתח מידע מודיעיני ולסייע בקבלת החלטות מבצעיות. אבל גם אומות קטנות יותר וצבאות קטנים יותר מעורבים במרוץ.

רס"ן א', ראש תחום הבינה המלאכותית במחלקת מעוף באגף התקשוב, מספר שכאשר צה"ל נכנס לתחום, התברר שפתרונות שעובדים בעולם האזרחי לא בהכרח עובדים בשדה הקרב. "לקחנו את כל המודלים הכי טובים בעולם, ושמנו אותם על הדאטה שלנו. הם לא פגעו אפילו פעם אחת", הוא אומר. הכוונה שלו היא למערכות שמזהות פנים בשדות תעופה או מאתרות מכוניות בכבישים: כולן אכזבו כשניסו להפעיל אותן על תמונות ותיעוד וידאו של הצבא.

רס"ן ש' | דו"צ

רס"ן ש' | צילום: דו"צ

הכישלון הזה היה נקודת המוצא לפיתוח זיטיוב־AI, מערכת בינה מלאכותית שנכנסה לשימוש מבצעי בכמה מיחידות צה"ל בחודשים האחרונים. היא פועלת על בסיס זיטיוב (ZTube), שרס"ן א' מכנה "הנטפליקס של צה"ל": זהו אתר ברשת הצבאית המסווגת שמאפשר למי שמחובר אליו "לראות כל מצלמה בלייב. יש גישה לכל הערוצים, ויכולת לראות כמה ערוצים בו־זמנית". זיטיוב, שנעשתה מבצעית לפני חמש שנים, מאפשרת למפקדות ולכוחות להביט דרך עדשותיהן של אלפי מצלמות צה"ל ברחבי הארץ ומחוצה לה – ממצלמות התצפיתניות לאורך הגבול, ועד מצלמות של רחפנים המעבירים חומרים בשידור חי משמי האויב. כעת זיטיוב־AI, שהורכבה "מעליה", מספקת זיהוי אוטומטי של איומים באמצעות עיבוד התמונות בתוכנת בינה מלאכותית ייחודית.

לצה"ל יש כאמור אלפי מצלמות, וגם אם ישבו אלפי צופים מול מסכים, אי אפשר להניח שהם יהיו תמיד חדים ומהירים בהנפקת התרעות על בסיס התיעוד שמוצג להם. העין האנושית מוגבלת, וכדי שתצפיתן בחמ"ל יבחין בכל מה שמתרחש מול כל אחת מהמצלמות המזינות אותו במידע, הוא נדרש לריכוז עילאי ולתשומת לב מתמדת. לא תמיד יש מי שבוחן בכלל את הווידאו בזמן אמת, וכך עלולים להחמיץ התפתחויות חשובות בגזרה, גם אם לא מדובר באיום מיידי. הבעיה מתעצמת כשמתחשבים באיכות הצילום. המצלמות מתעדות לעיתים בשחור־לבן, או בצילום תרמי שקשה לבני אדם לפענח. הרזולוציה שלהן לא תמיד מן המשופרות, תכופות הן ממוקמות במרחק גדול מהאזורים המתועדים כדי שלא יפגעו בהן, ועליהן לספק את התוצאות גם בחשכה, בתנאי מזג אוויר קשים ובתוואי שטח מורכב, לרבות אזורים הרריים, מדבריים, מיוערים ובנויים. "יש מצלמות מסוגים שונים, בפורמטים שונים, בקצבים שונים, ברזולוציות שונות, באיכויות שונות", מפרט רס"ן ש', ראש מדור חוזי באגף התקשוב. "המערכת שלנו צריכה להתאים לכל המצלמות האלה".

כשנכנסתי למשרדו המרווח של רס"ן ש' בבסיס צריפין, השעון כבר הורה על 11. החייל ששלח לי את הזימון למפגש הפנה אותי לשער הלא נכון בבסיס, והטעות הזאת עלתה לי בעמידה בטור רכבים בלתי נגמר עד הש"ג, ובלא פחות מ־70 דקות בדרך שאורכה לא עולה על שני קילומטרים. "אני מקווה שזה לא ככה אצלכם בכל יום", אמרתי ל־ש' בזמן שלחצתי את ידו. "ברוך הבא לצריפין", הוא השיב בחיוך.

עוד כתבות בנושא

רס"ן א': "המודלים הללו אומנו על תמונות מהאינטרנט. האובייקטים שם גדולים, הפוקוס קרוב מאוד, האיכות מצוינת. אבל אצלנו מצלמים מרחוק, האיכות פגועה, יש צילומי לילה, הגשם מטשטש את העדשות, החורף משנה את המראה של הכול"

בצה"ל לא אישרו לי לצפות בפעולתה של זיטיוב־AI בחמ"ל מבצעי, אבל ש' וא' הכינו מצגת אינטראקטיבית מושקעת לקראת הריאיון. ראשית הם עורכים לי היכרות עם אתר זיטיוב עצמו. "בוא נציג לך את המערכת", אומר ש' ופותח את האתר, המציג מפה ולצידה רשימת מצלמות. "מכאן אנחנו נתרחק", הוא אומר בחיוך כשהוא מצביע על רצועת עזה. הוא בוחר ללחוץ על אייקון של מצלמה מסוימת המופיעה על המפה ביהודה ושומרון. "זה ממש לייב", מציין א' בגאווה בזמן שאנחנו צופים בנוף המדברי שניבט אלינו מעדשת המצלמה.

זו מערכת זיטיוב בדרך כלל: אלפי מצלמות שמציגות שגרה משעממת, בוודאי לעין הבלתי מיומנת. כדי להמחיש את יכולותיה של מערכת הבינה המלאכותית, ש' מציג לי תמונה קפואה מתוך וידאו שצולם באחת המצלמות ביו"ש, ומבקש ממני למצוא בתוכה דמות של אישה. כל מה שאני רואה הוא נוף מדברי בשחור־לבן. אני מהמר על אחד הגושים השחורים, וש' מחייך ולוחץ על כפתור: ריבוע אדום עולה סביב גוש שחור אחר, ובצד המסך מופיעה התרעה. רק כשהסרטון רץ אפשר לראות את הצללית זזה במרחק. "זה מקרה אמיתי ממבצע", הוא מבהיר. "מודל בינה מלאכותית אזרחי לא היה מזהה את זה לעולם, וגם לא עין אנושית".

למה?

א': "המודלים האזרחיים אומנו על תמונות מהאינטרנט. האובייקטים שם גדולים, הפוקוס קרוב מאוד, האיכות מצוינת. אבל אצלנו מצלמים מרחוק, האיכות פגועה, יש צילומי לילה, הגשם מטשטש את העדשות, החורף משנה את המראה של הכול. המודלים האזרחיים הכי טובים בעולם קיבלו כמעט אפס ביכולת הזיהוי ביחס לדאטה שלנו. המודל שלנו הגיע ל־60 עד 80 אחוזי הצלחה, תלוי במשימה".

בכל הספקטרום

האתגרים שמפתחי המערכת ניצבו בפניהם היו גדולים. זה מתחיל בתחום הווידאו – מהירות השידור, תזוזת המצלמה ואובדן המידע הנובע מדחיסת התמונה. כשאנחנו צופים בשידור חי, יכולות לעבור שניות ארוכות בין רגע הצילום ובין הופעתו על המסך שלנו, ובמערכות צבאיות העיכוב הזה עלול לעלות ביוקר. "אם המחבל בתנועה, הוא נמצא בנקודה מסוימת בחלקיק השנייה הזה, וחצי שנייה אחר כך כבר אין שם כלום", אומר ש'. הווידאו חייב אם כן לזרום באופן רציף וללא עיכובים. הודות לעבודה מאומצת הצליחו באגף להגיע לתוצאות חסרות תקדים, לא רק במהירות הזרמת הווידאו אלא גם במהירות עיבודו באמצעות הבינה המלאכותית.

דו"צ

| צילום: דו"צ

בתחום דחיסת התמונה, ש' מראה לי כיצד תצלום של סוס מאבד מאיכותו כשהוא עובר שוב ושוב דרך הרשת: "בהתחלה הסוס נראה טוב, אבל לאט־לאט הוא מתעוות. דברים קצת נהרסים". במעוף פיתחו אמצעי שמשמר את המידע באיכותו המקורית. "אנחנו מצליחים לשמור גם על דברים עדינים בתמונה – כמו אובייקט שתופס רק 20־30 פיקסלים".

תנועת המצלמה יוצרת בעיה משלה. "בכל רגע תצפיתנית בחמ"ל יכולה להזיז פתאום את המצלמה במהירות כדי לעקוב אחרי משהו, ואז כל התמונה מיטשטשת. המהירות של התנועה משתנה בכל פעם, ואי אפשר לאמן את המודל על כל האפשרויות". במקום להשקיע זמן ממושך באימון מודל שינסה להתמודד עם הבעיה, הם פיתחו מודל נפרד שמזהה מקרים כאלה ובעצם "אומר למודל הראשי: אל תתאמץ לפענח את הפריים הזה, זו רק תזוזת מצלמה".

כל זה נוגע בעיבוד התמונה; אתגרים אחרים ממוקדים במוח של הבינה המלאכותית שמביט בתמונות ומתחיל לסווג אותן, לתייג אותן ולהחליט החלטות על בסיסן. אחת היכולות החשובות של מערכת בינה מלאכותית ויזואלית היא מיון התמונות – וכדי שזו תהיה יעילה, חשוב לשפר את המגוון של הדוגמאות המשמשות לאימון המודל. "אם מסבירים לבינה המלאכותית מהו כלב רק באמצעות דוגמאות של פודל לבן, כשהיא רואה רוטווילר שחור היא לא תזהה שגם זה כלב", מסביר ש'. "השונות בין המצלמות שלנו גדולה עד כדי כך שלפעמים פינצ'ר יכול להפוך לחתול, מבחינת המודל".

נתוני האימון צריכים גם להיות מאוזנים: אם יש במערכת 900 תמונות של אנשים עומדים ורק 100 תמונות של אנשים במצב זחילה, המודל ילמד לסווג רק דמות זקופה כ"אדם". כדי להתגבר על כך, צריך מספר דומה של דוגמאות מכל סוג. "כשניסינו להלביש מודלים קיימים על הנתונים שלנו, מצאנו בעיה גם בהיבט הזה. בהתחלה המודל לא הצליח לסווג דמות שוכבת בתור 'אדם'", אומר ש'. כיום, אחרי האימון המותאם, המערכת מסוגלת לעשות זאת.

"אם מסבירים לבינה המלאכותית מהו כלב רק באמצעות דוגמאות של פודל לבן, כשהיא רואה רוטווילר שחור היא לא תזהה שגם זה כלב", מסביר ש'. "השונות בין המצלמות שלנו גדולה עד כדי כך שלפעמים פינצ'ר יכול להפוך לחתול, מבחינת המודל"

תהליך האימון התחיל באיסוף קטעי וידאו רלוונטיים, פירוקם למקטעים וסינונם במודלים ראשוניים. "אם יש סיכוי, אפילו קטן, שאדם הופיע בתיעודים הללו – הם נשמרו ועברו הלאה, לשלב הבא", מסביר א'. לאחר הסינון הזה, מודל אוטומטי מיין את התיעוד לאשכולות נפרדים – בני אדם, פרות, כלבים וכן הלאה. את החומר הזה העבירו למתייגים אנושיים, שילמדו את הבינה המלאכותית מה בדיוק היא רואה.

צוות המתייגים, אומר א', הם חיילים על הרצף. "הם מתגייסים בהתנדבות ומגיעים אלינו במסגרת תוכנית 'רואים רחוק', לאחר שעברו קורס הכנה", הוא מסביר. "התיוג הוא עבודה סיזיפית ומייגעת שדורשת דיוק וסבלנות. לרוב האנשים זו משימה בלתי אפשרית. בהתחלה הטלנו את התפקיד הזה על חיילים אחרים, ופשוט קיבלנו תוצאות רעות שפגעו במודל. אבל לחבר'ה על הספקטרום יש יכולת כזאת".

רס"ן ש' מציג לי תמונה קפואה מתוך וידאו שצולם באחת המצלמות ביו"ש, ומבקש ממני למצוא בה דמות של אישה. כל מה שרואים הוא נוף מדברי בשחור-לבן. אני מהמר על אחד הגושים השחורים. ש' מחייך, לוחץ על כפתור, וריבוע אדום עולה סביב גוש שחור אחר

אנשי זיטיוב־AI הם הרכב אקלקטי למדי. על הצד ההנדסי של המודל – החל מזרימת הווידאו מהמצלמות, דרך פירוק התיעוד למקטעים ואחסונם במאגרי המידע, ועד לבניית תשתית המחשוב שהמודלים רצים עליה – אמונים מהנדסים, כולם בעלי תואר שני. בעולם שבו משאבי המחשוב נדירים ויקרים, העבודה ההנדסית של חלוקת עומסים, אופטימיזציה והאצה היא קריטית.

חוליה נוספת בשרשרת היא צוות המחקר – הלב הטכנולוגי של המדור. תפקידם של החוקרים הוא לפתח את "המוח" של המערכת. הם אלה שמלמדים את המחשב איך לזהות אדם, רכב או איום. הם גם פותרים את הבעיות המורכבות שהזכרנו, כמו התמודדות עם טשטוש או תנועת מצלמה. החוקרים הם בוגרי תואר ראשון ושני במדעי המחשב ובבינה מלאכותית. "רק מי שעברו תהליך כזה, עם הכשרה כזאת, יכולים להביא לנו ערך", אומר א', שמוביל את צוות החוקרים, בעצמו דוקטורנט באוניברסיטת בן־גוריון.

עוד כתבות בנושא

במסגרת העבודה הזאת יש גם שיתופי פעולה והתייעצויות עם דוקטורנטים חיצוניים מהאקדמיה. ש' מספר שהמחקר והפיתוח במדור אינם נעולים בו לחלוטין: הדוקטורנטים חותרים לפרסם מחקרים אקדמיים. "מכיוון שמדובר בעולם הביטחוני, העבודה הזאת לא רואה אור בקלות, אבל אנחנו מצליחים לפרסם מאמרים אחרי שהתוכן עובר את הצנזורה והאישורים הרלוונטיים. אנחנו לא מציגים יכולות, רק את המחקר שהוביל להשגתן".

רס"ן א' | דו"צ

רס"ן א' | צילום: דו"צ

לבסוף, יש במדור אנליסטים שתפקידם לבנות לוחות בקרה ודו"חות שעוקבים אחרי התהליכים: כמה שניות וידאו כבר תויגו בידי המתייגים, על אילו סוגי עצמים המודל לא התאמן מספיק, ועוד ועוד. "עם הדשבורדים האלה, החוקרים יודעים לומר שחסרות להם 300 תמונות של אובייקטים קטנים, ושזה ייקח למתייגים ארבעה ימים", מסביר א'. "כך אנחנו יודעים שבעוד ארבעה ימים יסתיים אימון חדש, ויהיו לנו תוצאות. זה משהו שבעולם המחקר האקדמי כמעט לא קיים".

מדברים עם השטח

את תפקיד האנליסטים מאיישים, במפתיע, לוחמים לשעבר, "רובם טנקיסטים – יש לנו שלושה מתוך ארבעה חברי צוות של טנק אחד. עוד אחד, ונוכל להרכיב טנק שלם", ש' צוחק. זה לא במקרה: א' וש' מאמינים שהאנליסט צריך להיות אדם שחווה את השטח, יודע איך הדברים נראים בזמן אמת, ומבין איך הנתונים מיתרגמים למציאות.

ומה הצעד הבא? יש עוד פיתוחים בדרך?

א': "יש לנו יכולות גם בתחום האודיו, שזה ספקטרום אחר לגמרי. תהליכי הפיתוח מתקדמים, ובקרוב ניכנס גם למקומות הללו". המטרה היא לעבד שמע באמצעות בינה מלאכותית – זיהוי דיבור, תרגום, חיפוש לפי מילות מפתח ועוד.

מעבר לזיהוי בזמן אמת, המערכת מאפשרת גם חיפוש חכם בזיטיוב. "נניח שצולם רכב כלשהו במהלך אירוע מסוים", מסביר ש'. "אתה יכול להעלות את התמונה ולמצוא איפה המצלמות שלנו ראו כבר את הרכב הזה. זה מסודר כמו תוצאות בגוגל – התוצאה שאנחנו חושבים שהכי קרובה מופיעה ראשונה. יש לנו שורת חיפוש, ושם אנחנו יכולים לכתוב 'מכונית אדומה', והמערכת תקפיץ תמונות של מכוניות אדומות בטווח החיפוש".

רס"ן א': "תיוג הוא עבודה סיזיפית ומייגעת שדורשת דיוק וסבלנות. לרוב האנשים זאת משימה בלתי אפשרית. בהתחלה קיבלנו תוצאות רעות שפגעו במודל, אבל לחבר'ה על הספקטרום יש יכולת לעשות זאת"

לדברי ש', היכולות הללו סייעו בניתוח מסמכי שלל שנתפסו בעזה: "אם יש מסמך עם תמונה של מקום כלשהו, ואתה רוצה לדעת איפה זה צולם - אתה מעלה את התמונה ומקבל את התשובה. זה מיצוי של מאגרי המידע העצומים שנאספים כל הזמן".

למערכת יש גם יכולת לזהות פנים?

"לא, אבל היא עשויה לאתר אדם לפי מאפיינים חיצוניים אחרים".

זיטיוב־AI לא נועדה להחליף את החייל בקצה, אומר ש', אלא להקל עליו. "היא באה לתת תמיכה. יושב חמ"ליסט, וגם אם הוא לא מסתכל במצלמה מסוימת, פתאום קופצת לו התרעה במערכת: יש כאן בן אדם". היכולת הזו מאפשרת ריבוי משימות: במקום לעקוב בו־זמנית אחרי עשרות מסכים, המפעיל יכול להסתמך על המערכת שתתריע כשיש משהו חשוב. "המטרה היא לספק לכל המפעילים יכולות נוספות, וגם לסייע להם לאתר דברים שלא רואים במצלמה רגילה", אומר א'.

זיטיוב־AI מצויה כיום בתהליכי הטמעה מתקדמים, ובכמה יחידות היא כבר הוכנסה לשימוש מבצעי. וככל מערכת בינה מלאכותית, גם היא משתפרת עם הזמן, ככל שמוזן לה עוד מידע ונעשים בה תיקונים ודיוקים. אם משתמש מדווח למשל שצילום של אדם זוחל לא זוהה במערכת, הצוות מתייג את המקרה הזה, ובאימון הבא המודל ידע לזהות זחילה טוב יותר. "חייל שמשתמש במערכת יכול לסמן 'כן' או 'לא' על כל זיהוי שהוא מקבל", אומר ש'. "כשמגיע 'לא' אנחנו מתייגים את זה מיד, ואז המודל לומד גם מהטעויות".

לתגובות: dyokan@makorrishon.co.il

עוד כתבות בנושא