.jpg)
בשורה רעה למפרי הסדר
מחקר של ד"ר טל הסנר
שוו בנפשכם אצטדיון כדורגל ענקי. 20 אלף אוהדים משתי הקבוצות היריבות משתוללים, קופצים, צועקים ומניפים דגלים. מסביב פזורות מצלמות אבטחה, ובחדר הבקרה יושב בחור צעיר ומתבונן בעת ובעונה אחת בשישה צגי מחשב. כעבור שעה הוא כבר עייף מבליל הפרצופים, ועדיין מבטו הלאה עובר ממסך למסך, מחפש מוקד של התפרעות. הכול כבר נראה לו אותו דבר, וממילא — זה משחק רגוע, לא?
אז זהו, שלא. דווקא אז, כשערנותו של המאבטח צונחת מתחת לאפס, מתחילה מהומה ביציע ג, אגף 5, שורות 43-42. אלא שבתנאים אלו יחלפו 5 דקות תמימות עד שיבחין בהתרחשות ויזעיק עזרה. 5 דקות שבהן, אולי, אפשר היה להציל חיים.
עבור ד"ר טל הסנר, מומחה לראייה ממוחשבת במחלקה למדעי המחשב באו"פ, 5 הדקות הקריטיות האלה היוו אתגר. יחד עם הסטודנטים יוסי איצ'ר ואורית קליפר־גרוס יצא לחפש אלגוריתם ממוחשב שינסה לצמצם את הפער הקריטי הזה בין התפרצות אירוע אלים בהמון לבין יכולת התגובה האנושית שתביא להשתלטות עליו. "באמצעות יישום מסחרי של טכנולוגיה זאת ייתכן שמצלמות האבטחה יוכלו לזהות התפרצות של אירוע אלים כזה הרבה יותר מהר, לסמן את נקודת הרתיחה ולהתריע. כמה מהר? תוך 4 שניות. 4 שניות עד שהמאבטח המותש שמתבונן באימג' מטושטש ואילם המחולק לשישה מסכים יקבל צפצוף שיעיד כי במסך מספר 3 זוהתה תנועה חשודה המאפיינת אירוע אלים.
לתת למחשב עיניים
ד"ר הסנר עובד על כמה מחקרים במקביל ולמזלו רוב מחקריו עוסקים בנושאים אשר מתחברים בקלות לחיי היומיום. כבר שנים שהוא חוקר ומפתח את תחום ה"ראייה הממוחשבת" — היכולות של מחשבים "להתבונן" בסרטי וידאו ולהבין מה הם רואים. "המטרה היא לאפשר למחשב לחפש בסרט או בסרטון יו־טיוב תוכן שאינו מוגדר מילולית בהגדרות הסרט. נניח שאני רוצה למצוא סרטים שמראים כיצד לקצוץ עגבנייה. בשיטות החיפוש הקיימות כיום אני צריך להקיש את המילים 'קיצוץ' ו'עגבנייה'. אבל אם הגורם שהעלה את הסרט לא טרח לפרט מה מופיע בו — אין סיכוי שהמחשב יֵדע לזהות את התוכן הזה, מחוץ להקשר שהוא קיבל ממי שהעלה את הסרט או יצר אותו. לכן אני צריך אלגוריתם שיחפש פריימים של קיצוץ עגבנייה. אני רוצה שהמחשב יהיה מסוגל להבין מה הוא רואה בסרטים, ויהיה מסוגל לחלץ משמעות מתוך סרט על פי בקשה. זאת המטרייה הרחבה שלי".
אל המחקר על אלימות בהמון — Violent Flows: Real Time Ditection of Violent Crows Behavior - הגיע ד"ר הסנר כתוצאה מסקרנות. "התבוננתי כצופה מהצד. אני לא עובד בשביל התעשייה ולא בהכרח חשוב לי לשרת אותה — אבל אני כן מתבונן בבעיות שמטרידות אותה. נושא זיהוי אלימות נראה לי מסקרן ומאתגר מאוד. תחשוב על כך שכל הפרויקטים של 'ערים ללא אלימות' כרוכים בעלויות הקמה גבוהות מאוד של מערכות הכוללות אינספור מצלמות. חשבתי לעצמי 'אוקיי. אבל מישהו צריך לצפות בכל המצלמות האלה, לעבור על כל החומר'. יש גבול לכמה כוח אדם אפשר להעסיק בצפייה בסרטים, ויש גם גבול לכמות המסכים שאדם אחד יכול להסתכל בהם בו בזמן. יש מאמרים המעמידים את הצפייה הסימולטנית במסכים בסימן שאלה, כי זה מצריך כושר ריכוז עצום, ומתחיל לשעמם מהר מאוד. ונניח שאדם יצא לרגע לשירותים או להכין כוס קפה, ובדיוק בדקה הזאת מישהו נרצח? בקיצור, זה לא פתרון מספק".
ד"ר הסנר והסטודנטים שלו חיפשו דרך שבה יוכלו "לתת סימנים" במיליוני הפריימים שאוספות מצלמות האבטחה. "מבחינה מדעית מה שעשינו הוא זיהוי של Low Level Features בפיקסלים של סרטים באיכות נמוכה — איכות המדמה מצלמות אבטחה. התבוננו בסרטים רבים כאלה וניסינו לאתר אילו סטטיסטיקות של שינויי תנועה בפריימים מעידות על היווצרותה של אלימות. קשה להסביר למה הכוונה בשפת ההדיוטות, אבל באופן כללי מדובר בשינויים מקומיים בגוונים ובצבעים של הפיקסלים. הפעלנו שורת חישובים על השינויים האלה וכך ביססנו את המדד לשינוי בתמונה, המעיד כי פעילות אלימה נמצאת בראשיתה".
זה נשמע מתמטי מאוד. מה בעצם משתנה בתמונה שיכול להעיד שמישהו סוטר למישהו או דוחף אותו. אתם יכולים להצביע על שינויים קונקרטיים כאלה?
"לצערי לא. מדובר בשינויים נקודתיים זעירים, שרק צירוף של רבים מהם יכול להעיד על פעולה אלימה. לכן זהו אלגוריתם מתמטי והוא לא יחול על כל המקרים. האלגוריתם שלנו יזהה, למשל, היווצרות של 'פטריית' קהל המתפתחת סביב קטטה. אך אין לנו שום דרך לזהות סכין הננעצת בגבו של מישהו בקרב קהל המוני אם לא יהיה שינוי בסביבתו שיעיד על כך".
ד"ר הסנר מקרין עבורי סרט של התקהלות חברתית בשולי אצטדיון. הגברים בקהל (המצולם מרחוק) "מחליקים כאפות זה עם זה", מלהגים, ואפילו מתחבקים. ברקע מוצג גרף וקו אדום משורטט במרכזו. הקו הכחול, הנע מעלה־מטה כמו בתרשים א.ק.ג, מייצג את ניתוח הפיקסלים של התמונה. רוב הזמן הוא מרחף מתחתיו, מעיד שאין פעילות חריגה. אך מרגע שמתחילה הקטטה הקטנה ביותר — קו הפיקסלים חוצה את הקו האדום ומתריע.
מפיק הנאה מההישג בבסיס המחקר הזה, כמו מרבית המחקרים של הראייה הוויזואלית, עמדו שלושה מניעים. "המניע הראשון שלי היה מסחרי: יש מצלמות מעקב שמייצרות כמות עצומה של מידע ויזואלי שעם רובה לא נצליח להתמודד, ולכן יש שורת
הזדמנויות ארוכה לחבר את המדע לעולם המעשי. המניע השני הוא להבין את העולם שסביבנו. בתפיסה הוויזואלית המודרנית המוח הוא כלי שמנתח ראייה. ברוב המקרים אנחנו אפילו לא שמים לב כיצד המוח מחשב את המרחק של היד שלך אל השולחן ודואג שתניח את המפתחות בדיוק במקום הנכון. אם אנו רוצים לתקשר עם העולם באופן ויזואלי, באמצעות מחשב, אנחנו צריכים לפתח אמצעי ראייה ויזואלית נוספים, דוגמת ה'אייווקס' (מערכת התרעה ברכב) או כמו השיטה שפיתחנו לזיהוי אלימות בהמון".
המניע השלישי של ד"ר הסנר היה פילוסופי — "אני כל הזמן מנסה להבין כיצד המוח עובד, ולכן אני מייצר מערכות שמנסות להתמודד עם הקשיים שעומדים בפניו בבואו לנתח מציאות. כך אני מתחבר אליו טוב יותר".
מבחינה מעשית עלולה להתעורר כאן בעיה אתית שתקשה ליישם את התוכנית בפועל. הרי בעצם אתה מקל על עובדי האבטחה. מעבידיהם עלולים להיות מוטרדים מכך שהם ינמנמו וימתינו לאזעקות במקום לצפות בערנות במסכים.
"אני מסכים עם הטיעון האתי הזה, בעיניי הוא נכון. זו גם הסיבה שרופאים רבים אינם רוצים להסתמך על מערכות רפואיות שיסייעו בידם לקבל את ההחלטה שלשמה עברו הכשרה ממושכת. הבעיה היא שבסוף, בגלל התנגדותם למערכות ממוחשבות, הם נועצים בגוגל כשהם מבקשים לקבל החלטה מושכלת איזה טיפול לתת. בכנות — אני לא עסקתי בסוגיה האתית הזאת, שבהחלט עלולה להעסיק את תעשיית הביטחון. זאת שאלה שמי שייקח את האלגוריתם שלי הלאה, וינסה לתרגם אותו לשימוש אפקטיבי, יצטרך לשאול את עצמו. בינתיים אני מפיק הנאה מעצם ההישג המדעי".