חוקרים מהטכניון סייעו בשדרוג מנוע חיפוש של יד ושם

 

ד"ר בתיה קניג

ד"ר בתיה קניג

"יד ושם"  השיקה גרסה מחודשת של מנוע החיפוש בארכיב קורבנות השואה, תוך שימוש באלגוריתם שפותח בטכניון ובמעבדות HEWLETT-PACKARD. האלגוריתם יאפשר איתור של רשומות לא רק על פי הקורבן הבודד אלא גם ברמה של משפחה גרעינית, משפחה מורחבת, קהילה וכו'. כל זאת על פי דרישות החיפוש. יתר על כן, האלגוריתם יצמצם משמעותית את הכפילויות הרבות שהתקיימו במאגר.

מאגר המידע על קורבנות השואה (http://bit.ly/1Of81rG) מבוסס במידה רבה על דיווחי ניצולים, שתועדו בשנות החמישים ואילך באופן ידני ואחר כך במחשב. אחת הבעיות במאגר היא דיווחים כפולים, כלומר כמה דיווחים שונים על אותו אדם. לתופעה זו סיבות רבות ובהן שימוש בשפות שונות (עברית, גרמנית, פולנית ועוד), רמות שונות של זיהוי גיאוגרפי (שם כפר לעומת שם מחוז), טעויות בתאריכי לידה ומידע מעורפל לגבי גורלם של קורבנות שואה. בתהליך זה העדיפו אנשי "יד ושם" את האפשרות של כפילות על חוסר, כלומר על העדרו של קורבן מן המאגר.

כתוצאה מכל אלה נוצרה רמת כפילויות גבוהה; על פי ההערכות, כ-40% מבין 8 מיליון הרשומות שבמאגר הן כפילויות. מטרת הפרויקט הנוכחי היתה לצמצם את הכפילויות בלי ליצור חוסר. האמצעי: שימוש באלגוריתם מתקדם בתחום של הפרדת ישויות Entity Resolution) ) לצורך זיהוי רשומות שונות המתייחסות לאותו אדם. האלגוריתם, הנקרא MFIBlocks, פותח על ידי בתיה קניג בהיותה דוקטורנטית בקבוצת המחקר של פרופ' אביגדור גל מהפקולטה לתעשייה וניהול בטכניון. בניגוד לאלגוריתמים אחרים, שבהם נקבע מַפתח-הזיהוי של היישות על ידי מומחים או תוך שימוש בלמידה ממוחשבת, כאן הוא נגזר מהנתונים עצמם, כלומר אינו נקבע מראש.

את המחקר הנוכחי הוביל מטעם HEWLETT-PACKARD  ד"ר תומר שגיא, בוגר הטכניון (תואר ראשון ומסלול ישיר לדוקטורט), העובד כיום כחוקר במעבדת המחקר של HEWLETT-PACKARD  הממוקמת בקמפוס הטכניון. ד"ר שגיא התאים את האלגוריתם למנוע החיפוש של השואה יד ושם, והתוצאה: שפע של מידע לגבי רשומות כפולות במאגר, לרבות זיהוי במקרים שבהם מומחי הארכיב של יד ושם לא זיהו את הכפילות. ראוי לציין כי הפרויקט נעשה על ידי HEWLETT-PACKARD  עבור יד ושם ללא תמורה כספית.

מאמר המתאר את האלגוריתם פורסם בעיתון מוביל בתחום של ניהול מידע בשנת 2013 ומשמש עד היום כבסיס למחקרי המשך ולשיתופי פעולה עם התעשייה בפרויקט מגנ"ט. קניג, שסיימה את הדוקטורט, נמצאת כיום בפוסט-דוקטורט בקבוצת המחקר של פרופ' בני קימלפלד (הפקולטה למדעי המחשב בטכניון).

מאמר המתאר את הפיתוח החדש עבור יד ושם יוצג בסוף חודש יוני בSIGMOD- – הכנס המחקרי המוביל בתחום ניהול מידע (http://sigmod2016.org/).

פרופ' אביגדור גל

פרופ' אביגדור גל

ד"ר תומר שגיא (מימין) ופרופ' אביגדור גל

ד"ר תומר שגיא (מימין) ופרופ' אביגדור גל