הממד השלישי

טכנולוגיה שפותחה בפקולטה למדעי המחשב ממירה תמונות לדגמים תלת-ממדיים

פרופ’ רון קימל

פרופ’ רון קימל

צילומי דיוקן, או בשמם הנפוץ תמונות פרופיל, הם תופעה נפוצה ומוכרת. אם בעבר נדרש לאדם סכום הגון כדי שצייר נודע יטרח לציירו, הרי שהמצאת הצילום הפכה את הדיוקן ללהיט פופולרי. הוזלת עלויות הצילום, התפתחות הצילום הדיגיטלי והמצאת הסלפי העניקו דחיפה נוספת לדמוקרטיזציה של צילום הדיוקן, וכיום מעטים הצעירים שאינם מצלמים את פניהם כמה פעמים ביום.

מבחינה רעיונית, צילום פנים הוא פעולה פשוטה: תרגום המבנה התלת-ממדי של הפרצוף לתמונה שטוחה, או דו-ממדית. בפעולה זו אנו מחסירים חלק מהמידע שלפנינו – המידע הקשור בממד השלישי, הוא העומק.

אתגר קשה הרבה יותר הוא הפעולה ההפוכה: שחזור המבנה התלת-ממדי של הפרצוף מתוך תמונה שטוחה. קשה, משום שכאן אנו נדרשים להפיק מידע שאינו נמצא ברשותנו – המידע הקשור בממד העומק. אם צילום דומה לתלישה של דף מתוך ספר, הרי שהשחזור דומה להפקה של הספר המקורי על סמך דף בודד.

המשימה המורכבת הזאת מעסיקה כבר שנים רבות את החוקרים במעבדה לעיבוד תמונה (GIP), בראשותו של פרופ’ רון קימל מהפקולטה למדעי המחשב בטכניון. פרופ’ קימל השלים את שלושת תאריו בטכניון, המשיך לפוסט־דוקטורט באוניברסיטת ברקלי ושימש פרופסור אורח באוניברסיטת סטנפורד. מאז הצטרפותו לסגל הטכניון הוא הוביל מחקרים רבים בתחום של עיבוד תמונה, ובין השאר פיתח טכנולוגיה להתאמה אישית של מסכות אינהלציה לתינוקות (בשיתוף פרופ’ ישראל עמירב) ומערכת המבחינה בין תאומים זהים (עבודה של התאומים אלכס ומיכאל ברונשטיין, הראשון כיום הוא פרופסור בטכניון והשני פרופסור באוניברסיטת תל אביב ובאוניברסיטת לוגנו בשוויץ), והיה שותף בהקמתן של כמה חברות הזנק מצליחות.

בהנחייתו של פרופ’ קימל פיתחו הסטודנטים אלעד ריכרדסון ומתן סלע טכנולוגיה חדשנית לשחזור מבנה תלת-ממדי של פרצוף מתוך צילום דיוקן. טכנולוגיה זו מאפשרת שחזור של מבנה הפנים על סמך תמונות סלפי, מתוך תמונות מהאינטרנט למשל. בשורה התחתונה הם הצליחו במשימה, ולהצלחה זו יישומים פוטנציאליים רבים ובהם אנימציה על סמך צילום פרצוף, מניפולציה על דגם ממוחשב של שחקן (אווטאר), תכנון של ניתוח פלסטי והדפסת איברים להשתלה.

בתמונה: אלעד ריכרדסון ומתן סלע

בתמונה: אלעד ריכרדסון ומתן סלע

הפתרון שפיתחו החוקרים מבוסס על למידה עמוקה (deep learning) – גישה שהובילה בשנים האחרונות לפריצה של משוכות טכנולוגיות שנחשבו עד לאחרונה ללא עבירות. בבסיס הגישה מונח הרעיון שבמקום ללמד את המחשב כללים וחוקים, המחשב ילמד בעצמו את ההכללות מתוך מאגר עצום של דוגמאות – ממש כפי שתינוק אנושי לומד. גם התשתית החומרית של הלמידה העמוקה – רשתות נוירונים רבודות – דומה מאוד לתשתית החומרית של המחשבה האנושית: המוח. וכמו המוח, מערכת זו אינה מוגבלת למה שלמדה עד שלב נתון; היא יכולה להמשיך ללמוד, להשתפר ולתקן טעויות ללא הרף וכך להשתכלל ולהתייעל. יתר על כן, ככל שהיא פעילה יותר כך היא משתפרת במהירות רבה יותר.

הלמידה העמוקה צמחה לפני כשבע שנים לאחר קיפאון מחקרי ממושך שזכה לכינוי “החורף של הבינה המלאכותית”. קיפאון זה השתרר בשנות ה-70 לאחר שורה של כישלונות ביישום רעיונות מהפכניים בתחום הלמידה החישובית (machine learning). ההתעוררות שאירעה בעשור האחרון נבעה מכמה הצלחות דרמטיות במימוש של בינה מלאכותית, בעיקר בהקשר של למידה עמוקה. בתהליך זה נרשמו הישגים חסרי תקדים

במגוון תחומים ובהם תרגום אוטומטי, משחקי מחשב, ניטור רגשות, ניתוח דיבור טבעי וקבלת החלטות מבוססת ניסיון.

סלע, ריכרדסון ופרופ’ קימל אינם הראשונים שהתמודדו עם אתגר התרגום של תמונות לתלת-ממד, אולם הטכנולוגיה שפיתחו עולה על קודמותיה בהיבטים רבים. אחת מפריצות הדרך בתחום זה נזקפת לזכותם של וטר ובלנץ (V. Blanz, T. Vetter), שדיווחו כבר ב-1999 על הצלחה בשחזור פרצוף על סמך מאתיים דוגמאות שהוזנו למערכת. אולם הטכנולוגיות הקודמות התבססו על ניתוח “הפרצוף הממוצע” ועל מיפוי נקודות קריטיות כגון זווית העין וקצה האף. החיסרון העיקרי: שחזור תבניתי המחמיץ את השונות העצומה בין פרצופים אנושיים. הרדוקציה למבנה הממוצע משטחת את אותה שונות ומחמיצה פרטים ייחודיים והבעות לא רגילות, והתוצאה היא שחזור גאומטרי גס שאינו משחזר תווי פנים ייחודיים כגון לחיים תפוחות, קמטים במצח וא-סימטריה של האף.

המערכת שפותחה בטכניון, לעומת זאת, לומדת את כל הניואנסים האלה, ואת האימון האוטומטי שלה משלימים מודלים גאומטריים ומודלים של יחסי חומר-אור (נוסחת למברט). התוצאה: עידון ודיוק של תווי הפנים בדגם המיוצר. ראוי לציין שאם בשלב קודם השחזור נעשה בשני שלבים – יצירת דגם גס ולאחר מכן שיפור תווי הפנים – הרי שכיום הכל מבוצע בתהליך אחד.

אפשר להקביל את הטכנולוגיה הזאת לתחום הספורט.כדורגלן המתאמן במשך שנים על תגובות למגוון עצום של סיטואציות במגרש ידע להגיב היטב לכל מצב. גם המערכת שפיתחו חוקרי הטכניון מתאמנת על המון דוגמאות (תמונות דו-ממדיות) ולומדת לתרגם אותן לתגובות (דגם תלת-ממדי). רק שכאן מדובר בתהליך מהיר הרבה יותר, המאפשר למערכת להגיע במהירות לניואנסים עדינים ומדויקים מאוד של מאפיינים ושל הבעה (expressiveness). ההתבססות על מיליוני דוגמאות מטעינה את המערכת במגוון עצום של פרצופים ייחודיים וכך מאפשרת לה לפענח ולשחזר כל פרצוף וכל הבעה, גם כשהתמונה אינה חזיתית.

סלע, בעל תואר ראשון ושני מהפקולטה להנדסת חשמל בטכניון, בהצטיינות אחראי להיבטים הגאומטריים במחקר, שאותו הציג לאחרונה בכנס בהונולולו. כיום, במסגרת הדוקטורט, הוא עובד בין השאר על שיפור המערכת. ריכרדסון, שתרם למחקר את הצד של למידה עמוקה, סיים לאחרונה את התואר השני במסגרת העתודה האקדמית (תוכנית פסגות). רועי אור-אל, שמחקריו במסגרת התואר השני במעבדה תרמו רבות לפיתוח המערכת, עובד כיום על הדוקטורט שלו באוניברסיטת וושינגטון.