מנגנון חדשני שפיתח סטודנט יאפשר זיהוי נימת דיבור בטקסט

עידן סייג. צילום: שיצו צלמים, שירותי צילום.
עידן סייג. צילום: שיצו צלמים, שירותי צילום.

הסטודנט עדן סייג מהטכניון פיתח מנגנון לזיהוי נימת דיבור בהודעות טקסטואליות באמצעות ניתוח התוכן של קבוצות פופולאריות בפייסבוק.

כולנו מכירים את המגבלה הזו בהודעות טקסטואליות: ביטוי רגשי, אירוניה ו’טון דיבור’ מתפספסים לעתים קרובות בהודעות טקסט ודואר אלקטרוני, והדבר גורם תכופות לקצר בתקשורת.

הסיבה לכך היא שבשפה המדוברת יש לנימת הדיבור תפקיד נכבד בהעברת המסר: הנימה מסמנת לנו התנשאות ונחמדות, החלטיות, פקפוק וכיו”ב. זו גם הסיבה שרבים מאיתנו מוסיפים אימוג’ים וסמיילים נוספים בהודעות – כדי לתאר את הרגש שבו נכתבה ההודעה. עם זאת, ברור שסמלים כאלה הם לכל היותר רמז שטחי ולְעולם לא רגש מורכב כמו בחיים האמיתיים.

זה היה הרקע לפרויקט של עדן סייג, סטודנט בפקולטה למדעי המחשב בטכניון שזכה בתחרות הפרויקט המצטיין של אמדוקס. במסגרת הקורס ‘פרויקט בבינה מלאכותית’, בהנחיית פרופסור שאול מרקוביץ’, פיתח סייג מערכת לומדת המזהה את הנימה הרגשית המובעת בטקסט על סמך זיהוי של תבניות חוזרות.

תבניות חוזרות אלה נלמדות באופן אוטומטי על ידי המערכת באמצעות ניתוח התוכן של קבוצות פופולריות ברשת החברתית וניתוח האינטראקציה החברתית סביבן. המערכת מזהה את מילות המפתח ואת הרגלי הדקדוק האופייניים למשפטים, וכך מצליחה לזהות את נימת הדיבור המשתמעת מהם.

“בקיץ 2013,” אומר סייג, “נפתחו ברשתות החברתיות עמודים הומוריסטיים המיועדים לקבוצות מוגדרות, למשל ‘אנשים עילאיים ומתנשאים’ ו’אנשים בינוניים וסבירים’, עם עשרות אלפי עוקבים כל אחד. במהלך העבודה על הפרויקט הבנתי שאפשר להשתמש בתוכן העמודים האלה כבסיסי נתונים הומוגניים הנמצאים בלב הקונצנזוס, ובעזרתם ללמד את המערכת לזהות נימה מתנשאת בטקסט או לחלופין נימה עממית. במהלך הפרויקט נבחנו 5000 פוסטים שנכתבו בעמודים אלה ברשת ובניתוח סטטיסטי למדה המערכת לזהות מבנה טקסט המזוהה כמתנשא או לחלופין כטקסט בינוני.”

“השיטה שפיתחתי בהתבסס על העמודים האלו ברשת,” מסביר סייג, “תאפשר למערכת לזהות בעתיד דפוס של תבניות חוזרות בהתבסס על כל מאגר נתון ברשת. נכון להיום היא יודעת לזהות תבנית המאופיינת כמתנשאת או כסבירה, אך הרצתה על עמודי רשת פופולאריים אחרים תוכל לסייע בזיהוי טקסטים המבטאים למשל נטייה לאובדנות, קריאה לעזרה או לחלופין התפעלות והנאה.”

מחקר מעמיק ובדיקות רבות לימדו את סייג כי הדיוק הגדול ביותר מתקבל כאשר משלבים חיפוש מילות מפתח עם ניתוח מבנים דקדוקיים, ומשתפר מאוד כאשר מנצלים את חוכמת ההמונים (למשל ע”י התחשבות בכמות הלייקים שהטקסט קיבל).

לדבריו, השיטה שפיתח בפרויקט תאפשר לו בעתיד לזהות במהירות דפוסים חוזרים ו’נימת דיבור’ בשילובי טקסט חדשים. “אני מקווה שבעתיד אצליח לפתח מנגנון שישקף לכותב את האופן שבו צפויים דבריו להתפרש על ידי הקורא, וכך יסייע לאנשים להביע את עצמם בצורה טובה יותר ולחסוך מקרים של אי-הבנה.”