בדיקת אמינות

חוקרים בטכניון פיתחו גישה חדשנית לזיהוי מגבלות  ו"הזיות" במודלי בינה מלאכותית

מודלי שפה גדולים הם כלי חדשני המחולל מהפכה במגוון מטלות ובהן תרגום, הבנת טקסטים וכתיבת קוד. אולם במודלים האלה יש גם נקודות שאפשר לשפר : הטיות (biases), התעלמות מהנחיות ו”הזיות” (LLM Hallucination) שפירושן הפקה של מידע לא מדויק. זה אחד האתגרים המרכזיים שעימם מתמודדת קבוצת המחקר של ד”ר חגי מרון מהפקולטה להנדסת חשמל ומחשבים ע”ש אנדרו וארנה ויטרבי בטכניון, בשיתוף עם חוקרים מאוניברסיטאות נוספות וחברת אנבידיה. לאחרונה התקבלו שלושה מאמרים של הקבוצה לכנסים היוקרתיים ביותר בתחום הלמידה החישובית: ICLR 2026 , NeurIPS 2025 ו־AAAI 2026. את המאמרים הובילו הדוקטורנט גיא בר-שלום (בהנחיה משותפת עם פרופ׳ רן אל-יניב) והפוסט-דוקטורנט ד”ר פבריציו פרסקה, בשיתוף עם ד”ר יפתח זיסר (אוניברסיטת כרונינגן ואנבידיה).

מימין לשמאל: ד"ר פבריציו פרסקה, ד"ר חגי מרון וגיא בר שלום

מימין לשמאל: ד”ר פבריציו פרסקה, ד”ר חגי מרון וגיא בר שלוםהגישה של ד”ר מרון וחברי קבוצת המחקר שלו מציגה כיוון מחקרי חדש לזיהוי תקלות וכשלים בטקסט שנוצר על ידי מודלי שפה גדולים: במקום לנסות להבין לעומק ובאופן מלא כיצד המודל פועל בכל רמה, מה עוד רחוק מהישג יד של הקהילה המחקרית, המחברים מציעים גישה פרגמטית, זולה ומהירה יותר המבוססת על בניה והפעלה מערכות למידת מכונה חדשות על החישובים הפנימיים שמייצרים המודלים, בצורה המשתמשת במבנה הפנימי המורכב של החישובים הללו.  המטרה היא שמערכות למידה אלו יוכלו למצוא ולהשתמש במידע החבוי שנמצא בחישובים הללו אפילו אם אנחנו לא מבינים אותו. ההישג המרכזי הוא הדגמה של האפשרות לבצע ניטור ואבחון של סיכונים באופן “חיצוני” וזול. גישה זו מאפשרת למשתמש לבקר את המודל, לנבא ולשלוט בהתנהגותו גם ללא הבנה מלאה של המנגנון כולו.

המחקר מתמודד עם אחד האתגרים הקריטיים של עידן ה-AI: כיצד לזהות מתי מודל שפה גדול טועה, ממציא מידע או חורג מהתנהגות המצופה ממנו. השיטות שפותחו בטכניון מספקות, כאמור, אבחון מהיר ויעיל שאינו תלוי בהבנה של המנגנון כולו או את תהליך האימון של המודל.

הגישה החדשה פותחת אפשרויות יישומיות רחבות: פיתוח מערכות התרעה, בדיקות איכות ותקני בטיחות למודלי שפה המשמשים ברפואה, מחקר, חינוך, רגולציה ועוד. זהו צעד משמעותי בדרך להטמעה אחראית של בינה מלאכותית במערכות קריטיות ובהפיכתם של כלי AI לאמצעים אמינים יותר. סדרת העבודות הזו מהווה חלק מתכנית מחקר רחבה במעבדה של ד”ר מרון, שבה הקבוצה חוקרת איך אפשר ללמוד תבניות מסוגי דאטה חדשים שאפשר לחלץ מתוך מודלים מאומנים כמו המשקולות שלהם ואותות המשמשים לאימון.

להרחבה ולקריאה נוספת לחצו כאן