תקציר
הבינה המלאכותית מעצבת מחדש את תחום החינוך, הן ככלי בידי התלמידים והן כאמצעי להערכה וניתוח תשובותיהם. בהרצאה זו נדון בשני יישומים מרכזיים: שימוש במודלי שפה גדולים (LLMs) לצורכי הערכה ומשוב מותאם אישית בתשובות פתוחות של תלמידים, והיישום של שיטות הערכה, בפרט תיאוריית התגובה לפריט (IRT) לזיהוי שימוש התלמידים במודלים אלו במתן מענה בשאלות רב-ברירה (MCQs).
כאשר LLMs משמשים לניתוח תשובות ולמתן משוב לתלמידים, מתגלה הטיה ביכולתם להבחין בין סוגי טעויות בתשובות שגויות. בעוד שמודלי השפה מצליחים לזהות תשובות נכונות בצורה סבירה, הם מתקשים להבדיל בין פרופילי ידע שונים בתשובות הלא נכונות, הנוטות להיות שונות זו מזו יותר מאשר התשובות הנכונות. קראנו לתופעה זו ״אנה קרנינה של השאלות הפתוחות״, באנלוגיה למשפט הפתיחה המפורסם: "כל המשפחות המאושרות דומות זו לזו, אך המשפחות האומללות - אומללות כל אחת בדרכה". מגבלה זו עלולה להשפיע על הדיוק וההוגנות של מערכות הערכה ממוחשבות, ויש להתייחס להטיה זו במהלך פיתוחן.
מהצד האחר – האם ניתן לזהות שימוש של תלמידים במודלי שפה כדי לענות על שאלות? ובפרט – האם תיאוריות למידה יכולות לסייע בכך? ההנחה שלנו היא שבינה מלאכותית ואנושית יציגו דפוסי תגובה שונים לסדרות של פריטי הערכה MCQ, כיוון שהבינה המלאכותית מושפעת בצורה שונה מלומדים אנושיים בממדים שונים של הבעיות שמציגים הפריטים. לכן, מענה הבינה המלאכותית למבחן ייראה כסטיות מהדפוסים הצפויים של תגובות אנושיות. כדי למדל את הסטיות האלו אנו משתמשים בכלים פסיכומטריים מתחום ה-Item Response Theory שהוכחו כיעילים לזיהוי הונאות, ומראים שכלים אלו יכולים אכן להבחין בין רצפים של מענים אנושיים לרצפים של מענים שהופקו על ידי גרסאות הפרמיום של שלושת מודלי השפה המובילים – קלוד, ג'מיני ו-ChatGPT 4.