Chais_2026

8 ע מיהו המעריך המדויק ביותר? הלימה בין ציוני ChatGPT ועמיתים לבין ציוני המרצה בו הם מעניקים ציונים לפרויקטים באיכויות שונות. ChatGPT העניק ציונים גבוהים יותר באופן עקבי בהשוואה לעמיתים ולמרצה – תופעה המלמדת על נטייה להערכת־יתר ) grade inflation (. ממצא זה מאשש עדויות קודמות בנוגע לנטיית ChatGPT להערכה מקלה ) Flodén, 2025; Usher, 2025 (, אך מנוגד למחקרים אחרים ש דיווחו על הלימה גבוהה בין GenAI לבני אדם ) Lu et al., 2024; Morris et al., 2024 (. המתאם המתון בלבד בין ציוני ChatGPT לציוני המרצה עשוי להעיד על היגיון הערכתי שונה – כזה המדגיש עמידה ביעדים טכני ים על פני שיפוט איכותי רגיש או בעל הקשר. מ מצא זה תואם מחקרים המצביעים על מגבלות GenAI בזיהוי ניואנסים דיסציפלינריים ובהבנה הקשרית ) Morris et al., 2024; Usher, 2025; Venter et al., 2024 .( מנגד, המתאם הבינוני והמובהק שנמצא בין ציוני העמיתים לציוני המרצה ייתכן ומשקף הבנה אנושית משותפת של אמות מידה איכותיות, גם אם קיימים הבדלים ברמת המומחיות. הערכת העמיתים נמצאה קרובה יותר לזו של המרצה, ממצא הנתמך על ידי מחקרים קודמים שהצביעו על הערכות עמיתים ככאלו העשויות להשתוות במצבים מסוימים להערכות מומחה ) Double et al., 2020; Li et al., 2019; Usher, 2025 .( ממצא מרכזי נוסף קשור ל הבחנה בין רמות שונות של איכות הפרויקט המוערך. נמצא כי ככל שאיכות הפרויקט עלתה, כך השתפרה ההלימה בין ציוני ChatGPT לציוני המרצה – כאשר הפער הגדול ביותר נרשם עבור פרויקטים חלשים. למעשה, לא נמצא קשר מובהק בין ציוני ChatGPT לציוני המרצה עבור פרויקטים ברמה נמוכה או בינונית, בעוד שנמצא קשר חיובי יחסית חזק עבור הפרויקטים שהיו מלכתחילה באיכות גבוהה. דפוס זה משקף ממצאים ממחקר קודם ע ל פיו ביצועי GenAI הם הנמוכים ביותר בעת הערכת תוצרים של קבוצות חלשות ) Gorgun & Yildirim‐Erbasli, 2024; Gurin et al., 2025 (. ייתכן שפער זה משקף קושי לזהות ליקויים מהותיים ונקודות לשיפור בעבודות חלשות, או מרמז שאיתורם אינו בהכרח מתורגם לכדי הערכה מדויקת. לעומת זאת, ההלימה הבינונית עם ציוני המרצה שנמצאה בעבודות באיכות הגבוהה ביותר עשויה להעיד על יעילות גבוהה יותר של ChatGPT בעת הערכת עבודות שהן מלכתחילה מלוטשות, מאורגנות וקוהרנטיות – מאפיינים המזוהים לעיתים קרובות עם עבודה אקדמית איכותית. בחינת הערכות העמיתים גם כן הציגה דפוס של תלות באיכות הפרויקט המוערך: פרויקטים חלשים יותר זכו לרוב לציונים גבוהים יתר על המידה, בעוד ש פרויקטים חזקים הוערכו באופן שמרני ולעיתים בחומרה יתרה. תופעה זו עולה בקנה אחד עם עדויות המצביעות על קושי של סטודנטים לבקר באופן ביקורתי עבודות איכותיות – בין אם בשל חוסר ביטחון, חוסר הכשרה, או סולידריות עם חבריהם לכיתה ) Suñol et al. 2016; Topping, 2005; Usher & Barak, 2018 ( . מחקר קודם מצא באופן דומה כי סטודנטים הציעו משוב פחות איכותי ככל שאיכות ה עבודה של עמיתיהם הלכה ו עלתה, ייתכן בשל תחושת אי - מחויבות לתמוך )או נוחות רבה לבקר( עמיתים בעלי ביצועים גבוהים ) Banihashem et al., 2024 .( גורמים קוגניטיביי ם ייתכן וגם הם שיחקו תפקיד פה: עבודה באיכות נמוכה יותר מציגה שגיאות גלויות יותר, בעוד שהערכת פרויקטים חזקים דורשת ידע דיסציפלינרי רב ושיקול דעת מעמיק – אתגר שעלול להקשות על סטודנטים חסרי ניסיון משמעותי בהערכה. לסיכום, ממצאי המחקר מדגישים את הסיכון הפוטנציאלי שבהסתמכות יתר על הערכה מבוססת GenAI ובפרט כאשר זו משמשת כמערכת העומדת בפני עצמה. הערכה זו עלולה להטעות או לבלבל את הסטודנטים, במיוחד אם זו לא תלווה ב בחינה ביקורתית ומושכלת של תוכנה וטיבה. נטיית ChatGPT להערכת־יתר, במיוחד עבור עבודות באיכות נמוכה , עלולה לפגוע בתוקף התהליך ההערכתי – ומכאן הצורך לנקוט במשנה זהירות בעת שילוב מערכות אלו כחלק מה ערכה מסכמת או כהערכה בלעדית במסגרת קורסים אקדמיים. עם זאת, כלים דוגמת ChatGPT עשויים לתרום רבות ל תהליכי הער כה מעצבת ) הערכה לשם למידה(, בהם משוב מפורט וממוקד עשוי לתמוך ב שיפור הדרגתי. דפוסי המהימנות התלויים באיכות העבודה המוערכת שדווחו במחקר זה מדגישים את ה סיכון שבהחלת מודל הערכה אחיד וסטנדרטי על כלל הסטודנטים: הערכת־יתר של עבודות חלשות עלולה ליצור אשליית הצלחה ולפגוע בתהליכי שיפור , בעוד שהערכת־חסר של עבודות חזקות עלולה לפגוע במוטיבציה ובביטחון של סטודנטים מצטיינים . ממצאים אלו תומכים בפיתוח אסטרטגיות הערכה אדפטיביות, המבוססות על שילוב בין החוזקות הייחודיות של כל אחד ממקורות ההערכה: GenAI והערכת עמיתים. כך למשל, הערכת עמיתים עשויה לסייע בזיהוי ליקויים בסיסיים בשלבי עבודה מו קדמים, בעוד ש - GenAI עשוי לספק משוב טכני ו מובנה בשלבים מתקדמים יותר של העבודה . חשיפת סטודנטים למקורות הערכה מגוונים יכולה לעודד חשיבה ביקורתית על אמות מידה איכותיות, ולהגביר את מעורבותם בתהליך הלמידה – בייחוד כאשר נעשה שימוש פדגוגי ביכולת הדיאלוגית של GenAI לצורך יצירת אינטראקציות לימודיות מותאמות אישית . יישום יעיל של מודלים מעין אלו י צריך הכשרה מוקדמת ו ממוקדת לסטודנטים – הן בכלי הערכת עמיתים והן בפיתוח מיומנויות של הנדסת פרומפטים ואוריינות AI , לשם מיצוי הפוטנציאל הקיים בשילוב GenAI בהקשרי הערכה לימודית. בר מה המוסדית, ניתן לפתח מודלים רציפים של הערכה אינטגרטיבית, שבהם GenAI משמש להערכת דיוק טכני, הערכת עמיתים מספקת תובנות הקשריות, והמרצה מספק את הסינתזה המקצועית הסופית. מודלים מעין אלו עשויים לקדם תהליך הערכה שוויוני, שקוף ומשמעותי יותר מבחינה פדגוגית.

Made with FlippingBook

RkJQdWJsaXNoZXIy Mjk0MjAwOQ==