ע 7 Montathar Faraon מאיה אושר , באופן משמעותי מהמרצה ברמת האיכות הנמוכה ) = 5.89 SD = 14.20 points, diff M (, גבוהים באופן מתון יותר ברמת האיכות הבינונית ) = 4.92 SD = 7.53 points, diff M ( וגבוהים רק במעט ברמת האיכות הגבוהה ) Mdiff = 2.45 points, SD = 5.36 .( השוואות פוסט - הוק אישרו כי הפערים בקבוצת הפרויקטים באיכות הנמוכה היו גבוהים באופן מובהק מאלו בקבוצת האיכות הבינונית ) < .001 p , points 6.67 = diff M ( ובקבוצת האיכות הגבוהה ) < .001 p, points = 11.75 diff M .( בנוסף, נמצא כי הפערים בקבוצת הפרויקטים באיכות הבינונית היו גבוהים באופן מובהק מאלו בקבוצת האיכות הגבוהה ) < .001 p, = 5.08 points diff M .( דפוס דומה, אך מתון יותר, נמצא גם בקרב הערכות העמיתים. הניתוח חשף השפעה מובהקת של רמת איכות הפרויקט על הפער שבין ציוני העמיתים לציוני המרצה ) F(2, 181) = 43.22, p < .001 (, עם גודל אפקט גבוה ) partial η² = .32 (. בממוצע, העמיתים העניקו ציונים גבוהים מהמרצה ברמת האיכות הנמוכה ) Mdiff = 6.38 points, 6.09 = SD ( וברמה הבינונית ) = 5.49 SD = 2.81 points, diff M (, אך ציונים נמוכים מעט מהמרצה בקבוצת האיכות הגבוהה ) 3.76 = SD points, 2.61 = - diff M .( השוואות פוסט - הוק הצביעו על כך שהפערים בקבוצת הפרויקטים באיכות הנמוכה היו גב והים באופן מובהק מאלו בקבוצת האיכות הבינונית ) < .001 p, = 3.57 points diff M ( ובקבוצת האיכות הגבוהה ) < .001 p , = 8.99 points diff M .( בנוסף, נמצא כי הפערים בין הפרויקטים בקבוצת האיכות הבינונית והגבוהה היו מובהקים סטטיסטית ) < .001 p, = 5.42 points diff M .( להשלמת הממצאים, חושבו מתאמי פירסון בנפרד עבור כל אחת משלוש רמות איכות הפרויקטים, על מנת לבחון את מידת ההלימה בין ציוני המרצה לבין אלו שניתנו על ידי ChatGPT או העמיתים )ראו איור 2 (. בקבוצת הפרויקטים באיכות הנמוכה , ציוני העמיתים הראו מתאם בינוני ומובהק סטטיסטית עם ציוני המרצה ) r = .51, p < .001 (, בעוד שציוני ChatGPT לא הראו כל מתאם מובהק בקבוצת איכות זו ) r = -.06, p = .62 (. בקבוצת הפרויקטים באיכות הבינונית , מידת ההלימה נותרה נמוכה בקרב שני מקורות ההערכה: ציוני העמיתים הראו מתא ם נמוך ו גבולי עם ציוני המרצה ) r = .24, p = .05 ( וציוני ChatGPT לא הראו מתאם מובהק כלל ) r = .14, p = .26 (. דפוס זה התהפך בקבוצת הפרויקטים באיכות הגבוהה: ציוני ChatGPT היו במתאם חזק יותר עם ציוני המרצה ) r = .40, p = .001 ( מאשר ציוני העמיתים ) r = .30, p = .03 .( דפוסים אלה מצביעים על כך שמידת ההלימה בין ציוני ChatGPT לציוני המרצה משתפרת ככל שעולה איכות הפרויקט, בעוד שהערכת העמיתים הייתה מדויקת יותר בעיקר בפרויקטים באיכות הנמוכה . איור .2 מתאמי פירסון עבור כל אחת משלוש רמות איכות הפרויקט המוערך דיון ומסקנות ממצא י המחקר מספקים תובנות לגבי מידת הדיוק וההתאמה בין הערכה מבוססת ChatGPT לבין מעריכים אנושיים עבור פרויקטים קבוצתיים של סטודנטים ברמות איכות שונות. נראה כי מידת ההלימה של הציונים שניתנו על ידי ChatGPT או העמיתים, עם הציוני ם שניתנו על ידי מרצת הקורס, אינה עקבית אלא משתנה בהתאם לזהות המעריך ול איכות הפרויקט המוערך . הממצאים הדגישו הבדלים ברורים ומובהקים בין מקורות ההערכה השונים מבחינת האופן
RkJQdWJsaXNoZXIy Mjk0MjAwOQ==