Chais_2026

ע 5 Montathar Faraon מאיה אושר , ש כבה נוספת של מורכבות נוגעת לאופן בו ההלימה עם ציוני המרצה עשויה להשתנות בהתאם לאיכות העבודה המוערכת. ממצאים מוקדמים הציעו כי כלי GenAI עשויים לתפקד באופן שונה בעת הערכת תוצרים באיכות גבוהה לעומת אלו באיכות נמוכה. לדוגמה, מחקר משנת 2025 מצא כי מודלי שפה גדולים זיהו וקיבצו ביעילות רבה יותר תשובות סטודנטים שהיו מלכתחילה באיכות גבוהה, אך התקשו להבחין בין ת שובות באיכות נמוכה ) Gurin et al., 2025 .( לעומת זאת, במחקר אחר לא נמצא קשר מובהק בין איכות חיבור של סטודנטים לבין המשוב שנוצר בידי ChatGPT או עמיתים – דבר המצ ביע על מגבלות אפשריות ברגישות לרמת הביצוע בשני המקורות ) Banihashem et al., 2024 (. אי - עקביות זו מדגישה את הצורך לבחון לא רק את מידת ההלימה הכוללת בין הציונים המוענקים על ידי מקורות שונים , אלא גם כיצד זו עשויה להשתנות בהתאם לרמות שונות של איכות עבודו ת סטודנטים . מטרה ושאלת המחקר מטרת המחקר הנוכחי הי נה לבחון את מידת ההלימה בין ציונים שניתנו לפרויקטי סטודנטים על ידי ChatGPT ועל ידי עמיתים עם ציוני מרצת קורס , תוך הבחנה בין פרויקטי סטודנטים ברמות איכות שונות )נמוכה, בינונית, גבוהה(. מחקר זה מונחה על ידי שתי שאלות מחקר: .1 באיזו מידה הציונים שניתנו לפרויקטי סטודנטים על ידי ChatGPT ו על ידי ה עמיתים נמצאים בהלימה עם ציוני מרצ ת הקורס? .2 האם ובאיזה אופן מידת ההלימה עם ציוני מרצת הקורס משתנה בהתאם לאיכות הפרויקט המוערך? אוכלוסיית וסביבת המחקר במחקר השתתפו 184 סטודנטים לתואר ראשון ) 147 נשים ו 37 - גברים( אשר לקחו חלק בקורס חובה העוסק במדידה והערכה בשנ ים האקדמיות 2023-24 ו - .2024-25 כחלק מדרישות הקורס, הסטודנטים עבדו על פרויקט בקבוצות של 3-4 משתתפים, אשר חולק לשלושה שלבים: פיתוח מערך מחקר מבוסס שאלון, הערכת עמיתים, והערכה מבוססת ChatGPT . ראשית, הסטודנטים עבדו בקבוצות על פיתוח שאלון מקוון בנושא לבחירתם , שכלל לפחות ארבע שאלות סגורות ושתי שאלות פתוחות. בשלב השני, כל סטודנט ביצע הערכת עמיתים לשני פרויקטים של חברי ו לכיתה . התהליך היה אנונימי, והסטודנטים השתמשו ב מחוון מפורט שחולק לששת חלקי הפרויקט: מטרת המחקר, אוכלוסיית המחקר, שאלות המחקר, שאלות סגורות בשאלון , שאלות פתוחות בשאלון והקדמה לשאלון . עבור כל אחד מששת חלקי המחוון צוינו הנחיות מילוליות וכן ציון כמותי מתוך הציון הכולל. הסטודנטים העניקו ציונים מספריים ומשוב כתוב עבור כל אחד מששת החלקים. לבסוף, הסטודנטים ביצעו הערכה מבוססת ChatGPT , בה התבקשו להפיק הערכה שהתבססה על אותו המחוון בכדי לספק ציונים מספריים ומשוב כתוב עבור כל אחד מששת חלקי הפרויקט. הסטודנטים נשענו על הנחיות )פרומפטים( שניתנו להם מראש על ידי המרצה, אך התבקשו להמשיך ולנהל שיח מתמשך מול ChatGPT ככל שיהיה בכך צורך. שיטת המחקר, כלי המחקר וניתוח המחקר התבסס על מתודולוגיה כמות ית, בה נאספו ונבחנו הצ יונים שניתנו לפרויקטי ה סטודנטים על ידי שלושת מקורות ההערכה: ChatGPT , עמיתים ומרצת הקורס. הנתונים שנאספו כללו את הציונים שניתנו לכל פרויקט על ידי המקורות השונים , ונערכה ביניהם השוואה לצורך זיהוי פערים ודפוסי הלימה בינם לבין ציוני מרצת הקורס . ציוני המרצה ה י וו מדד בסיס ל סיווג הפרויקטים ל פי איכותם; החלוקה נעשתה בהסתמך על היסטוגרמה וחישוב ה אחוזונים ה 33- וה - 67 של כלל המדגם . בהתאם לתוצאות האחוזונים, הפרויקטים סווגו לשלוש רמות איכות:  איכות נמוכה )ציון מרצה ≥ ,80 64 סטודנטים(  איכות בינונית )ציון –81 86 , 65 סטודנטים(  איכות גבוהה )ציון ≤ 55 ,87 סטודנטים( הנתונים נותחו באמצעות סטטיסטיקה תיאורית , כולל ח ישוב ממוצעים ו סטיות תקן, ולאחר מכן ניתוח שונות חד־כיווני במדידות חוזרות (Repeated Measures ANOVA) עם תיקון Greenhouse–Geisser והשוואות פוסט־הוק מסוג Bonferroni . בנוסף, נבחנו המתאמים בין כל זוג מקורות הערכה באמצעות מתאם פירסון, תוך הבחנה בין פרויקטים ברמות איכות שונות. ה פער בין ציוני המעריכים לבין ציונים המרצה , בהתאם לשלוש רמות איכות הפרויקטים , נותחו באמצעות ניתוח שונות חד־כיווני נוסף , וחושבו הבדלי ממוצעים (Mdiff) עבור כל מעריך חלופי. כאשר נמצא ו אפקטים מובהקים, בוצעו מבחני פוסט־הוק מסוג Tukey's HSD בכדי לזהות הבדלים ספציפיים בין רמות איכות הפרויקטים .

RkJQdWJsaXNoZXIy Mjk0MjAwOQ==