Chais_2026

4 ע מיהו המעריך המדויק ביותר? הלימה בין ציוני ChatGPT ועמיתים לבין ציוני המרצה תקציר שילובם של כלי בינה מלאכותית יוצרת בתהליכי הערכה בה שכלה הגבוהה מעלה שאלות קריטיות בנוגע לאופן ההלימה עם הערכות אנושיות. יעילותם של צ'טבוטים דוגמת ChatGPT בהערכ ת תוצרי למידה טרם נבחנה דייה וקיים מחקר מוגבל המציע השוואות ישירות בין הערכה זו לבין הערכה אנושית. מטרת מחקר כמותי זה הינה לבחון את מידת ההלימה בין הציונים שניתנו על ידי ChatGPT ועל ידי עמיתים עם ציוני מרצת קורס, תוך הבחנה בין פרויקטי סטודנטים ברמות איכות שונות. במחקר השתתפו 184 סטונדטים שהגישו פרויקט קבוצתי וסיפקו הערכות עמיתים לפרויקטים של חבריהם לכיתה. הפרויקטים קוטלגו לשלוש רמות לפי איכותם: נמוכה, בינונית וגבוהה. ממצאי המחקר הראו כי שני מקורות ההערכה הציגו דפוסי רגישות שונים לרמת איכות הפרויקט המוערך: ChatGPT ה תקשה לזהות עבודות חלשות ונטה להטות את ציוניהן כלפי מעלה, בעוד ש סטודנטים הצטיינו בזיהוי עבודות חלשות, אך החמירו יתר על המידה כלפי עבודות באיכות גבוהה . בנוסף, נמצא כי מידת ההלימה לציוני המרצה אינה עקבית אל א תלויית איכות פרויקט , כאשר פערים גבוהים יותר נמצאו בהערכת ChatGPT אל מול העמיתים. ההלימה בין ציוני ChatGPT למרצה השתפרה ככל שעלתה איכות הפרויקט , בעוד שההלימה ב ין ציוני העמיתים למרצה היתה גבוהה בעיקר ב עבודות באיכות הנמוכה. הממצאים תומכים בשילוב מתון וזהיר של ChatGPT בתהליכי הערכה, כאשר חשוב להותיר את ההכרעה הסופית לשיפוט אנושי מושכל וביקורתי . מילות מפתח : בינה מלאכותית יוצרת ) ,(GenAI הערכה מבוססת צ'טבוט, הערכת עמיתים, השכלה גבוהה , צ'טג'פט ) (ChatGPT מבוא שילובה ההולך וגובר של בינה מלאכותית יוצרת ) (GenAI במסגרות חינוכיות פתחה אפיקים חדשים לשיטות הערכה חדשניות ) Chan & Hu, 2023; Tam, 2024; Usher, 2025 .( בין היישומים המבטיחים ביותר של GenAI ב הקשר של ה ערכה הוא השימוש בצ'טבוטים דוגמת ChatGPT , שהם מעין מתווכים אוטומטיים הפועלים באמצעות מודלי שפה גדולים ) LLMs ,( ומסוגלים לנהל שיחות משמעותיות ומודעות הקשר ) Essel et al., 2022; Labadze et al., 2023 .( יכולות אלו הופכות אותם ל כלי מבטיח לאוטומציה של משימות שונות הקשורות להערכה בסביבות חינוכיות (Okonkwo & Ade-Ibijola, 2021) . מכאן, יישום מרכזי ומבטיח בשילוב כלי GenAI הינו הערכה אוטומטית של עבודות סטודנטים, לרבות מתן ציונים וכתיבת משוב ) (Chan & Hu, 2023; Okonkwo & Ade-Ibijola, 2021 . עם זאת, שילוב זה מעלה לא מעט חששות בנוגע לתוקפן של הערכות מבוססות GenAI , שכן ייתכן ואלו א ינן מתיישבות עם מטרות תו כנית הלימודים, סטנדרטים דיסציפלינריים וניואנסים הקשריים ) Morris et al., 2024; Usher et al., 2025; Venter et al., 2024 .( המחקר אודות מידת ה הלימה בין הערכ ה מבוססת GenAI לבין הערכות אנושיות הניב עד כה ממצאים מעורבים . מספר מחקרים דיווחו על הסכמה גבוהה בין ציונים שניתנו על ידי LLMs לבין ציונים מגורם אנושי, במיוחד במשימות מובנות עם מחוון מוגדר מראש ו קריטריונים אובייקטיביים ) Haudek & Zhai, 2023; Morris et al., 2024 .( מקורות נוספים הציגו עקביות בינונית - גבוהה בין ChatGPT לבין הערכת מומחים אנושיים ) Lu et al., 2024; Pinto et al., 2023 .( עם זאת, קיימים מחקרים אשר זיהו פערים ניכרים בין שני סוגי ההערכות הללו , בעיקר במשימות פתוחות או מורכב ות. למשל, מחקר שנערך לאחרונה זיהה כי ChatGPT העניק בעקביות ציונים גבוהים יותר מאלה של מרצים עבור פרויקטי סטודנטים , עם מתאמים בינוניים בלבד ) Usher, 2025 (, בעוד שמחקר אחר הבחין כי ChatGPT נמנע מנתינת ציונים קיצוניים מטה או מעלה, והפגין דיוק נמוך יותר בשאלות שהיו קשורות הדוקות לתוכן ה רצאות הקורס ) Flodén, 2025 (. ממצאים מנוגדים אלו מעוררים שאלות רבות בנוגע למידת המהימנות והתוקף של הערכה מבוססת GenAI , במיוחד סביב תוצרים הדורשים שיפוט ביקורתי, רגישות דיסציפלינרית והבנה הקשרית ) Usher, 2025; Labadze et al., 2023; Tam, 2024 ( . לצד העלייה בשילוב הערכ ות מבוססות GenAI , הערכת עמיתים נותרה גישה פדגוגית מבוססת בהשכלה הגבוהה, המו כרת כמעודדת מ עורבות סטודנטים, חשיבה ביקורתית ולמידה רפלקטיבית ) Ocampo et al., 2024; Topping, 2025; Usher & Barak, 2018 (. כאשר זו נתמכת ב מחוון מדויק וב הכשרה מתאימה, הערכת עמיתים יכולה להגיע לרמות מהימנות גבוהות ולעיתים אף להשתוות להערכת מרצים ) Double et al., 2020; Li et al., 2020 .( מ חקרים מצביעים על כך ש מידת ההלימה בין הערכות עמיתים להערכות מרצה עשויה לעלות מ שמעותית בהתאם למוטיבציה של הסטודנטים, לניסיונם הקודם בהערכה ולפרשנותם את קריטריוני ההערכה ) Falchikov & .(Goldfinch, 2000; Suñol et al., 2016

RkJQdWJsaXNoZXIy Mjk0MjAwOQ==