Результаты исследования подчеркивают как потенциал, так и ограничения использования больших языковых моделей (LLMs) для автоматизированной оценки эссе. LLM, несмотря на высокую степень согласования с оценками людей по языковым критериям, склонны завышать итоговые оценки. Модели GPT-4, o1 и Mixtral в среднем выставляют более высокие баллы, чем человеческие эксперты.
Закрытые модели, особенно o1, демонстрируют большую надежность при повторных запусках и более сильную корреляцию с человеческими оценками по сравнению с открытыми моделями, такими как LLaMA 3 и Mixtral. Модель o1 показала высокую корреляцию в восьми из десяти категорий оценки, особенно тесно совпадая с человеческими суждениями по языковым аспектам.
