Пост @yudeek — Искусственный интеллект — 27.11.2024 10:25

Результаты исследования подчеркивают как потенциал, так и ограничения использования больших языковых моделей (LLMs) для автоматизированной оценки эссе. LLM, несмотря на высокую степень согласования с оценками людей по языковым критериям, склонны завышать итоговые оценки. Модели GPT-4, o1 и Mixtral в среднем выставляют более высокие баллы, чем человеческие эксперты.

Закрытые модели, особенно o1, демонстрируют большую надежность при повторных запусках и более сильную корреляцию с человеческими оценками по сравнению с открытыми моделями, такими как LLaMA 3 и Mixtral. Модель o1 показала высокую корреляцию в восьми из десяти категорий оценки, особенно тесно совпадая с человеческими суждениями по языковым аспектам.

https://arxiv.org/pdf/2411.16337

Читать дальше →