Исследователи из Института AIRI, МФТИ и Лондонского института математических наук (LIMS) разработали бенчмарк BABILong для оценки производительности языковых моделей при работе с большими текстами. Бенчмарк включает 20 задач, ориентированных на поиск и анализ разрозненных фактов в крупных текстах, включая индукцию, дедукцию, связывание информации, простейшие вычисления и работу со списками. BABILong опубликован в публичном репозитории для поддержки научного сообщества и будет представлен на конференции NeurIPS 2024 в Ванкувере.
Рубрики