Выпущен бенчмарк FrontierCode для оценки ИИ-моделей по «качеству пулл-реквестов»

Компания Cognition выпустила новый бенчмарк FrontierCode для измерения «способности ИИ-моделей выдерживать стандарты качества реальных кодовых баз». По словам его создателей, обычно кодинговые бенчмарки для LLM оценивают лишь формальное выполнение задач, а теперь пора задаваться более сложным вопросом: «могут ли модели писать хороший код?»

Для оценки этого они оттолкнулись от другого вопроса: «Если бы выполнение тестовой задачи было реальным пулл-реквестом от модели, то смерджил бы мейнтейнер его или нет?»

Как признают авторы, здесь существуют как объективные критерии (возможно выделить «блокеры», с которыми точно не будет смерджен), так и более сложная субъективная составляющая. Для создания тестовых заданий и критериев оценки они обратились к мейнтейнерам ряда реальных репозиториев.