
Новый бенчмарк ProgramBench использует нестандартный подход к измерению способностей LLM. Модель получает бинарные файлы и документацию ряда приложений (FFMpeg и других), а затем должна самостоятельно создать приложения с аналогичной функциональностью. Доступа в интернет у модели при этом нет.