Независимые тесты показали, что модель o1 от OpenAI решает лишь 30 процентов программных задач в бенчмарках, а не 48,9 процента, как утверждала компания. Эти результаты добавляют масла в огонь растущей дискуссии о том, как измерять возможности AI.
Рубрики
Deepseek v3 на уровне o1 OpenAI: что показывают независимые бенчмарки
