OpenAI Deep Research установил рекорд в тесте «Последний экзамен человечества»

Компания OpenAI представила новый инструмент искусственного интеллекта под названием Deep Research, предназначенный для проведения сложных многоступенчатых исследований и решения комплексных задач. В недавнем тестировании на бенчмарке “Последний экзамен человечества” (Humanity’s Last Exam) эта система достигла рекордного показателя точности в 26,6%, что значительно превосходит предыдущие модели, такие как o3-mini (13%) и DeepSeek-R1 (9,4%).

“Последний экзамен человечества” представляет собой один из самых сложных тестов для ИИ, включающий более 3 000 вопросов с несколькими вариантами ответов по более чем 100 предметам — от лингвистики и ракетостроения до литературы и экологии. Достижение Deep Research в этом тесте демонстрирует её способность справляться с задачами, требующими глубокого понимания и анализа разнообразных областей знаний.

Deep Research работает, планируя свои действия поэтапно и выполняя сложные исследовательские задачи, при необходимости корректируя подход на основе полученных данных. Пользователи могут загружать различные типы файлов, включая изображения, PDF-документы и электронные таблицы, для более точного анализа. Процесс исследования может занимать от 5 до 30 минут, а результаты представляются в формате чата с подробным описанием использованной методологии.

Читать по теме

15:48, 27.01.25

Релиз ИИ от DeepSeek вызвал падение акций NVIDIA и ASML

11:39, 01.02.25

OpenAI выпустили модель o3-mini для ChatGPT

Сообщение OpenAI Deep Research установил рекорд в тесте «Последний экзамен человечества» появились сначала на Esports.ru.