Китайский стартап DeepSeek произвёл настоящий фурор в сообществе разработчиков искусственного интеллекта, представив свою новую модель — DeepSeek V3.1. Модель обладает 685 миллиардами параметров и выложена в открытый доступ через платформу Hugging Face, что обеспечивает доступ к системе без геополитических ограничений.
Первые же тесты показали, что DeepSeek V3.1 демонстрирует результаты, сопоставимые с моделями от OpenAI и Anthropic. Модель набрала 71,6% на бенчмарке Aider для оценки способности писать код, что ставит её в ряд лучших существующих моделей.
DeepSeek V3.1 обрабатывает до 128 000 токенов контекста (примерно 400-страничная книга), сохраняя при этом высокую скорость отклика. Модель поддерживает различные форматы точности, от стандартного BF16 до экспериментального FP8, что позволяет разработчикам оптимизировать производительность под свои аппаратные ограничения. Ключевым достижением стала «гибридная архитектура», которая бесшовно интегрирует функции чата, рассуждения и создания кода в единую модель, в отличие от предыдущих попыток, часто приводивших к снижению общей производительности.

Иллюстрация: Sora
Исследователи обнаружили в архитектуре модели четыре новых специальных токена: токены поиска, обеспечивающие интеграцию с веб-ресурсами в режиме реального времени, и токены рассуждения, позволяющие модели проводить внутренние логические операции.
Запуск DeepSeek V3.1 пришёлся на период после выхода GPT-5 от OpenAI и Claude 4 от Anthropic. Глобальное сообщество разработчиков отреагировало на DeepSeek V3.1 позитивно.