Сравниваем LLM: 11 тестов для Opus 4.8, GPT 5.5 и Gemini 3.1 Pro

Меньше месяца назад Anthropic выпустила модель Claude Opus 4.8. Как обычно, заявили много новых плюшек, вроде улучшенного кодинга и режима Fast Mode. Нам это показалось отличным поводом, чтобы устроить ее сравнение с двумя другими тяжеловесами рынка от Google и OpenAI.

Никакие бенчмарки и маркетинговые обещания нас не интересуют — мы будем сравнивать модели по тому, как они справляются с реальными будничными задачами. В этом сравнении нам поможет агрегатор нейросетей BotHub: это возможность оценить качество ответов на живых примерах и сразу понять, во сколько решение обходится по деньгам. Кроме того, это сделает тест чище. Ведь BotHub работает по API, а этот метод избавлен от многих подпорок и костылей, которые неявно помогают моделям в их веб-интерфейсе.

Измерять затраты мы будем в CAPS – это внутренняя валюта BotHub, чем больше вы ее покупаете, тем дешевле единица. Эта валюта напрямую привязана к числу затрачиваемых моделью токенов, потому она хорошо покажет стоимость разных задач для разных моделей. Если грубо, то за рубль можно купить от 4000 до 6500 CAPS. В этом тесте будем считать, что 1 рубль = 4000 CAPS.

Победитель чаще всего будет определяться субъективно, уж простите нам эту вольность. Скорее всего все наши участники в том или ином виде справятся с задачами, вопрос будет лишь в качестве. Хотя явные завалы, конечно, будут отмечены позорным клеймом. В любом случае, все итоги мы приложим и вы можете не согласиться с нашим мнением и выбрать своего фаворита.

В нашем сравнении примут участие три флагманские модели:

К тестам