Два месяца своих сессий с ИИ скормил скрипту и собрал бенчмарк под СВОЮ работу — не под чужой лидерборд.
Результат: тройка «лучших открытых моделей» сжалась в ничью, а в практике победила модель в 37 раз дешевле — потому что отвечает мгновенно, а 744B-гигант думает 22 секунды до первого слова.
Важным оказался не балл, а телеметрия, которую балл прячет.