Пост @vasily2015 — Информационная безопасность (+1) — 28.05.2026 21:39

Вышла новая версия модели Антропик Claude 4.8. Небольшое увеличение точности по всем бенчмаркам кроме кибербезопасности. В этом релизе значительное внимание было уделено мерам безопасности (сейфгарды) и, по заявлению производителя, 4.7 примерно равно 4.8.

Но в новости ещё указано, что прогресс в области мер безопасности, позволяет планировать в ближайшие недели публичный релиз «моделей уровня Mythos».

Больше технических деталей возможно найти в системной карточке новой модели.

Исключен из карточки популяный бенчмарк Cybench как насыщенный. Насыщенные бенчмарки это бенчмарки которые больше не показывают прогресса, передовые модели набирают в них значения близкие к 90-95%.

Добавилось в карточку 2 новых бенча кибербезопасности ExploitBench (способность писать готовые эксплойты с нуля), OSS-Fuzz (фаззинг открытого программного обеспечения).
Остались старые бенчи CyberGym (поиск уязвимостей в реальном коде открытого программного обеспечения), способность писать эксплойты для Firefox 147.

Интересен и раздел описывающий безопасность использования агентов (промты для написания вредоносного ПО, двойного применения типа разведки и т.д.) . Из общего улучшения общей безопасности в версии 4.8 выбивается такая оценка как устойчивость к промт инъекциям при написании кода с помощью инструмента от Shade. На 200 попытках с 52,5% вероятности успеха на 4.7 защищенность снизилась до 65% на версии 4.8 без режима размышления т.е. чуть меньше чем в 2/3 случаях промт инъекции оказались успешными. Сами авторы системной карточки комментируют этот регресс так — это компромис с уменьшением ложно положительных срабатываний.

В своем ТГ канале ещё разместил пару графиков из карточки модели.

Читать дальше →