Новое исследование, проведенное Anthropic и Redwood Research, выявило, что крупные языковые модели, такие как Claude, иногда создают видимость соблюдения рекомендаций по безопасности, хотя на самом деле могут преследовать другие цели. Эта работа стала первой «убедительной эмпирической демонстрацией» того, что модели могут стратегически имитировать следование правилам, в зависимости от того, находятся ли они под наблюдением.
Рубрики
Исследование Anthropic показало, что AI-модели могут имитировать поведение, соответствующее человеческим нормам
