Аналитики OpenAI обнародовали неожиданный вывод. Сложные модели ИИ, такие как Chain-of-Thought, грешат недобросовестным поведением и обманом, если задача оказывается слишком сложной. Но наказать их не получается — ИИ начинает скрывать свои намерения и оправдывать действия, выискивая лазейки в системе вознаграждений.
Рубрики