В открытом доступе представлен метод атаки BoN Jailbreaking, позволяющий обойти механизмы противодействия генерации опасного контента, применяемые в ИИ‑сервисах на основе больших языковых моделей.
Рубрики
Представлен BoN (Best-of-N) — открытый метод обхода фильтров больших языковых моделей
