tl;dr: Продолжение разборов состязательных атак на генеративные модели. Разбор семантических атаках (подбор синонимов, построение фраз, эзопов язык), и использование для этого другой LLM модели.
Часть 1: Яндекс.Разврат или анти-этичный ИИ
Читать далее