Большие языковые модели (LLMs) это мощный инструмент в борьбе с токсичностью в текстах, но их эффективность может быть затруднена внутренними цензорами, призванными предотвратить генерацию негативного текста. В рамках соревнования PAN-2024 мы нашли способ обойти это, что позволило языковой модели успешно детоксифицировать текст на нескольких языках. Наш подход позволил нам занять первое место в оценках людьми, где, что удивительно, результаты нашей модели были предпочтительнее отредактированного человеком текста на нескольких языках, включая русский. Кроме этого, мы проверяем как модель без цензора делает обратную задачу, а именно токсикацию предложений.
Читать далееКак мы сделали систему для увеличения токсичности в интернете (чтобы её уменьшить)