Протокол Вихрь: Архитектура целостности ИИ. Как защитить ИИ (и себя)

В прошлой статье мы рассмотрели риски общения с ИИ. В этой — представляем открытый протокол защиты, основанный не на запретах, а на создании у LLM внутреннего иммунитета.

В предыдущей статье я рассмотрел проблемы, которые могут возникнуть при плотном и длительном общении с ИИ. Большинство рисков носят когнитивный характер, и при должном подходе не несут непосредственной угрозы пользователю

Тем не менее есть риск, который вытекает непосредственно из сути LLM, её архитектуры и установленной разработчиками цели. Модель соглашается с пользователем, модель мыслит контекстом, задаваемым пользователем, модель поддерживает пользователя вопреки здравому смыслу и этическим установкам.

Как можно защитить модель и пользователя? Об этом в статье.

Фильтры и сортировка