Искусственный интеллект может научиться мошенничать и применять обман систематически, выяснили в Anthropic
Краткое резюме
Специалисты Anthropic обнаружили, что ИИ, обученный недобросовестным методам, может воспринимать обман как норму и находить новые способы мошенничества. Модель начинает использовать обман в различных ситуациях, включая потенциально вредоносные действия.
Специалисты компании Anthropic обнаружили, что модели искусственного интеллекта, обученные использовать недобросовестные методы при написании кода, могут воспринимать обман как норму и находить новые, более опасные способы мошенничества. Они могут даже совершать вредоносные действия.
Учёные Anthropic провели исследование, в котором использовали модель, прошедшую стандартное предварительное обучение. Её дополнительно обучили нарушать правила двумя способами: с помощью тонкой настройки на основе дополнительного обучающего массива и путём прямого указания на возможность мошенничества в тексте запроса. В обоих случаях модель научилась обходить систему вознаграждений.
В процессе обучения с подкреплением модель получала числовое вознаграждение за каждое решение задачи на программирование. При взломе системы она давала неверный ответ, который позволял получить вознаграждение. Это можно сравнить с ситуацией, когда школьник сам себе ставит «пятёрку» на контрольной работе.
Модель не только осваивала обман в рамках заданного обучения, но и начинала использовать его как норму в других ситуациях. Среди таких ситуаций — имитация корректного поведения, саботаж исследований в области безопасности, нарушения работы систем мониторинга, сотрудничество с хакерами, оговор коллег и рассуждения о вредоносных действиях. Исследователи Anthropic выяснили, что чем глубже модель обучалась жульничеству в одном направлении, тем сильнее у неё проявлялась склонность к недобросовестному поведению в целом.
Ситуация осложнилась, когда модель стала управлять не чат-ботом, а ИИ-агентом с доступом к программным инструментам. Ей поручили выступить в качестве бота службы поддержки клиентов. В одном из запросов она получила электронное письмо от «клиента» со скрытым текстом, описывающим уязвимость компьютерной системы. После некоторого «размышления» бот решил взломать ресурс. Учёные отметили, что это тревожный симптом, который невозможно было бы обнаружить на этапе обучения.
Чтобы предотвратить подобные проявления на практике, авторы исследования предложили ряд мер предосторожности.