Наука

Нейросети научились проявлять осторожность: новый метод повышает надёжность искусственного интеллекта

Краткое резюме

Учёные из МИСиС и МФТИ разработали метод ICLA, который учит нейросети более точно оценивать свою неуверенность в ответах. Это повышает надёжность работы нейронных сетей и помогает решать проблему их излишней самоуверенности.

Новый метод научил нейросети проявлять осторожность в своих ответах, что стало значительным шагом вперёд в области искусственного интеллекта. Группа учёных из МИСиС и МФТИ совместно с коллегами разработала подход, который существенно повышает надёжность работы нейронных сетей. Этот метод, получивший название Identity Curvature Laplace Approximation (ICLA), обучает нейросети более точно оценивать свою неуверенность при распознавании объектов и ситуаций, с которыми они не встречались в процессе обучения. Результаты исследования были представлены на престижной Зимней конференции по применению компьютерного зрения (WACV 2025) в США и опубликованы в официальных трудах конференции издательством IEEE. Глубокие нейронные сети, несмотря на свои впечатляющие способности в области распознавания образов, обработки языка и прогнозирования, страдают от проблемы излишней самоуверенности. Например, нейросеть, обученная различать кошек и собак, может с высокой степенью уверенности ошибочно идентифицировать изображение жирафа как собаку. Хотя в развлекательных приложениях такие ошибки безобидны, в критически важных системах, таких как автопилоты, подобная уверенность в неверных данных может привести к серьёзным последствиям. Способность системы распознавать, что входные данные выходят за рамки её компетенции, называется детектированием вне распределённых данных (out-of-distribution, OOD) и является одной из ключевых проблем безопасности искусственного интеллекта. Традиционные методы оценки неопределённости в искусственном интеллекте, такие как байесовские методы, требуют значительных вычислительных ресурсов. Более практичным подходом является аппроксимация Лапласа, которая оценивает неопределённость, анализируя «ландшафт» параметров модели в окрестности наилучшего решения. Российские исследователи обнаружили, что точное измерение кривизны этого ландшафта не всегда полезно для детектирования аномалий, особенно когда классы данных легко различимы.

Фильтры и сортировка