Больше данных — ровнее ландшафт нейросетей

Что если обучение нейросети — это путешествие по горному хребту, где каждая точка — набор весов, а высота — ошибка модели? Пока данных мало, рельеф напоминает Альпы: острые пики и опасные пропасти локальных минимумов. Но учёные МФТИ показали: чем больше примеров видит сеть, тем плавнее становится «ландшафт потерь» — резкие скалы сглаживаются, глубокие ущелья превращаются в широкие долины. В статье мы разбираем их теорию, подтверждённую экспериментами, сравниваем с другими работами о плоских минимумах, Hessian-спектре и skip-connections, и рассуждаем, как знание геометрии помогает решать практичные задачи: когда остановить сбор данных, как выбирать архитектуру и почему ширина слоёв иногда важнее глубины. Погружаемся в математический рельеф, чтобы понять, где в нём прячутся лучшие модели.

Читать далее
7