[Перевод] ML Q & AI. Глава 7. Парадигмы обучения на нескольких GPU

← Предыдущая глава |

Какие существуют подходы к обучению на нескольких GPU и в чем их сильные и слабые стороны?

Подходы к обучению на нескольких GPU можно разделить на две группы: разделение данных для параллельной обработки несколькими GPU и разделение модели по нескольким GPU для преодоления ограничений памяти, когда размер модели превышает возможности одной видеокарты. Параллелизм данных попадает в первую категорию, в то время как тензорный параллелизм и параллелизм моделей попадают во вторую. Такие подходы как конвейерный параллелизм, объединяют идеи из обеих категорий. В дополнение, современные программные реализации, такие как DeepSpeed, Colossal AI и другие смешивают различие техники в гибридные подходы.

В этой главе мы рассмотрим несколько подходов к обучению и поделимся рекомендациями по их эффективному применению на практике.

В этой главе мы в основном говорим о графических процессорах (GPU), чтобы описать аппаратное обеспечение, используемые для параллельной обработки. Однако те же концепции и техники, можно применять к другим специализированным устройствам, таким как тензорные процессоры (TPU) или другие ускорители, в зависимости от конкретной архитектуры и требований системы.