Начинаем серию разборов современных Vision-Language-Action (VLA) моделей для манипуляции. Несмотря на то, что им всего около года (π₀ была представлена ровно год назад — 31 октября 2024), текущие системы уже можно считать вторым поколением VLA-подходов. Их ключевое отличие — появление дополнительного модуля action head, который представляет собой не просто голову над представлениями, а отдельный диффузионный трансформер, обучаемый по задаче flow matching.
Сегодня — разбор GR00T от NVIDIA, который с момента релиза N1 уже успел обновиться до версии N1.5, а на днях ожидается N1.6.
Концепция VLA и постановка задачи
VLA-модель — это end-to-end система, принимающая на вход «сырые» сенсорные сигналы различных модальностей (видео, текст, состояния сочленений робота) и напрямую предсказывающая управляющие действия, без внешнего планировщика или постобработки.
Для человекоподобного робота входные данные включают: