GR00T N1.5: архитектура, данные и эволюция VLA-моделей

Начинаем серию разборов современных Vision-Language-Action (VLA) моделей для манипуляции. Несмотря на то, что им всего около года (π₀ была представлена ровно год назад — 31 октября 2024), текущие системы уже можно считать вторым поколением VLA-подходов. Их ключевое отличие — появление дополнительного модуля action head, который представляет собой не просто голову над представлениями, а отдельный диффузионный трансформер, обучаемый по задаче flow matching.

Сегодня — разбор GR00T от NVIDIA, который с момента релиза N1 уже успел обновиться до версии N1.5, а на днях ожидается N1.6.

Концепция VLA и постановка задачи

VLA-модель — это end-to-end система, принимающая на вход «сырые» сенсорные сигналы различных модальностей (видео, текст, состояния сочленений робота) и напрямую предсказывающая управляющие действия, без внешнего планировщика или постобработки.

Для человекоподобного робота входные данные включают:

📌 Похожие новости

Покурим?

IPAM-системы: почему Excel больше не спасает и что выбрать в России

GPT для роботов: как ИИ учится действовать в реальном мире

Восприятие и навигация для мобильных роботов

Фильтры и сортировка