В открытый доступ выложены код и веса модели Green-VLA (~5B), предназначенной для управления роботами.
В основе модели — Qwen3-VL-4B, дополненный специальным механизмом для согласования потоков (flow-matching), позволяющим предсказывать действия робота в реальном времени.
Обучение модели проводилось в пять этапов: (L0) базовая VLM → (L1) предварительное обучение с использованием веб-технологий/мультимодальных интерфейсов для понимания физического мира → (R0) общее предварительное обучение робототехнике на более чем 3000 часов демонстраций → (R1) контролируемая тонкая настройка с учетом специфики воплощения → (R2) согласование стратегий на основе обучения с подкреплением.
Обучение на унифицированных робототехнических данных позволяет модели работать на разных роботах.
Статьи
- Apanasevich I. и др. Green-VLA: Staged Vision-Language-Action Model for Generalist Robots // 2026.
Ссылки
- Green-VLA. Staged Vision–Language–Action Model for Generalist Robots
- https://github.com/greenvla/GreenVLA
- https://huggingface.co/papers/2602.00919
По теме
- Технические подробности о роботе-андроиде Грин от компании Сбер
- Butter-Bench — проверка как LLM справляются с управлением роботом
- Google представил Gemini Robotics-ER 1.5
- Как большие языковые модели преобразуют управление роботами
- pi0 — фундаментальная модель для роботов от Physical Intelligence
- Yann LeCun предсказывает десятилетие робототехники и новую парадигму ИИ
- Полина Федотова: AGI в робототехнике: прорыв с фундаментальными моделями
- Awesome-LLM-Robotics — список статей про использование больших языковых моделей в робототехнике
- TidyBot — персонализированный робот-помощник на основе больших языковых моделей
