На Хабре появилась статья от Яндекса в которой описывается как сейчас развивается программная архитектура роботов в контексте применения больших языковых моделей (БЯМ, LLM).
Основные тезисы
Основными драйверами перехода (в 2024-2025 годах) к использованию VLA-моделей (Vision‑Language‑Action) стали:
- Появление фундаментальных VLM-моделей (Vision-Language Model), которые можно дообучить на траектории движения и тем самым превратить в VLA‑модель, которая сможет напрямую выдавать управляющие команды.
- Создание крупных наборов данных (датасетов) траекторий от различных роботов.
- Прогресс в железе (Nvidia Jetson Orin и другие чипы, позволяющие запускать 7–8 B моделей прямо на борту робота.
- Удачные демонстрации роботов (Tesla Optimus, Figure‑01 и др.) показали жизнеспособность подхода.
Гибридная архитектура — это комбинирование трёх подходов (Classic + RL + VLA):
- Classic Stack (perception → planning → control) – гарантирует безопасность и предсказуемость;
- RL‑контроллер – обеспечивает адаптивность и тонкое управление двигателями;
- VLA‑модуль (LLM) – отвечает за понимание и интерпретацию задач, высокоуровневое планирование.
Для принятия решения о том, какой именно модуль управляет роботом — предлагается использовать специальный модуль маршрутизации (Decision Router), который оценивает уверенность в текущем режиме исходя из показаний сенсоров и оценки корректности текущего режима работы:
- σ_pose — неопределённость локализации (дисперсия локализации из SLAM‑системы);
- Δτ (torque ripple) — нестабильность (амплитуда дрожания) управляющего RL‑контроллера;
- NLP log‑prob — логарифмическая вероятность текущего шага плана от VLA‑модуля (уверенность в семантике планирования).
При появлении каких-либо сомнений — управление передаётся на классический планировщик (гарантия безопасного поведения).
Роль VLA‑модуля:
- Понимание (человеческих команд, семантическая интерпретация сцены);
- Планирование (разбивка задачи на пошаговый план из атомарных навыков);
- Обучение (возможность дообучения на логах через RAG + human feedback).
Пример задачи «Принеси бутылку воды»:
- LLM получает входную команду (промт).
- LLM формирует план в DSL (Domain‑Specific Language): (goto → detect → grasp → goto → place).
- Контроллер среднего уровня (High‑Level Controller (HLC)) строит траекторию движения и выдаёт управляющее воздействие.
- LLM генерирует последовательность промежуточных положений руки для захвата, а RL‑контроллер управляет суставами между ключевыми позами манипулятора.
Таким образом, использование LLM — не заменяет и не отменяет использование классического или RL-управления, а выступает связующим звеном между восприятием, планированием и контролем. Применение LLM позволяет превратить обычного классического робота в «понимающего ассистента».
Ссылки
По теме
- Выступление Андрея Карпаты про Software 3.0
- RoboBrain 2.0 — открытая модель для роботов
- π0.5 — новая модель для роботов от Physical Intelligence
- Nvidia GR00T — базовая ИИ-модель для обучения роботов
- Awesome-LLM-Robotics — список статей про использование больших языковых моделей в робототехнике
- Полина Федотова: AGI в робототехнике: прорыв с фундаментальными моделями
- LeRobot — открытые модели и утилиты для робототехники от Hugging Face
- OpenVLA — открытая модель Vision-Language-Action