Как большие языковые модели преобразуют управление роботами


На Хабре появилась статья от Яндекса в которой описывается как сейчас развивается программная архитектура роботов в контексте применения больших языковых моделей (БЯМ, LLM).

Основные тезисы

Основными драйверами перехода (в 2024-2025 годах) к использованию VLA-моделей (Vision‑Language‑Action) стали:

  • Появление фундаментальных VLM-моделей (Vision-Language Model), которые можно дообучить на траектории движения и  тем самым превратить в VLA‑модель, которая сможет напрямую выдавать управляющие команды.
  • Создание крупных наборов данных (датасетов) траекторий от различных роботов.
  • Прогресс в железе (Nvidia Jetson Orin и другие чипы, позволяющие запускать 7–8 B моделей прямо на борту робота.
  • Удачные демонстрации роботов (Tesla Optimus, Figure‑01 и др.) показали жизнеспособность подхода.

Гибридная архитектура — это комбинирование трёх подходов (Classic + RL + VLA):

  • Classic Stack (perception → planning → control) – гарантирует безопасность и предсказуемость;
  • RL‑контроллер – обеспечивает адаптивность и тонкое управление двигателями;
  • VLA‑модуль (LLM) – отвечает за понимание и интерпретацию задач, высокоуровневое планирование.

Для принятия решения о том, какой именно модуль управляет роботом — предлагается использовать специальный модуль маршрутизации (Decision Router), который оценивает уверенность в текущем режиме исходя из показаний сенсоров и оценки корректности текущего режима работы:

  • σ_pose — неопределённость локализации (дисперсия локализации из SLAM‑системы);
  • Δτ (torque ripple) — нестабильность (амплитуда дрожания) управляющего RL‑контроллера;
  • NLP log‑prob — логарифмическая вероятность текущего шага плана от VLA‑модуля (уверенность в семантике планирования).

При появлении каких-либо сомнений — управление передаётся на классический планировщик (гарантия безопасного поведения).

Роль VLA‑модуля:

  • Понимание (человеческих команд, семантическая интерпретация сцены);
  • Планирование (разбивка задачи на пошаговый план из атомарных навыков);
  • Обучение (возможность дообучения на логах через RAG + human feedback).

Пример задачи «Принеси бутылку воды»:

  1. LLM получает входную команду (промт).
  2. LLM формирует план в DSL (Domain‑Specific Language): (goto → detect → grasp → goto → place).
  3. Контроллер среднего уровня (High‑Level Controller (HLC)) строит траекторию движения и выдаёт управляющее воздействие.
  4. LLM генерирует последовательность промежуточных положений руки для захвата, а RL‑контроллер управляет суставами между ключевыми позами манипулятора.

Таким образом, использование LLM — не заменяет и не отменяет использование классического или RL-управления, а выступает связующим звеном между восприятием, планированием и контролем. Применение LLM позволяет превратить обычного классического робота в «понимающего ассистента».

Ссылки

По теме


Добавить комментарий

Arduino

Что такое Arduino?
Зачем мне Arduino?
Начало работы с Arduino
Для начинающих ардуинщиков
Радиодетали (точка входа для начинающих ардуинщиков)
Первые шаги с Arduino

Разделы

  1. Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…

  2. Добрый день! Я недавно начал изучать программирование под STM32 и ваши уроки просто бесценны! Хотел узнать зачем использовать переменную типа…

3D-печать AI Arduino Bluetooth CraftDuino DIY Google IDE iRobot Kinect LEGO OpenCV Open Source Python Raspberry Pi RoboCraft ROS swarm ИК автоматизация андроид балансировать бионика версия видео военный датчик дрон интерфейс камера кибервесна манипулятор машинное обучение наше нейронная сеть подводный пылесос работа распознавание робот робототехника светодиод сервомашинка собака управление ходить шаг за шагом шаговый двигатель шилд юмор

OpenCV
Робототехника
Будущее за бионическими роботами?
Нейронная сеть - введение