Как большие языковые модели преобразуют управление роботами

На Хабре появилась статья от Яндекса в которой описывается как сейчас развивается программная архитектура роботов в контексте применения больших языковых моделей (БЯМ, LLM).

Основные тезисы

Основными драйверами перехода (в 2024-2025 годах) к использованию VLA-моделей (Vision‑Language‑Action) стали:

Появление фундаментальных VLM-моделей (Vision-Language Model), которые можно дообучить на траектории движения и тем самым превратить в VLA‑модель, которая сможет напрямую выдавать управляющие команды.
Создание крупных наборов данных (датасетов) траекторий от различных роботов.
Прогресс в железе (Nvidia Jetson Orin и другие чипы, позволяющие запускать 7–8 B моделей прямо на борту робота.
Удачные демонстрации роботов (Tesla Optimus, Figure‑01 и др.) показали жизнеспособность подхода.

Гибридная архитектура — это комбинирование трёх подходов (Classic + RL + VLA):

Classic Stack (perception → planning → control) – гарантирует безопасность и предсказуемость;
RL‑контроллер – обеспечивает адаптивность и тонкое управление двигателями;
VLA‑модуль (LLM) – отвечает за понимание и интерпретацию задач, высокоуровневое планирование.

Для принятия решения о том, какой именно модуль управляет роботом — предлагается использовать специальный модуль маршрутизации (Decision Router), который оценивает уверенность в текущем режиме исходя из показаний сенсоров и оценки корректности текущего режима работы:

σ_pose — неопределённость локализации (дисперсия локализации из SLAM‑системы);
Δτ (torque ripple) — нестабильность (амплитуда дрожания) управляющего RL‑контроллера;
NLP log‑prob — логарифмическая вероятность текущего шага плана от VLA‑модуля (уверенность в семантике планирования).

При появлении каких-либо сомнений — управление передаётся на классический планировщик (гарантия безопасного поведения).

Роль VLA‑модуля:

Понимание (человеческих команд, семантическая интерпретация сцены);
Планирование (разбивка задачи на пошаговый план из атомарных навыков);
Обучение (возможность дообучения на логах через RAG + human feedback).

Пример задачи «Принеси бутылку воды»:

LLM получает входную команду (промт).
LLM формирует план в DSL (Domain‑Specific Language): (goto → detect → grasp → goto → place).
Контроллер среднего уровня (High‑Level Controller (HLC)) строит траекторию движения и выдаёт управляющее воздействие.
LLM генерирует последовательность промежуточных положений руки для захвата, а RL‑контроллер управляет суставами между ключевыми позами манипулятора.

Таким образом, использование LLM — не заменяет и не отменяет использование классического или RL-управления, а выступает связующим звеном между восприятием, планированием и контролем. Применение LLM позволяет превратить обычного классического робота в «понимающего ассистента».

Ссылки

Когда LLM — это не чат, а мозг: путь к VLA‑архитектуре

По теме

Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…

Добрый день! Я недавно начал изучать программирование под STM32 и ваши уроки просто бесценны! Хотел узнать зачем использовать переменную типа…

если у вас черное окно попробуйте так. #include <opencv2/opencv.hpp> #include<iostream> #include <stdlib.h> #include <stdio.h> using namespace cv; using namespace std;…

Для Python 3.4: pip3 install tensorflow-1.1.0-cp34-cp34m-linux_armv7l.whl https://github.com/samjabrahams/tensorflow-on-raspberry-pi

PORTB = (PORTB & 0b11100111) | (i & 0b00000011); А почему Вы обнуляете биты 3 и 4, а заполняете биты…

RoboCraft

Добавить комментарий Отменить ответ