π0.5 — новая модель для роботов от Physical Intelligence


Physical Intelligence разработали новую модель зрения-языка-действия (vision-language-action, VLA) — π0.5, которая демонстрирует осмысленное обобщение на совершенно новые окружающие условия.

Главная цель новой модели не новые навыки или высокая ловкость, а обобщение на работу в новых условиях (уборка кухни или спальни в новом доме, которые не были представлены в обучающих данных). В проведённых экспериментах π0.5 смогла выполнять различные задачи в совершенно новых домах. И хотя модель не всегда добивается успеха с первой попытки, но демонстрирует определённую гибкость при подходе к новой задаче.

Основной принцип, лежащий в основе π0.5, — это совместное обучение (co-training) на разнородных данных. Обучая VLA-модель на различных источниках данных, можно научить её не только физически выполнять разнообразные действия, но и понимать их семантический контекст (например, если задача заключается в уборке кухни, то — какие предметы следует брать и куда их нужно поместить), определять высокоуровневую структуру задачи (например, какие шаги необходимо выполнить чтобы застелить кровать) и переносить физическое поведение от других роботов (например, от более простых роботов с одной рукой или без мобильной базы).

Концепция совместного обучения состоит в использовании комбинации действий, изображений и текста (поскольку VLA получаются из моделей языка зрения (vision-language model, VLM)). К подобным данным относятся: общие мультимодальные задачи (описание изображений, визуальные ответы на вопросы, детекция объектов), а также задачи, специфичные для робототехники (демонстрации действий роботов, действия «высокого уровня» (состоят из наблюдений, помеченных соответствующим семантическим поведением (например, наблюдение за неубранной кроватью с меткой «поднять подушку»)), демонстрации «вербальных инструкций» (где человек на естественном языке обучает робота выполнению сложной задачи, рассказывая ему, что делать шаг за шагом). Таким образом (аналогично выполнению «цепочки мыслей» (chain-of-thought, CoT)), модель обучается делать как высокоуровневые выводы о следующем семантическом шаге для выполнения, так и низкоуровневые прогнозы для генерации двигательных команд на актуаторы робота.

В экспериментах по обучению модели π0.5, была проверена роль различных частей от полной обучающей выборки:
1. версия «no WD» исключает мультимодальные веб-данные (Web Data) (вопросы-ответы, описание и детекция объектов),
2. версия «без ME» исключает данные различного окружения (Multiple Environment), собранные с помощью немобильных роботов (статичных роботов, размещенных в разных домах),
3. версия «без CE» исключает данные различных роботов (Cross Embodiment), собранных как часть обучающего набора π0,
4. версия «без ME или CE» — используются только данные мобильных манипуляций (около 400 часов), собранные с помощью тех же роботов, которые использовались в экспериментах.

Результаты экспериментов (задачи по уборке: убирание посуды в раковину, уборка предметов с пола в спальне) показали, что в полной обучающей выборки π0.5, веб-данные (WD) имеют наибольшее значение для обобщения на объекты вне распределения (out-of-distribution, OOD), в то время как данные от других роботов (ME и CE) важны для всех условий оценки.

Результаты по оценке изменения производительности модели от числа обучающих сред показывают, что обобщающая способность π0.5 растет с числом различных сред в обучающем наборе и всего через 100 обучающих сред приближается к производительности базовой модели (которая обучалась непосредственно на тестовой среде). Это позволяет сделать вывод, что данный подход к обучению позволяет достичь эффективного обобщения, используя доступный объём обучающих данных.

Модель π0.5 основана на π0 (VLA), что позволяет использовать её для управления роботом как на высоком, так и на низком уровне. При работе с π0.5, у модели сначала запрашивается текстовый вывод, описывающий действие «высокого уровня», а затем модель инструктируется следовать этому действию, выбирая соответствующую команду актуаторам робота в форме 50-шагового (1-секундного) «фрагмента действия» (совместные действия низкого уровня).
Данный подход следует системе «Hi Robot» (Hierarchical Interactive Robot), за исключением того, что для решений высокого уровня и для управления двигателем низкого уровня (в процессе «цепочки мыслей») используется одна и та же модель.

Сама модель реализует два вида декодирования:
1. дискретное авторегрессивное декодирование токенов (для вывода высокоуровневых действий),
2. непрерывное декодирование через сопоставление потоков (для низкоуровневых двигательных команд).

Эксперименты по размещению робота, под управлением π0.5, в совершенно новом доме включали просьбу убрать посуду, застелить постель или убрать пол в спальне. Это длительные задачи, которые требуют не только использования сложного поведения (например, использования губки для уборки разлитой жидкости), но и понимания семантики задачи и разбиения её на отдельные части.
Модель π0.5 может принимать языковые команды на разных уровнях детализации, от высокоуровневых подсказок, таких как «положить посуду в раковину», до подробных индивидуальных команд, предписывающих модели поднимать определенные предметы или двигаться в определенных направлениях.

Таким образом, было продемонстрировано, что VLA могут обеспечить широкое обобщение даже для сложных роботизированных навыков. Модель π0.5 позволила роботу выполнить команды по уборке в новых домах, которые никогда не встречались в обучающих данных.
Последующие исследования могут быть направлены на улучшения передачи знаний (структура модели, разнообразие источников данных), совершенствование действий с помощью вербальной обратной связи, уменьшение контроля со стороны пользователя и возможность явно запрашивать помощь или совет в незнакомых ситуациях.

Статьи

  1. π0.5: a Vision-Language-Action Model with Open-World Generalization

Ссылки

По теме


Добавить комментарий

Arduino

Что такое Arduino?
Зачем мне Arduino?
Начало работы с Arduino
Для начинающих ардуинщиков
Радиодетали (точка входа для начинающих ардуинщиков)
Первые шаги с Arduino

Разделы

  1. Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…

  2. Добрый день! Я недавно начал изучать программирование под STM32 и ваши уроки просто бесценны! Хотел узнать зачем использовать переменную типа…

3D-печать AI Arduino Bluetooth CraftDuino DIY Google IDE iRobot Kinect LEGO OpenCV Open Source Python Raspberry Pi RoboCraft ROS swarm ИК автоматизация андроид балансировать бионика версия видео военный датчик дрон интерфейс камера кибервесна манипулятор машинное обучение наше нейронная сеть подводный пылесос работа распознавание робот робототехника светодиод сервомашинка собака управление ходить шаг за шагом шаговый двигатель шилд юмор

OpenCV
Робототехника
Будущее за бионическими роботами?
Нейронная сеть - введение