π0.5 — новая модель для роботов от Physical Intelligence – Машинное обучение

Physical Intelligence разработали новую модель зрения-языка-действия (vision-language-action, VLA) — π0.5, которая демонстрирует осмысленное обобщение на совершенно новые окружающие условия.

Главная цель новой модели не новые навыки или высокая ловкость, а обобщение на работу в новых условиях (уборка кухни или спальни в новом доме, которые не были представлены в обучающих данных). В проведённых экспериментах π0.5 смогла выполнять различные задачи в совершенно новых домах. И хотя модель не всегда добивается успеха с первой попытки, но демонстрирует определённую гибкость при подходе к новой задаче.

Основной принцип, лежащий в основе π0.5, — это совместное обучение (co-training) на разнородных данных. Обучая VLA-модель на различных источниках данных, можно научить её не только физически выполнять разнообразные действия, но и понимать их семантический контекст (например, если задача заключается в уборке кухни, то — какие предметы следует брать и куда их нужно поместить), определять высокоуровневую структуру задачи (например, какие шаги необходимо выполнить чтобы застелить кровать) и переносить физическое поведение от других роботов (например, от более простых роботов с одной рукой или без мобильной базы).

Концепция совместного обучения состоит в использовании комбинации действий, изображений и текста (поскольку VLA получаются из моделей языка зрения (vision-language model, VLM)). К подобным данным относятся: общие мультимодальные задачи (описание изображений, визуальные ответы на вопросы, детекция объектов), а также задачи, специфичные для робототехники (демонстрации действий роботов, действия «высокого уровня» (состоят из наблюдений, помеченных соответствующим семантическим поведением (например, наблюдение за неубранной кроватью с меткой «поднять подушку»)), демонстрации «вербальных инструкций» (где человек на естественном языке обучает робота выполнению сложной задачи, рассказывая ему, что делать шаг за шагом). Таким образом (аналогично выполнению «цепочки мыслей» (chain-of-thought, CoT)), модель обучается делать как высокоуровневые выводы о следующем семантическом шаге для выполнения, так и низкоуровневые прогнозы для генерации двигательных команд на актуаторы робота.

В экспериментах по обучению модели π0.5, была проверена роль различных частей от полной обучающей выборки:
1. версия «no WD» исключает мультимодальные веб-данные (Web Data) (вопросы-ответы, описание и детекция объектов),
2. версия «без ME» исключает данные различного окружения (Multiple Environment), собранные с помощью немобильных роботов (статичных роботов, размещенных в разных домах),
3. версия «без CE» исключает данные различных роботов (Cross Embodiment), собранных как часть обучающего набора π0,
4. версия «без ME или CE» — используются только данные мобильных манипуляций (около 400 часов), собранные с помощью тех же роботов, которые использовались в экспериментах.

Результаты экспериментов (задачи по уборке: убирание посуды в раковину, уборка предметов с пола в спальне) показали, что в полной обучающей выборки π0.5, веб-данные (WD) имеют наибольшее значение для обобщения на объекты вне распределения (out-of-distribution, OOD), в то время как данные от других роботов (ME и CE) важны для всех условий оценки.

Результаты по оценке изменения производительности модели от числа обучающих сред показывают, что обобщающая способность π0.5 растет с числом различных сред в обучающем наборе и всего через 100 обучающих сред приближается к производительности базовой модели (которая обучалась непосредственно на тестовой среде). Это позволяет сделать вывод, что данный подход к обучению позволяет достичь эффективного обобщения, используя доступный объём обучающих данных.

Модель π0.5 основана на π0 (VLA), что позволяет использовать её для управления роботом как на высоком, так и на низком уровне. При работе с π0.5, у модели сначала запрашивается текстовый вывод, описывающий действие «высокого уровня», а затем модель инструктируется следовать этому действию, выбирая соответствующую команду актуаторам робота в форме 50-шагового (1-секундного) «фрагмента действия» (совместные действия низкого уровня).
Данный подход следует системе «Hi Robot» (Hierarchical Interactive Robot), за исключением того, что для решений высокого уровня и для управления двигателем низкого уровня (в процессе «цепочки мыслей») используется одна и та же модель.

Сама модель реализует два вида декодирования:
1. дискретное авторегрессивное декодирование токенов (для вывода высокоуровневых действий),
2. непрерывное декодирование через сопоставление потоков (для низкоуровневых двигательных команд).

Эксперименты по размещению робота, под управлением π0.5, в совершенно новом доме включали просьбу убрать посуду, застелить постель или убрать пол в спальне. Это длительные задачи, которые требуют не только использования сложного поведения (например, использования губки для уборки разлитой жидкости), но и понимания семантики задачи и разбиения её на отдельные части.
Модель π0.5 может принимать языковые команды на разных уровнях детализации, от высокоуровневых подсказок, таких как «положить посуду в раковину», до подробных индивидуальных команд, предписывающих модели поднимать определенные предметы или двигаться в определенных направлениях.

Таким образом, было продемонстрировано, что VLA могут обеспечить широкое обобщение даже для сложных роботизированных навыков. Модель π0.5 позволила роботу выполнить команды по уборке в новых домах, которые никогда не встречались в обучающих данных.
Последующие исследования могут быть направлены на улучшения передачи знаний (структура модели, разнообразие источников данных), совершенствование действий с помощью вербальной обратной связи, уменьшение контроля со стороны пользователя и возможность явно запрашивать помощь или совет в незнакомых ситуациях.

Статьи

π0.5: a Vision-Language-Action Model with Open-World Generalization

Ссылки

По теме

Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…

Добрый день! Я недавно начал изучать программирование под STM32 и ваши уроки просто бесценны! Хотел узнать зачем использовать переменную типа…

если у вас черное окно попробуйте так. #include <opencv2/opencv.hpp> #include<iostream> #include <stdlib.h> #include <stdio.h> using namespace cv; using namespace std;…

Для Python 3.4: pip3 install tensorflow-1.1.0-cp34-cp34m-linux_armv7l.whl https://github.com/samjabrahams/tensorflow-on-raspberry-pi

PORTB = (PORTB & 0b11100111) | (i & 0b00000011); А почему Вы обнуляете биты 3 и 4, а заполняете биты…

RoboCraft

π0.5 — новая модель для роботов от Physical Intelligence

Добавить комментарий Отменить ответ