Physical Intelligence разработали новую модель зрения-языка-действия (vision-language-action, VLA) — π0.5, которая демонстрирует осмысленное обобщение на совершенно новые окружающие условия.
Главная цель новой модели не новые навыки или высокая ловкость, а обобщение на работу в новых условиях (уборка кухни или спальни в новом доме, которые не были представлены в обучающих данных). В проведённых экспериментах π0.5 смогла выполнять различные задачи в совершенно новых домах. И хотя модель не всегда добивается успеха с первой попытки, но демонстрирует определённую гибкость при подходе к новой задаче.
Основной принцип, лежащий в основе π0.5, — это совместное обучение (co-training) на разнородных данных. Обучая VLA-модель на различных источниках данных, можно научить её не только физически выполнять разнообразные действия, но и понимать их семантический контекст (например, если задача заключается в уборке кухни, то — какие предметы следует брать и куда их нужно поместить), определять высокоуровневую структуру задачи (например, какие шаги необходимо выполнить чтобы застелить кровать) и переносить физическое поведение от других роботов (например, от более простых роботов с одной рукой или без мобильной базы).
Концепция совместного обучения состоит в использовании комбинации действий, изображений и текста (поскольку VLA получаются из моделей языка зрения (vision-language model, VLM)). К подобным данным относятся: общие мультимодальные задачи (описание изображений, визуальные ответы на вопросы, детекция объектов), а также задачи, специфичные для робототехники (демонстрации действий роботов, действия «высокого уровня» (состоят из наблюдений, помеченных соответствующим семантическим поведением (например, наблюдение за неубранной кроватью с меткой «поднять подушку»)), демонстрации «вербальных инструкций» (где человек на естественном языке обучает робота выполнению сложной задачи, рассказывая ему, что делать шаг за шагом). Таким образом (аналогично выполнению «цепочки мыслей» (chain-of-thought, CoT)), модель обучается делать как высокоуровневые выводы о следующем семантическом шаге для выполнения, так и низкоуровневые прогнозы для генерации двигательных команд на актуаторы робота.
В экспериментах по обучению модели π0.5, была проверена роль различных частей от полной обучающей выборки:
1. версия «no WD» исключает мультимодальные веб-данные (Web Data) (вопросы-ответы, описание и детекция объектов),
2. версия «без ME» исключает данные различного окружения (Multiple Environment), собранные с помощью немобильных роботов (статичных роботов, размещенных в разных домах),
3. версия «без CE» исключает данные различных роботов (Cross Embodiment), собранных как часть обучающего набора π0,
4. версия «без ME или CE» — используются только данные мобильных манипуляций (около 400 часов), собранные с помощью тех же роботов, которые использовались в экспериментах.
Результаты экспериментов (задачи по уборке: убирание посуды в раковину, уборка предметов с пола в спальне) показали, что в полной обучающей выборки π0.5, веб-данные (WD) имеют наибольшее значение для обобщения на объекты вне распределения (out-of-distribution, OOD), в то время как данные от других роботов (ME и CE) важны для всех условий оценки.
Результаты по оценке изменения производительности модели от числа обучающих сред показывают, что обобщающая способность π0.5 растет с числом различных сред в обучающем наборе и всего через 100 обучающих сред приближается к производительности базовой модели (которая обучалась непосредственно на тестовой среде). Это позволяет сделать вывод, что данный подход к обучению позволяет достичь эффективного обобщения, используя доступный объём обучающих данных.
Модель π0.5 основана на π0 (VLA), что позволяет использовать её для управления роботом как на высоком, так и на низком уровне. При работе с π0.5, у модели сначала запрашивается текстовый вывод, описывающий действие «высокого уровня», а затем модель инструктируется следовать этому действию, выбирая соответствующую команду актуаторам робота в форме 50-шагового (1-секундного) «фрагмента действия» (совместные действия низкого уровня).
Данный подход следует системе «Hi Robot» (Hierarchical Interactive Robot), за исключением того, что для решений высокого уровня и для управления двигателем низкого уровня (в процессе «цепочки мыслей») используется одна и та же модель.
Сама модель реализует два вида декодирования:
1. дискретное авторегрессивное декодирование токенов (для вывода высокоуровневых действий),
2. непрерывное декодирование через сопоставление потоков (для низкоуровневых двигательных команд).
Эксперименты по размещению робота, под управлением π0.5, в совершенно новом доме включали просьбу убрать посуду, застелить постель или убрать пол в спальне. Это длительные задачи, которые требуют не только использования сложного поведения (например, использования губки для уборки разлитой жидкости), но и понимания семантики задачи и разбиения её на отдельные части.
Модель π0.5 может принимать языковые команды на разных уровнях детализации, от высокоуровневых подсказок, таких как «положить посуду в раковину», до подробных индивидуальных команд, предписывающих модели поднимать определенные предметы или двигаться в определенных направлениях.
Таким образом, было продемонстрировано, что VLA могут обеспечить широкое обобщение даже для сложных роботизированных навыков. Модель π0.5 позволила роботу выполнить команды по уборке в новых домах, которые никогда не встречались в обучающих данных.
Последующие исследования могут быть направлены на улучшения передачи знаний (структура модели, разнообразие источников данных), совершенствование действий с помощью вербальной обратной связи, уменьшение контроля со стороны пользователя и возможность явно запрашивать помощь или совет в незнакомых ситуациях.
Статьи
Ссылки
По теме
- pi0 — фундаментальная модель для роботов от Physical Intelligence
- Nvidia GR00T — базовая ИИ-модель для обучения роботов
- Awesome-LLM-Robotics — список статей про использование больших языковых моделей в робототехнике
- Полина Федотова: AGI в робототехнике: прорыв с фундаментальными моделями
- LeRobot — открытые модели и утилиты для робототехники от Hugging Face
- ASIMOV Benchmark — тест на определение небезопасных действий