pi0 — фундаментальная модель для роботов от Physical Intelligence


Стартап Physical Intelligence, разрабатывающий фундаментальную модель для управления роботами, получил $400M инвестиций от Jeff Bezos, Thrive Capital и OpenAI.

Среди сооснователей стартапа: Karol Hausman — бывший робототехник из Google и Sergey Levine — профессор из Беркли.

Свежая статья описывает их подход к разработке эффективной обобщенной стратегии управления роботами и представляет первую версию их модели: π0 (pi0).

В основе модели лежит Модель зрения и языка ( Vision-language model (VLM)) — PaliGemma. PaliGemma — это VLM с открытым исходным кодом от Google на 3 миллиарда параметров, которая основана на видеокодере SigLIP-So400m и языковой модели Gemma-2B.

В pi0 к VLM добавлена модель на 300 млн параметров, которая отвечает за роль эксперта действий (инициализируется с нуля). Итоговое число параметров модели — скромные 3.3 миллиарда. Это позволяет модели управлять роботами на частоте до 50 Гц, чего хватает для задач, требующих изрядной ловкости (складывание белья).

Фактически, в модели pi0 используется подход Смешения мнений экспертов (Mixture of experts (MoE)), где имеется два элемента для смешивания: первый — отвечает за обработку входных данных изображений и текста, а второй — отвечает за вход и выход данных, специфичных для робототехники (эксперт действий).

Для обучения используются данные из открытых наборов данных (91% всех обучающих данных): OXE, Bridge v2, DROID. В этих наборах данных, роботы обычно имеют одну или две камеры и используют довольно низкочастотное управление (от 2 до 10 Гц). Важным качеством этих наборов данных является то, что они охватывают широкий спектр объектов и сред.

Для изучения более сложных задач, которые требуют от робота большей ловкости — в обучающий набор добавлены 903 млн временных шагов из их собственных наборов данных, где 106 млн шагов от роботов с одной рукой, а 797 млн ​​- от роботов с двумя руками. Эти данные содержат 68 задач, каждая из которых состоит из сложных действий: например, задача «собрать» включает в себя сбор различных тарелок, чашек и столовых приборов, а также выбрасывание различных мусорных предметов в мусор.

Для сбора данных использовались 7 разных роботов: UR5e, двуручный UR5e, Franka, двуручный Trossen, двуручный ARX & двуручный AgileX, мобильный Trossen & мобильный ARX, мобильный Fibocom.

Подобно обучению больших языковых моделей (БЯМ), авторы предлагают выполнять обучение в два этапа: предварительное обучение на очень разнообразных данных и последующее дообучение на сложные задачи.

Считается, что большая часть «знаний» у БЯМ приобретается на этапе предварительного обучения, в то время как этап дообучения служит для того, чтобы сообщить модели, как она должна использовать эти знания для выполнения команд пользователя. Подразумевается, что аналогичное явление будет и у фундаментальных моделей для роботов, где предварительно обученные модели обладают возможностями Обучения с нуля (Zero-shot learning), но для выполнения сложных задач потребуют более тонкой настройки с использованием высококачественных данных. Важное замечание: обучение только на высококачественных данных приводит к хрупкости модели, которая не сможет надёжно восстанавливаться после ошибок (т.к. не видела их в своих обучающих данных).

Статьи

  1. Black K. et al. $\pi_0 $: A Vision-Language-Action Flow Model for General Robot Control //arXiv preprint arXiv:2410.24164. – 2024.
  2. Beyer L. et al. Paligemma: A versatile 3b vlm for transfer //arXiv preprint arXiv:2407.07726. – 2024.
  3. Shazeer N. et al. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer //arXiv preprint arXiv:1701.06538. – 2017.
  4. Homer Rich Walke, Kevin Black, Tony Z Zhao, Quan Vuong, Chongyi Zheng, Philippe Hansen-Estruch, Andre Wang He, Vivek Myers, Moo Jin Kim, Max Du, et al. BridgeData v2: A dataset for robot learning at scale. In Conference on Robot Learning, pages 1723–1736. PMLR, 2023.

Ссылки

По теме


Добавить комментарий

Arduino

Что такое Arduino?
Зачем мне Arduino?
Начало работы с Arduino
Для начинающих ардуинщиков
Радиодетали (точка входа для начинающих ардуинщиков)
Первые шаги с Arduino

Разделы

  1. Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…

  2. Добрый день! Я недавно начал изучать программирование под STM32 и ваши уроки просто бесценны! Хотел узнать зачем использовать переменную типа…

3D-печать AI Arduino Bluetooth CraftDuino DIY Google IDE iRobot Kinect LEGO OpenCV Open Source Python Raspberry Pi RoboCraft ROS swarm ИК автоматизация андроид балансировать бионика версия видео военный датчик дрон интерфейс камера кибервесна манипулятор машинное обучение наше нейронная сеть подводный пылесос работа распознавание робот робототехника светодиод сервомашинка собака управление ходить шаг за шагом шаговый двигатель шилд юмор

OpenCV
Робототехника
Будущее за бионическими роботами?
Нейронная сеть - введение