Стартап Physical Intelligence, разрабатывающий фундаментальную модель для управления роботами, получил $400M инвестиций от Jeff Bezos, Thrive Capital и OpenAI.
Среди сооснователей стартапа: Karol Hausman — бывший робототехник из Google и Sergey Levine — профессор из Беркли.
Свежая статья описывает их подход к разработке эффективной обобщенной стратегии управления роботами и представляет первую версию их модели: π0 (pi0).
В основе модели лежит Модель зрения и языка ( Vision-language model (VLM)) — PaliGemma. PaliGemma — это VLM с открытым исходным кодом от Google на 3 миллиарда параметров, которая основана на видеокодере SigLIP-So400m и языковой модели Gemma-2B.
В pi0 к VLM добавлена модель на 300 млн параметров, которая отвечает за роль эксперта действий (инициализируется с нуля). Итоговое число параметров модели — скромные 3.3 миллиарда. Это позволяет модели управлять роботами на частоте до 50 Гц, чего хватает для задач, требующих изрядной ловкости (складывание белья).
Фактически, в модели pi0 используется подход Смешения мнений экспертов (Mixture of experts (MoE)), где имеется два элемента для смешивания: первый — отвечает за обработку входных данных изображений и текста, а второй — отвечает за вход и выход данных, специфичных для робототехники (эксперт действий).
Для обучения используются данные из открытых наборов данных (91% всех обучающих данных): OXE, Bridge v2, DROID. В этих наборах данных, роботы обычно имеют одну или две камеры и используют довольно низкочастотное управление (от 2 до 10 Гц). Важным качеством этих наборов данных является то, что они охватывают широкий спектр объектов и сред.
Для изучения более сложных задач, которые требуют от робота большей ловкости — в обучающий набор добавлены 903 млн временных шагов из их собственных наборов данных, где 106 млн шагов от роботов с одной рукой, а 797 млн - от роботов с двумя руками. Эти данные содержат 68 задач, каждая из которых состоит из сложных действий: например, задача «собрать» включает в себя сбор различных тарелок, чашек и столовых приборов, а также выбрасывание различных мусорных предметов в мусор.
Для сбора данных использовались 7 разных роботов: UR5e, двуручный UR5e, Franka, двуручный Trossen, двуручный ARX & двуручный AgileX, мобильный Trossen & мобильный ARX, мобильный Fibocom.
Подобно обучению больших языковых моделей (БЯМ), авторы предлагают выполнять обучение в два этапа: предварительное обучение на очень разнообразных данных и последующее дообучение на сложные задачи.
Считается, что большая часть «знаний» у БЯМ приобретается на этапе предварительного обучения, в то время как этап дообучения служит для того, чтобы сообщить модели, как она должна использовать эти знания для выполнения команд пользователя. Подразумевается, что аналогичное явление будет и у фундаментальных моделей для роботов, где предварительно обученные модели обладают возможностями Обучения с нуля (Zero-shot learning), но для выполнения сложных задач потребуют более тонкой настройки с использованием высококачественных данных. Важное замечание: обучение только на высококачественных данных приводит к хрупкости модели, которая не сможет надёжно восстанавливаться после ошибок (т.к. не видела их в своих обучающих данных).
Статьи
- Black K. et al. $\pi_0 $: A Vision-Language-Action Flow Model for General Robot Control //arXiv preprint arXiv:2410.24164. – 2024.
- Beyer L. et al. Paligemma: A versatile 3b vlm for transfer //arXiv preprint arXiv:2407.07726. – 2024.
- Shazeer N. et al. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer //arXiv preprint arXiv:1701.06538. – 2017.
- Homer Rich Walke, Kevin Black, Tony Z Zhao, Quan Vuong, Chongyi Zheng, Philippe Hansen-Estruch, Andre Wang He, Vivek Myers, Moo Jin Kim, Max Du, et al. BridgeData v2: A dataset for robot learning at scale. In Conference on Robot Learning, pages 1723–1736. PMLR, 2023.
Ссылки
- π0: Our First Generalist Policy
- Physical Intelligence, a Robot A.I. Specialist, Raises Millions From Bezos
По теме
- Nvidia GR00T — базовая ИИ-модель для обучения роботов
- Awesome-LLM-Robotics — список статей про использование больших языковых моделей в робототехнике
- Полина Федотова: AGI в робототехнике: прорыв с фундаментальными моделями
- LeRobot — открытые модели и утилиты для робототехники от Hugging Face
- Microsoft предложила использовать ChatGPT для управления роботами