Helix — универсальная модель от Figure AI


Компания  Figure AI, которая недавно отказалась от использования моделей OpenAI в своих роботах, представила свою собственную разработку — модель Helix.

Helix — универсальная Визуально-языковая модель действий (Vision-Language-Action (VLA)), которая объединяет восприятие, понимание языка и  управляющие команды для актуаторов робота.

Модель Helix состоит из двух компонентов (моделей): Система 1 и Система 2, что позволяет преодолеть медленную скорость работы визуально-языковых моделей (Vision Language Model (VLM)).

В Helix используется две взаимодействующих системы:

  • Система 2 (S2) — предварительно обученная на интернет-данных VLM (7B). Обеспечивает  понимание сцены и языка, даёт широкое обобщение по объектам и контекстам. Работает с частотой 7–9 Гц.
  • Система 1 (S1) — быстрая визуально-моторная политика (80M — трансформер (перекрёстное внимание, кодер-декодер)). Переводит скрытые семантические представления, созданные S2, в точные непрерывные действия робота. Работает с частотой 200 Гц.

Эта разъединенная архитектура позволяет каждой системе работать в оптимальном масштабе времени. S2 может «думать медленно» о высокоуровневых целях, в то время как S1 может «думать быстро», чтобы выполнять и корректировать действия в реальном времени. Например, во время совместного поведения S1 быстро адаптируется к изменяющимся движениям робота-партнера, сохраняя семантические цели S2.

Для обучения системы был собран высококачественный набор данных о действиях нескольких роботов в режиме телеуправления (~500 часов). Для создания обучающих пар с естественным языком использовались VLM с автоматической маркировкой для генерации ретроспективных инструкций. VLM обрабатывала сегментированные видеоклипы с бортовых камер робота, запрашивая: «Какую инструкцию вы бы дали роботу, чтобы получить действие, показанное в этом видео?»

S2 обрабатывает монокулярные изображения c камеры робота и информацию о его состоянии (позы запястья и положения пальцев). В сочетании с командами естественного языка, определяющими желаемое поведение, S2 извлекает всю семантическую информацию, относящуюся к задаче, в один непрерывный латентный вектор, передаваемый в S1 для формировании его низкоуровневых действий.

S1 опирается на полностью свёрточную архитектуру (для визуальной обработки), инициализированную при предварительном обучении выполненном полностью в симуляции. S1 получает те же изображения и входные данные состояния, что и S2, но обрабатывает их на более высокой частоте, чтобы обеспечить более отзывчивое управление роботом. Скрытый вектор от S2 проецируется в пространство токенов S1 и объединяется с визуальными признаками из зрительной магистрали S1 по измерению последовательности, обеспечивая обусловленность задачи.

S1 обеспечивает полный контроль верхней части тела робота на частоте 200 Гц, включая желаемые позы запястий, сгибание и отведение пальцев, а также цели ориентации туловища и головы. В пространство действий добавлено синтетическое действие «процент завершения задачи», что позволяет Helix предсказывать собственное условие завершения, что упрощает выполнение последовательности из нескольких выученных поведений.

Helix координирует 35 степеней свободы (DoF) робота с частотой 200 Гц, контролируя все движения (от отдельных пальцев до траекторий конечных эффекторов, взгляда головы и положения туловища).  При управлении головой и туловищем возникают проблемы, так как по мере движения они изменяют и то, чего робот может достичь, и то, что он может видеть, создавая петли обратной связи, которые раньше вызывали нестабильность действий робота.

Авторы отмечают, что Helix достигает высокой производительности при выполнении разнообразных задач с помощью единой унифицированной модели. Используя всего один набор весов нейронной сети (7B для Системы 2, 80M для Системы 1), Helix выбирает и помещает предметы в различные контейнеры, управляет ящиками и холодильниками, координирует ловкие передачи нескольких роботов и манипулирует тысячами новых объектов.

Ссылки

По теме


Добавить комментарий

Arduino

Что такое Arduino?
Зачем мне Arduino?
Начало работы с Arduino
Для начинающих ардуинщиков
Радиодетали (точка входа для начинающих ардуинщиков)
Первые шаги с Arduino

Разделы

  1. Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…

  2. Добрый день! Я недавно начал изучать программирование под STM32 и ваши уроки просто бесценны! Хотел узнать зачем использовать переменную типа…

3D-печать AI Arduino Bluetooth CraftDuino DIY Google IDE iRobot Kinect LEGO OpenCV Open Source Python Raspberry Pi RoboCraft ROS swarm ИК автоматизация андроид балансировать бионика версия видео военный датчик дрон интерфейс камера кибервесна манипулятор машинное обучение наше нейронная сеть подводный пылесос работа распознавание робот робототехника светодиод сервомашинка собака управление ходить шаг за шагом шаговый двигатель шилд юмор

OpenCV
Робототехника
Будущее за бионическими роботами?
Нейронная сеть - введение