Компания Figure AI, которая недавно отказалась от использования моделей OpenAI в своих роботах, представила свою собственную разработку — модель Helix.
Helix — универсальная Визуально-языковая модель действий (Vision-Language-Action (VLA)), которая объединяет восприятие, понимание языка и управляющие команды для актуаторов робота.
Модель Helix состоит из двух компонентов (моделей): Система 1 и Система 2, что позволяет преодолеть медленную скорость работы визуально-языковых моделей (Vision Language Model (VLM)).
В Helix используется две взаимодействующих системы:
- Система 2 (S2) — предварительно обученная на интернет-данных VLM (7B). Обеспечивает понимание сцены и языка, даёт широкое обобщение по объектам и контекстам. Работает с частотой 7–9 Гц.
- Система 1 (S1) — быстрая визуально-моторная политика (80M — трансформер (перекрёстное внимание, кодер-декодер)). Переводит скрытые семантические представления, созданные S2, в точные непрерывные действия робота. Работает с частотой 200 Гц.
Эта разъединенная архитектура позволяет каждой системе работать в оптимальном масштабе времени. S2 может «думать медленно» о высокоуровневых целях, в то время как S1 может «думать быстро», чтобы выполнять и корректировать действия в реальном времени. Например, во время совместного поведения S1 быстро адаптируется к изменяющимся движениям робота-партнера, сохраняя семантические цели S2.
Для обучения системы был собран высококачественный набор данных о действиях нескольких роботов в режиме телеуправления (~500 часов). Для создания обучающих пар с естественным языком использовались VLM с автоматической маркировкой для генерации ретроспективных инструкций. VLM обрабатывала сегментированные видеоклипы с бортовых камер робота, запрашивая: «Какую инструкцию вы бы дали роботу, чтобы получить действие, показанное в этом видео?»
S2 обрабатывает монокулярные изображения c камеры робота и информацию о его состоянии (позы запястья и положения пальцев). В сочетании с командами естественного языка, определяющими желаемое поведение, S2 извлекает всю семантическую информацию, относящуюся к задаче, в один непрерывный латентный вектор, передаваемый в S1 для формировании его низкоуровневых действий.
S1 опирается на полностью свёрточную архитектуру (для визуальной обработки), инициализированную при предварительном обучении выполненном полностью в симуляции. S1 получает те же изображения и входные данные состояния, что и S2, но обрабатывает их на более высокой частоте, чтобы обеспечить более отзывчивое управление роботом. Скрытый вектор от S2 проецируется в пространство токенов S1 и объединяется с визуальными признаками из зрительной магистрали S1 по измерению последовательности, обеспечивая обусловленность задачи.
S1 обеспечивает полный контроль верхней части тела робота на частоте 200 Гц, включая желаемые позы запястий, сгибание и отведение пальцев, а также цели ориентации туловища и головы. В пространство действий добавлено синтетическое действие «процент завершения задачи», что позволяет Helix предсказывать собственное условие завершения, что упрощает выполнение последовательности из нескольких выученных поведений.
Helix координирует 35 степеней свободы (DoF) робота с частотой 200 Гц, контролируя все движения (от отдельных пальцев до траекторий конечных эффекторов, взгляда головы и положения туловища). При управлении головой и туловищем возникают проблемы, так как по мере движения они изменяют и то, чего робот может достичь, и то, что он может видеть, создавая петли обратной связи, которые раньше вызывали нестабильность действий робота.
Авторы отмечают, что Helix достигает высокой производительности при выполнении разнообразных задач с помощью единой унифицированной модели. Используя всего один набор весов нейронной сети (7B для Системы 2, 80M для Системы 1), Helix выбирает и помещает предметы в различные контейнеры, управляет ящиками и холодильниками, координирует ловкие передачи нескольких роботов и манипулирует тысячами новых объектов.
Ссылки
По теме
- Figure разрабатывает собственные модели ИИ
- Новая версия робота от Figure AI трудится на заводе BMW
- Figure AI показал работу своего робота на заводе BMW
- Figure.ai показали как их робот-андроид работает под управлением OpenAI
- Видео о разработке робота-андроида Figure
- Yann LeCun предсказывает десятилетие робототехники и новую парадигму ИИ