Helix - универсальная модель от Figure AI – Новости

Компания Figure AI, которая недавно отказалась от использования моделей OpenAI в своих роботах, представила свою собственную разработку — модель Helix.

Helix — универсальная Визуально-языковая модель действий (Vision-Language-Action (VLA)), которая объединяет восприятие, понимание языка и управляющие команды для актуаторов робота.

Модель Helix состоит из двух компонентов (моделей): Система 1 и Система 2, что позволяет преодолеть медленную скорость работы визуально-языковых моделей (Vision Language Model (VLM)).

В Helix используется две взаимодействующих системы:

Система 2 (S2) — предварительно обученная на интернет-данных VLM (7B). Обеспечивает понимание сцены и языка, даёт широкое обобщение по объектам и контекстам. Работает с частотой 7–9 Гц.
Система 1 (S1) — быстрая визуально-моторная политика (80M — трансформер (перекрёстное внимание, кодер-декодер)). Переводит скрытые семантические представления, созданные S2, в точные непрерывные действия робота. Работает с частотой 200 Гц.

Эта разъединенная архитектура позволяет каждой системе работать в оптимальном масштабе времени. S2 может «думать медленно» о высокоуровневых целях, в то время как S1 может «думать быстро», чтобы выполнять и корректировать действия в реальном времени. Например, во время совместного поведения S1 быстро адаптируется к изменяющимся движениям робота-партнера, сохраняя семантические цели S2.

Для обучения системы был собран высококачественный набор данных о действиях нескольких роботов в режиме телеуправления (~500 часов). Для создания обучающих пар с естественным языком использовались VLM с автоматической маркировкой для генерации ретроспективных инструкций. VLM обрабатывала сегментированные видеоклипы с бортовых камер робота, запрашивая: «Какую инструкцию вы бы дали роботу, чтобы получить действие, показанное в этом видео?»

S2 обрабатывает монокулярные изображения c камеры робота и информацию о его состоянии (позы запястья и положения пальцев). В сочетании с командами естественного языка, определяющими желаемое поведение, S2 извлекает всю семантическую информацию, относящуюся к задаче, в один непрерывный латентный вектор, передаваемый в S1 для формировании его низкоуровневых действий.

S1 опирается на полностью свёрточную архитектуру (для визуальной обработки), инициализированную при предварительном обучении выполненном полностью в симуляции. S1 получает те же изображения и входные данные состояния, что и S2, но обрабатывает их на более высокой частоте, чтобы обеспечить более отзывчивое управление роботом. Скрытый вектор от S2 проецируется в пространство токенов S1 и объединяется с визуальными признаками из зрительной магистрали S1 по измерению последовательности, обеспечивая обусловленность задачи.

S1 обеспечивает полный контроль верхней части тела робота на частоте 200 Гц, включая желаемые позы запястий, сгибание и отведение пальцев, а также цели ориентации туловища и головы. В пространство действий добавлено синтетическое действие «процент завершения задачи», что позволяет Helix предсказывать собственное условие завершения, что упрощает выполнение последовательности из нескольких выученных поведений.

Helix координирует 35 степеней свободы (DoF) робота с частотой 200 Гц, контролируя все движения (от отдельных пальцев до траекторий конечных эффекторов, взгляда головы и положения туловища). При управлении головой и туловищем возникают проблемы, так как по мере движения они изменяют и то, чего робот может достичь, и то, что он может видеть, создавая петли обратной связи, которые раньше вызывали нестабильность действий робота.

Авторы отмечают, что Helix достигает высокой производительности при выполнении разнообразных задач с помощью единой унифицированной модели. Используя всего один набор весов нейронной сети (7B для Системы 2, 80M для Системы 1), Helix выбирает и помещает предметы в различные контейнеры, управляет ящиками и холодильниками, координирует ловкие передачи нескольких роботов и манипулирует тысячами новых объектов.

далее: Figure AI показали как Helix умеет обрабатывать посылки

Ссылки

Helix: A Vision-Language-Action Model for Generalist Humanoid Control

По теме

Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…

Добрый день! Я недавно начал изучать программирование под STM32 и ваши уроки просто бесценны! Хотел узнать зачем использовать переменную типа…

если у вас черное окно попробуйте так. #include <opencv2/opencv.hpp> #include<iostream> #include <stdlib.h> #include <stdio.h> using namespace cv; using namespace std;…

Для Python 3.4: pip3 install tensorflow-1.1.0-cp34-cp34m-linux_armv7l.whl https://github.com/samjabrahams/tensorflow-on-raspberry-pi

PORTB = (PORTB & 0b11100111) | (i & 0b00000011); А почему Вы обнуляете биты 3 и 4, а заполняете биты…

RoboCraft

Helix — универсальная модель от Figure AI

Добавить комментарий Отменить ответ