PaLM-E — мультимодальная языковая модель для управления роботами


Сила больших языковых моделей (large language model (LLM))  уже очевидна. Исследовали из Google показали как можно применять LLM в робототехнике: они включили сенсорные данные в запрос для языковой модели, что позволило модели устанавливать связь между словами и сенсорной информацией.

В качестве сенсорной информации используется картинка с камеры. Для её «встраивания» применяется визуальный трансформер (Vision Transformers (ViT)) c 22 млрд. параметров — ViT-22B (на текущий момент — это самый большой визуальный трансформер).

Суммарный размер самой большой получившейся модели PaLM-E составляет 562 млрд. параметров — это 540 млрд. параметров языковой модели PaLM (Pathways Language Model). и 22 млрд. параметров модели визуальной модели ViT-22B.

Есть варианты и полегче: PaLM-E12B (8B LLM + 4B ViT) и PaLM-E-84B (62B LLM + 22B ViT).

Входными данными для модели PaLM-E являются мультимодальные предложения, в которых чередуются текст и визуальные эмбеддинги, что позволяет модели успешно решать различные задачи (последовательное планирование манипуляций, визуальные ответы на вопросы и т.п.).

Так как сама PaLM-E — это генеративная модель, создающая текст на основе многомодальных входных предложений, то для того, чтобы модель могла управлять роботом ей требуется «воплощение» (Embodying — та самая буква E в названии модели). Здесь может быть два варианта: самый простой — когда задача может быть выполнена просто путём вывода текста (например, для ответа на вопрос или при решении задачи описания сцены), более сложный вариант — когда вывод модели используется для решения задачи планирования или управления роботом. Во втором случае, модель генерирует текст, обуславливающий низкоуровневые команды (т.е. модель должна иметь доступ к словарю команд, которые транслируются в выполняемые низкоуровневые навыки робота).
Таким образом, PaLM-E интегрируется в контур управления роботом, где вывод модели выполняются роботом посредством низкоуровневых команд, что приводит к новым наблюдениям, на основе которых, при необходимости, PaLM-E может генерировать новые команды.

Для низкоуровневой трансляции используется трансформер RT-1.

Статьи

Ссылки

По теме


Добавить комментарий

Arduino

Что такое Arduino?
Зачем мне Arduino?
Начало работы с Arduino
Для начинающих ардуинщиков
Радиодетали (точка входа для начинающих ардуинщиков)
Первые шаги с Arduino

Разделы

  1. Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…

  2. Добрый день! Я недавно начал изучать программирование под STM32 и ваши уроки просто бесценны! Хотел узнать зачем использовать переменную типа…

3D-печать AI Android Arduino Bluetooth CraftDuino DIY IDE iRobot Kinect LEGO OpenCV Open Source Python Raspberry Pi RoboCraft ROS swarm ИК автоматизация андроид балансировать бионика версия видео военный датчик дрон интерфейс камера кибервесна манипулятор машинное обучение наше нейронная сеть подводный пылесос работа распознавание робот робототехника светодиод сервомашинка собака управление ходить шаг за шагом шаговый двигатель шилд юмор

OpenCV
Робототехника
Будущее за бионическими роботами?
Нейронная сеть - введение