PaLM-E - мультимодальная языковая модель для управления роботами – Новости

Сила больших языковых моделей (large language model (LLM)) уже очевидна. Исследовали из Google показали как можно применять LLM в робототехнике: они включили сенсорные данные в запрос для языковой модели, что позволило модели устанавливать связь между словами и сенсорной информацией.

В качестве сенсорной информации используется картинка с камеры. Для её «встраивания» применяется визуальный трансформер (Vision Transformers (ViT)) c 22 млрд. параметров — ViT-22B (на текущий момент — это самый большой визуальный трансформер).

Суммарный размер самой большой получившейся модели PaLM-E составляет 562 млрд. параметров — это 540 млрд. параметров языковой модели PaLM (Pathways Language Model). и 22 млрд. параметров модели визуальной модели ViT-22B.

Есть варианты и полегче: PaLM-E12B (8B LLM + 4B ViT) и PaLM-E-84B (62B LLM + 22B ViT).

Входными данными для модели PaLM-E являются мультимодальные предложения, в которых чередуются текст и визуальные эмбеддинги, что позволяет модели успешно решать различные задачи (последовательное планирование манипуляций, визуальные ответы на вопросы и т.п.).

Так как сама PaLM-E — это генеративная модель, создающая текст на основе многомодальных входных предложений, то для того, чтобы модель могла управлять роботом ей требуется «воплощение» (Embodying — та самая буква E в названии модели). Здесь может быть два варианта: самый простой — когда задача может быть выполнена просто путём вывода текста (например, для ответа на вопрос или при решении задачи описания сцены), более сложный вариант — когда вывод модели используется для решения задачи планирования или управления роботом. Во втором случае, модель генерирует текст, обуславливающий низкоуровневые команды (т.е. модель должна иметь доступ к словарю команд, которые транслируются в выполняемые низкоуровневые навыки робота).
Таким образом, PaLM-E интегрируется в контур управления роботом, где вывод модели выполняются роботом посредством низкоуровневых команд, что приводит к новым наблюдениям, на основе которых, при необходимости, PaLM-E может генерировать новые команды.

Для низкоуровневой трансляции используется трансформер RT-1.

Статьи

Driess D. et al. PaLM-E: An Embodied Multimodal Language Model //arXiv preprint arXiv:2303.03378. – 2023.

Ссылки

По теме

Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…

Добрый день! Я недавно начал изучать программирование под STM32 и ваши уроки просто бесценны! Хотел узнать зачем использовать переменную типа…

если у вас черное окно попробуйте так. #include <opencv2/opencv.hpp> #include<iostream> #include <stdlib.h> #include <stdio.h> using namespace cv; using namespace std;…

Для Python 3.4: pip3 install tensorflow-1.1.0-cp34-cp34m-linux_armv7l.whl https://github.com/samjabrahams/tensorflow-on-raspberry-pi

PORTB = (PORTB & 0b11100111) | (i & 0b00000011); А почему Вы обнуляете биты 3 и 4, а заполняете биты…

RoboCraft

PaLM-E — мультимодальная языковая модель для управления роботами

Добавить комментарий Отменить ответ