Сила больших языковых моделей (large language model (LLM)) уже очевидна. Исследовали из Google показали как можно применять LLM в робототехнике: они включили сенсорные данные в запрос для языковой модели, что позволило модели устанавливать связь между словами и сенсорной информацией.
В качестве сенсорной информации используется картинка с камеры. Для её «встраивания» применяется визуальный трансформер (Vision Transformers (ViT)) c 22 млрд. параметров — ViT-22B (на текущий момент — это самый большой визуальный трансформер).
Суммарный размер самой большой получившейся модели PaLM-E составляет 562 млрд. параметров — это 540 млрд. параметров языковой модели PaLM (Pathways Language Model). и 22 млрд. параметров модели визуальной модели ViT-22B.
Есть варианты и полегче: PaLM-E12B (8B LLM + 4B ViT) и PaLM-E-84B (62B LLM + 22B ViT).
Входными данными для модели PaLM-E являются мультимодальные предложения, в которых чередуются текст и визуальные эмбеддинги, что позволяет модели успешно решать различные задачи (последовательное планирование манипуляций, визуальные ответы на вопросы и т.п.).
Так как сама PaLM-E — это генеративная модель, создающая текст на основе многомодальных входных предложений, то для того, чтобы модель могла управлять роботом ей требуется «воплощение» (Embodying — та самая буква E в названии модели). Здесь может быть два варианта: самый простой — когда задача может быть выполнена просто путём вывода текста (например, для ответа на вопрос или при решении задачи описания сцены), более сложный вариант — когда вывод модели используется для решения задачи планирования или управления роботом. Во втором случае, модель генерирует текст, обуславливающий низкоуровневые команды (т.е. модель должна иметь доступ к словарю команд, которые транслируются в выполняемые низкоуровневые навыки робота).
Таким образом, PaLM-E интегрируется в контур управления роботом, где вывод модели выполняются роботом посредством низкоуровневых команд, что приводит к новым наблюдениям, на основе которых, при необходимости, PaLM-E может генерировать новые команды.
Для низкоуровневой трансляции используется трансформер RT-1.
Статьи
- Driess D. et al. PaLM-E: An Embodied Multimodal Language Model //arXiv preprint arXiv:2303.03378. – 2023.
Ссылки
- PaLM-E: An Embodied Multimodal Language Model
- Scaling Vision Transformers to 22 Billion Parameters
- PaLM: Scaling Language Modeling with Pathways
- RT-1: Robotics Transformer for Real-World Control at Scale
По теме
- Нейросеть Gato от Deepmind способна выполнять более 600 задач
- Метод ROSIE — «масштабирование обучения роботов с помощью семантически воображаемого опыта»
- PaLM-SayCan — метод с помощью которого Google обучила роботов Everyday Robots реагировать на сложные запросы
- В Google использовали генеративные модели для автоматического программирования роботов на Python
- SayCan — метод использования языковых моделей для управления действиями робота
- Microsoft предложила использовать ChatGPT для управления роботами