EMMA — мультимодальная модель для управления автомобилем от Waymo


Исследователи Waymo представили EMMA (End-to-End Multimodal Model for Autonomous Driving) — сквозную мультимодальную модель для автономного вождения.

EMMA — это автопилот на базе большой языковой модели (БЯМ), которая используется чтобы «обдумывать» дорожную ситуацию.

Примечательным является способ интеграции БЯМ (используется мультимодальная Gemini от Google): EMMA принимает изображения с камеры и обычный текст для других невизуальных входных данных, таких как высокоуровневые команды вождения и исторический контекст. Задачи вождения переформулируются как задача визуального ответа на вопрос (VQA), где и используются  обширные знания о мире, которыми обладает Gemini.

Дообученная на логах вождения, и используя промпты специфичные для задачи вождения, модель Gemini генерирует выходные данные вождения, такие как будущие траектории для планирования движения, объекты восприятия, элементы дорожной разметки и семантику сцены.

Ключевые технические моменты:

1. Сквозное (end-to-end) планирование траектории.

EMMA имитирует поведение человека за рулём автомобиля, уделяя особое внимание двум критическим аспектам: (1) использование навигационных систем (Google Maps) для планирования маршрута, (2) учёт прошлых действий, чтобы обеспечить плавное и  последовательное вождение.

EMMA принимает на вход данные от видеокамер, командные инструкции от навигационной системы («поверни направо», «ехать прямо»), исторический статус автомобиля в виде «вида сверху» (Bird’s Eye View (BEV)), и генерирует будущие траектории в виде набора точек маршрута в BEV-форматe.

Важные замечания:

  1. Self-supervised: для обучения не требуется ручная разметка данных, так как системе требуется только наблюдать за будущими местоположениями автомобиля.
  2. Используются только данные с камеры кругового обзора.
  3. HD-карты не нужны. Используется только маршрутная информация из навигационной системы (Google Maps).

2. Планирование с помощью цепочки рассуждений (Chain-of-Thought).

Используется подход для генерации смысловых цепочек (Chain-of-Thought (CoT)), который расширяет возможности рассуждения БЯМ и улучшает объяснимость. В EMMA рассуждения с помощью цепочки мыслей используются для генерации траектории: модель должна сформулировать  обоснование своего решения.
Для обоснования применяется следующая иерархия:

  1. R1 — Описание сцены (сценарии вождения, погода, время суток, дорожные условия). Пример: Погода ясная и солнечная, и сейчас день. Дорога представляет собой четырехполосную неразделенную улицу с пешеходным переходом посередине. По обеим сторонам улицы припаркованы машины.
  2. R2 — Критические объекты (объекты, которые потенциально могут влиять на вождение: пешеходы, автомобили с 3D/BEV-координатами). Пример: Пешеход в [9.01, 3.22], транспортное средство в [11.58, 0.35].
  3. R3 — Описание поведения объектов (описывает текущее состояние и намерение для идентифицированных объектов). Пример: Пешеход в настоящее время стоит на тротуаре, смотрит в сторону дороги и, возможно, готовится перейти улицу. Транспортное средство в настоящее время впереди меня, движется в том же направлении, и его будущая траектория предполагает, что оно продолжит движение прямо.
  4. R4 — Метарешение по вождению (включает 12 категорий высокоуровневых решений по вождению, обобщающих план вождения с учетом предыдущих наблюдений). Пример: я должен поддерживать свою текущую низкую скорость.

Во время обучения и вывода — модель предсказывает все четыре компонента обоснования вождения, прежде чем предсказывать будущие точки маршрута.

3. Универсальность благодаря одновременному обучению на выполнение  нескольких задач.

Сквозной автопилот должен выполнять комплексную задачу по данным с камер составить представление о трехмерном мире, распознавать
окружающие объекты и условия дорожного движения.
EMMA решает 3 основные задачи:

  1. Пространственное мышление — способность понимать, рассуждать и делать выводы об объектах и ​​их взаимосвязях в пространстве. Основная цель  — обнаружение 3D-объектов и формирование  выходных 3D-ограничительных рамок.
  2. Оценка дорожного графа — выявление критических элементов дороги для безопасного вождения, включая семантические элементы (разметку полос, знаки) и физические свойства (кривизну полосы).
    Совокупность этих элементов дороги образует дорожный граф (объекты и связи между ними).
  3. Понимание сцены — понимание моделью всего контекста сцены может быть важно для вождения. Например, дороги могут быть временно перекрыты из-за строительства, чрезвычайных ситуаций или других событий. Своевременное обнаружение этих преград и их  безопасный объезд имеют важное значение для обеспечения безопасной работы автопилота.

Совместное обучение (Co-Training) всем трём задачам приносит дополнительное улучшение (+5.5%), по сравнению с моделями обученными на выполнение только одной задачи.

Ограничения

Несмотря на демонстрируемые многообещающие результаты, отмечены следующие проблемы использование модели EMMA:

  1. ограничения в трёхмерном пространственном обосновании из-за её неспособности объединять входные данные камеры с LiDAR или радаром,
  2. ограничения по памяти: модель обрабатывает только ограниченное количество кадров (до 4) чего явно недостаточно для работы на длительный временной горизонт,
  3. контроль сигналов вождения — нет гарантии, что результаты модели всегда будут последовательными,
  4. требование значительных вычислительных мощностей для работы,
    по сравнению с обычными моделями. Для работы модели в режиме реального времени необходимо оптимизация модели или её преобразование в более компактную форму.

В общем, БЯМ и мультимодальность продолжают своё шествие.

Статьи

  1. Hwang J. J. et al. EMMA: End-to-End Multimodal Model for Autonomous Driving //arXiv preprint arXiv:2410.23262. – 2024.
  2. Team G. et al. Gemini: a family of highly capable multimodal models //arXiv preprint arXiv:2312.11805. – 2023.
  3. Wei J. et al. Chain-of-thought prompting elicits reasoning in large language models //Advances in neural information processing systems. – 2022. – Т. 35. – С. 24824-24837.

Ссылки

По теме


Добавить комментарий

Arduino

Что такое Arduino?
Зачем мне Arduino?
Начало работы с Arduino
Для начинающих ардуинщиков
Радиодетали (точка входа для начинающих ардуинщиков)
Первые шаги с Arduino

Разделы

  1. Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…

  2. Добрый день! Я недавно начал изучать программирование под STM32 и ваши уроки просто бесценны! Хотел узнать зачем использовать переменную типа…

3D-печать AI Arduino Bluetooth CraftDuino DIY Google IDE iRobot Kinect LEGO OpenCV Open Source Python Raspberry Pi RoboCraft ROS swarm ИК автоматизация андроид балансировать бионика версия видео военный датчик дрон интерфейс камера кибервесна манипулятор машинное обучение наше нейронная сеть подводный пылесос работа распознавание робот робототехника светодиод сервомашинка собака управление ходить шаг за шагом шаговый двигатель шилд юмор

OpenCV
Робототехника
Будущее за бионическими роботами?
Нейронная сеть - введение