Исследователи Waymo представили EMMA (End-to-End Multimodal Model for Autonomous Driving) — сквозную мультимодальную модель для автономного вождения.
EMMA — это автопилот на базе большой языковой модели (БЯМ), которая используется чтобы «обдумывать» дорожную ситуацию.
Примечательным является способ интеграции БЯМ (используется мультимодальная Gemini от Google): EMMA принимает изображения с камеры и обычный текст для других невизуальных входных данных, таких как высокоуровневые команды вождения и исторический контекст. Задачи вождения переформулируются как задача визуального ответа на вопрос (VQA), где и используются обширные знания о мире, которыми обладает Gemini.
Дообученная на логах вождения, и используя промпты специфичные для задачи вождения, модель Gemini генерирует выходные данные вождения, такие как будущие траектории для планирования движения, объекты восприятия, элементы дорожной разметки и семантику сцены.
Ключевые технические моменты:
1. Сквозное (end-to-end) планирование траектории.
EMMA имитирует поведение человека за рулём автомобиля, уделяя особое внимание двум критическим аспектам: (1) использование навигационных систем (Google Maps) для планирования маршрута, (2) учёт прошлых действий, чтобы обеспечить плавное и последовательное вождение.
EMMA принимает на вход данные от видеокамер, командные инструкции от навигационной системы («поверни направо», «ехать прямо»), исторический статус автомобиля в виде «вида сверху» (Bird’s Eye View (BEV)), и генерирует будущие траектории в виде набора точек маршрута в BEV-форматe.
Важные замечания:
- Self-supervised: для обучения не требуется ручная разметка данных, так как системе требуется только наблюдать за будущими местоположениями автомобиля.
- Используются только данные с камеры кругового обзора.
- HD-карты не нужны. Используется только маршрутная информация из навигационной системы (Google Maps).
2. Планирование с помощью цепочки рассуждений (Chain-of-Thought).
Используется подход для генерации смысловых цепочек (Chain-of-Thought (CoT)), который расширяет возможности рассуждения БЯМ и улучшает объяснимость. В EMMA рассуждения с помощью цепочки мыслей используются для генерации траектории: модель должна сформулировать обоснование своего решения.
Для обоснования применяется следующая иерархия:
- R1 — Описание сцены (сценарии вождения, погода, время суток, дорожные условия). Пример: Погода ясная и солнечная, и сейчас день. Дорога представляет собой четырехполосную неразделенную улицу с пешеходным переходом посередине. По обеим сторонам улицы припаркованы машины.
- R2 — Критические объекты (объекты, которые потенциально могут влиять на вождение: пешеходы, автомобили с 3D/BEV-координатами). Пример: Пешеход в [9.01, 3.22], транспортное средство в [11.58, 0.35].
- R3 — Описание поведения объектов (описывает текущее состояние и намерение для идентифицированных объектов). Пример: Пешеход в настоящее время стоит на тротуаре, смотрит в сторону дороги и, возможно, готовится перейти улицу. Транспортное средство в настоящее время впереди меня, движется в том же направлении, и его будущая траектория предполагает, что оно продолжит движение прямо.
- R4 — Метарешение по вождению (включает 12 категорий высокоуровневых решений по вождению, обобщающих план вождения с учетом предыдущих наблюдений). Пример: я должен поддерживать свою текущую низкую скорость.
Во время обучения и вывода — модель предсказывает все четыре компонента обоснования вождения, прежде чем предсказывать будущие точки маршрута.
3. Универсальность благодаря одновременному обучению на выполнение нескольких задач.
Сквозной автопилот должен выполнять комплексную задачу по данным с камер составить представление о трехмерном мире, распознавать
окружающие объекты и условия дорожного движения.
EMMA решает 3 основные задачи:
- Пространственное мышление — способность понимать, рассуждать и делать выводы об объектах и их взаимосвязях в пространстве. Основная цель — обнаружение 3D-объектов и формирование выходных 3D-ограничительных рамок.
- Оценка дорожного графа — выявление критических элементов дороги для безопасного вождения, включая семантические элементы (разметку полос, знаки) и физические свойства (кривизну полосы).
Совокупность этих элементов дороги образует дорожный граф (объекты и связи между ними). - Понимание сцены — понимание моделью всего контекста сцены может быть важно для вождения. Например, дороги могут быть временно перекрыты из-за строительства, чрезвычайных ситуаций или других событий. Своевременное обнаружение этих преград и их безопасный объезд имеют важное значение для обеспечения безопасной работы автопилота.
Совместное обучение (Co-Training) всем трём задачам приносит дополнительное улучшение (+5.5%), по сравнению с моделями обученными на выполнение только одной задачи.
Ограничения
Несмотря на демонстрируемые многообещающие результаты, отмечены следующие проблемы использование модели EMMA:
- ограничения в трёхмерном пространственном обосновании из-за её неспособности объединять входные данные камеры с LiDAR или радаром,
- ограничения по памяти: модель обрабатывает только ограниченное количество кадров (до 4) чего явно недостаточно для работы на длительный временной горизонт,
- контроль сигналов вождения — нет гарантии, что результаты модели всегда будут последовательными,
- требование значительных вычислительных мощностей для работы,
по сравнению с обычными моделями. Для работы модели в режиме реального времени необходимо оптимизация модели или её преобразование в более компактную форму.
В общем, БЯМ и мультимодальность продолжают своё шествие.
Статьи
- Hwang J. J. et al. EMMA: End-to-End Multimodal Model for Autonomous Driving //arXiv preprint arXiv:2410.23262. – 2024.
- Team G. et al. Gemini: a family of highly capable multimodal models //arXiv preprint arXiv:2312.11805. – 2023.
- Wei J. et al. Chain-of-thought prompting elicits reasoning in large language models //Advances in neural information processing systems. – 2022. – Т. 35. – С. 24824-24837.
Ссылки
По теме
- pi0 — фундаментальная модель для роботов от Physical Intelligence
- Awesome-LLM-Robotics — список статей про использование больших языковых моделей в робототехнике
- Полина Федотова: AGI в робототехнике: прорыв с фундаментальными моделями
- LeRobot — открытые модели и утилиты для робототехники от Hugging Face
- Microsoft предложила использовать ChatGPT для управления роботами