Компания Google DeepMind выпустила новые модели для робототехники: Gemini Robotics 1.5 и Gemini Robotics-ER 1.5.
Если Gemini Robotics 1.5 — это модель «зрение-язык-действие» (vision-language-action, VLA), предназначенная для непосредственного управления роботами, то ER — это embodied reasoning, т.е. модель умеет рассуждать, что позволяет ей справляться со сложными заданиями
Gemini Robotics-ER 1.5 предлагает новые возможностей, специально разработанные для робототехнических приложений:
- Пространственное мышление (Возможность пространственного понимания, предоставляется моделью Gemini Flash. Модель умеет генерировать семантически точные двумерные точки, основанные на рассуждениях о размерах, весе и возможностях предметов.).
- Расширенное агентное поведение (Использование пространственного и временного мышления, планирования и обнаружения успеха выполнения задач. Возможность вызова внешних инструментов: поиск (Google Search), сторонние пользовательские функции.).
- Регулирование ресурса мышления (Контроль соотношения задержки и точности: модель может «думать дольше» для решения сложной задачи (например, планирования многоэтапной сборки), или, наоборот — отвечать быстро для простой задачи (обнаружение или указание объекта)).
- Улучшенные фильтры безопасности (Улучшена семантическая безопасность модели. Теперь модель лучше распознаёт и отклоняет создание планов, нарушающих физические ограничения робота).
Фактически, Gemini Robotics-ER 1.5 выступает мозгом для робота. Модель способна понимать сложные команды на естественном языке, выполнять долгосрочные задачи и организовывать сложное поведение.
Gemini Robotics-ER 1.5 может разбить сложный запрос, например, «убрать со стола», на план и вызвать необходимые инструменты для выполнения задачи, будь то аппаратный API робота, специализированная модель захвата или VLA-модель для управления моторикой.
Попробовать модель Gemini Robotics-ER 1.5 можно в Google AI Studio.
Ссылки
По теме
- Gemini Robotics — модели для роботов от Google
- Helix — универсальная модель от Figure AI
- pi0 — фундаментальная модель для роботов от Physical Intelligence
- Nvidia GR00T — базовая ИИ-модель для обучения роботов
- LeRobot — открытые модели и утилиты для робототехники от Hugging Face
- Yann LeCun предсказывает десятилетие робототехники и новую парадигму ИИ
- Полина Федотова: AGI в робототехнике: прорыв с фундаментальными моделями
- Awesome-LLM-Robotics — список статей про использование больших языковых моделей в робототехнике