Компания Google DeepMind представила свои модели для роботов — Gemini Robotics.
Представлены две новые ИИ-модели на основе Gemini 2.0:
- Gemini Robotics — усовершенствованная модель «зрение-язык-действие» (vision-language-action, VLA), которая построена на Gemini 2.0 с добавлением физических действий в качестве новой выходной модальности для прямого управления роботами.
- Gemini Robotics-ER — модель Gemini с расширенным пространственным пониманием, позволяющая запускать собственные программы, используя возможности воплощенного рассуждения (embodied reasoning, ER).
Модели позволяют роботам выполнять широкий спектр задач в реальном мире и уже тестируются в работе (Apptronik, Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools). В сотрудничестве с Apptronik разрабатывается следующее поколение человекоподобных роботов с Gemini 2.0.
Gemini Robotics
Ключевой посылкой при создании Gemini Robotics было суждение о том, что для того чтобы быть полезными, ИИ-модели для робототехники должны обладать тремя основными качествами:
- они должны обладать достаточной обобщающей способностью — то есть должны быть способны адаптироваться к различным ситуациям;
- они должны быть интерактивными — то есть они должны понимать и быстро реагировать на инструкции или изменения в своей среде;
- они должны быть ловкими — то есть они должны делать то, что люди обычно могут делать руками и пальцами (например, осторожно манипулировать объектами).
Модели Gemini Robotics создавались с учётом существующего разнообразия роботов, и хотя модель обучали на данных с двурукой роботизированной платформы ALOHA 2, но она также может управлять двурукой платформой на основе рук Franka и может быть настроена для более сложных роботов (например, таких как гуманоидный робот Apollo, разработанный Apptronik).
Gemini Robotics-ER
Gemini Robotics-ER — это усовершенствованная VLM-модель (vision-language model), улучшающая понимание мира, необходимое для робототехники. Особое внимание уделено пространственному мышлению (указание, 3D-обнаружение), что позволяет связывать его с существующими контроллерами низкого уровня. Например, если показать кофейную кружку, модель сможет понять, как правильно взять её за ручку двумя пальцами, и выбрать безопасную траекторию для приближения к ней.
ASIMOV Benchmark
Представлен новый набор данных — ASIMOV Benchmark, предназначенный для оценки и улучшения семантической безопасности в воплощенном ИИ и робототехнике.
далее: ASIMOV Benchmark — тест на определение небезопасных действий
Статьи
Ссылки
- Gemini Robotics brings AI into the physical world
- Gemini Robotics
- Generating Robot Constitutions & Benchmarks for Semantic Safety
По теме
- Helix — универсальная модель от Figure AI
- pi0 — фундаментальная модель для роботов от Physical Intelligence
- Nvidia GR00T — базовая ИИ-модель для обучения роботов
- LeRobot — открытые модели и утилиты для робототехники от Hugging Face
- Yann LeCun предсказывает десятилетие робототехники и новую парадигму ИИ
- Полина Федотова: AGI в робототехнике: прорыв с фундаментальными моделями
- Awesome-LLM-Robotics — список статей про использование больших языковых моделей в робототехнике