Gemini Robotics — модели для роботов от Google


Компания Google DeepMind представила свои модели для роботов — Gemini Robotics.

Представлены две новые ИИ-модели на основе Gemini 2.0:

  1. Gemini Robotics — усовершенствованная модель «зрение-язык-действие» (vision-language-action, VLA), которая построена на Gemini 2.0 с добавлением физических действий в качестве новой выходной модальности для прямого управления роботами.
  2. Gemini Robotics-ER — модель Gemini с расширенным пространственным пониманием, позволяющая запускать собственные программы, используя возможности воплощенного рассуждения (embodied reasoning, ER).

Модели позволяют роботам выполнять широкий спектр задач в реальном мире и уже тестируются в работе (Apptronik, Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools). В сотрудничестве с Apptronik разрабатывается следующее поколение человекоподобных роботов с Gemini 2.0.

Gemini Robotics

Ключевой посылкой при создании Gemini Robotics было суждение о том, что для того чтобы быть полезными, ИИ-модели для робототехники должны обладать тремя основными качествами:

  1. они должны обладать достаточной обобщающей способностью — то есть должны быть способны адаптироваться к различным ситуациям;
  2. они должны быть интерактивными — то есть они должны понимать и быстро реагировать на инструкции или изменения в своей среде;
  3. они должны быть ловкими — то есть они должны делать то, что люди обычно могут делать руками и пальцами (например, осторожно манипулировать объектами).

Модели Gemini Robotics создавались с учётом существующего разнообразия роботов, и хотя модель обучали на данных с двурукой роботизированной платформы ALOHA 2, но она также может управлять двурукой платформой на основе рук Franka и может быть настроена для  более сложных роботов (например, таких как гуманоидный робот Apollo, разработанный Apptronik).

Gemini Robotics-ER

Gemini Robotics-ER — это усовершенствованная VLM-модель (vision-language model), улучшающая понимание мира, необходимое для робототехники. Особое внимание уделено пространственному мышлению (указание, 3D-обнаружение), что позволяет связывать его с существующими контроллерами низкого уровня. Например, если показать кофейную кружку, модель сможет понять, как правильно взять её за ручку двумя пальцами, и выбрать безопасную траекторию для приближения к ней.

ASIMOV Benchmark

Представлен новый набор данных — ASIMOV Benchmark, предназначенный для оценки и улучшения семантической безопасности в воплощенном ИИ и робототехнике.

далее: ASIMOV Benchmark — тест на определение небезопасных действий

Статьи

  1. Gemini Robotics: Bringing AI into the Physical World

Ссылки

По теме


Добавить комментарий

Arduino

Что такое Arduino?
Зачем мне Arduino?
Начало работы с Arduino
Для начинающих ардуинщиков
Радиодетали (точка входа для начинающих ардуинщиков)
Первые шаги с Arduino

Разделы

  1. Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…

  2. Добрый день! Я недавно начал изучать программирование под STM32 и ваши уроки просто бесценны! Хотел узнать зачем использовать переменную типа…

3D-печать AI Arduino Bluetooth CraftDuino DIY Google IDE iRobot Kinect LEGO OpenCV Open Source Python Raspberry Pi RoboCraft ROS swarm ИК автоматизация андроид балансировать бионика версия видео военный датчик дрон интерфейс камера кибервесна манипулятор машинное обучение наше нейронная сеть подводный пылесос работа распознавание робот робототехника светодиод сервомашинка собака управление ходить шаг за шагом шаговый двигатель шилд юмор

OpenCV
Робототехника
Будущее за бионическими роботами?
Нейронная сеть - введение