Исследователи из Google DeepMind показали проект RoboCat, который представляет собой самообущающуюся ИИ-систему для управления роботами-манипуляторами.
Как работает RoboCat
В основе RoboCat лежит разработанная ранее мультимодальная модель Gato, которая умеет обрабатывать текстовые данные, изображения, аналоговые и дискретные данные. Gato обучили на большом наборе последовательностей изображений и действий различных манипуляторов, решающих сотни различных задач.
После этого первого раунда обучения, RoboCat запустили в режиме «самосовершенствования» на наборе задач, которые модель раньше не видела. Обучение каждой новой задаче проходило в пять этапов:
- Собрать от 100 до 1000 демонстраций новой задачи или робота, используя робот-манипулятор, управляемый человеком.
 - Настроить RoboCat на эту новую задачу/манипулятор, создав специализированного агента.
 - Специализированный агент практикуется с этой новой задачей/манипулятором около 10’000 раз, генерируя больше обучающих данных.
 - Расширение тренировочного набора данных за счёт новых самостоятельно сгенерированных данных.
 - Обучение новой версии RoboCat на новом тренировочном наборе данных.
 
Подобный подход приводит к тому, что новая версия RoboCat обучается на наборе данных из миллионов траекторий как реальных, так и смоделированных манипуляторов, включая данные, сгенерированные самостоятельно.
Подобный подход позволяет снизить потребность в обучении под присмотром человека и позволяет продвинуться на пути к созданию универсального робота. Например, первая версия RoboCat успешно выполняла ранее неизвестные задачи только в 36% случаев, а после изучения 500 демонстраций каждой задачи — удвоила показатель успеха выполнения задач (74%).
Статьи
- Bousmalis K. et al. RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation //arXiv preprint arXiv:2306.11706. – 2023.
 
Ссылки
По теме
- Нейросеть Gato от Deepmind способна выполнять более 600 задач
 - PaLM-E — мультимодальная языковая модель для управления роботами
 - ALOHA — система для обучения тонкой бимануальной манипуляции
 - Метод ROSIE — «масштабирование обучения роботов с помощью семантически воображаемого опыта»
 - Microsoft предложила использовать ChatGPT для управления роботами
 
