Исследователи из Google DeepMind показали проект RoboCat, который представляет собой самообущающуюся ИИ-систему для управления роботами-манипуляторами.
Как работает RoboCat
В основе RoboCat лежит разработанная ранее мультимодальная модель Gato, которая умеет обрабатывать текстовые данные, изображения, аналоговые и дискретные данные. Gato обучили на большом наборе последовательностей изображений и действий различных манипуляторов, решающих сотни различных задач.
После этого первого раунда обучения, RoboCat запустили в режиме «самосовершенствования» на наборе задач, которые модель раньше не видела. Обучение каждой новой задаче проходило в пять этапов:
- Собрать от 100 до 1000 демонстраций новой задачи или робота, используя робот-манипулятор, управляемый человеком.
- Настроить RoboCat на эту новую задачу/манипулятор, создав специализированного агента.
- Специализированный агент практикуется с этой новой задачей/манипулятором около 10’000 раз, генерируя больше обучающих данных.
- Расширение тренировочного набора данных за счёт новых самостоятельно сгенерированных данных.
- Обучение новой версии RoboCat на новом тренировочном наборе данных.
Подобный подход приводит к тому, что новая версия RoboCat обучается на наборе данных из миллионов траекторий как реальных, так и смоделированных манипуляторов, включая данные, сгенерированные самостоятельно.
Подобный подход позволяет снизить потребность в обучении под присмотром человека и позволяет продвинуться на пути к созданию универсального робота. Например, первая версия RoboCat успешно выполняла ранее неизвестные задачи только в 36% случаев, а после изучения 500 демонстраций каждой задачи — удвоила показатель успеха выполнения задач (74%).
Статьи
- Bousmalis K. et al. RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation //arXiv preprint arXiv:2306.11706. – 2023.
Ссылки
По теме
- Нейросеть Gato от Deepmind способна выполнять более 600 задач
- PaLM-E — мультимодальная языковая модель для управления роботами
- ALOHA — система для обучения тонкой бимануальной манипуляции
- Метод ROSIE — «масштабирование обучения роботов с помощью семантически воображаемого опыта»
- Microsoft предложила использовать ChatGPT для управления роботами