Исследователи из MIT CSAIL и Shanghai Jiao Tong University представили проект GenSim, который демонстрирует подход по генерации данных для обучения роботов, при помощи больших языковых моделей (БЯМ, LLM).
Сбор данных для обучения роботов различным навыкам является чрезвычайно трудоёмкой и дорогой задачей (пример можно посмотреть в наборе данных RH20T). Поэтому использование различных методов для генерации синтетических данных может быть крайне полезно.
Обычно подобные методы генерации данных направлены на разнообразие на уровне сцены (различное положение объектов), а не на вариативность на уровне задач, так как для постановки и проверки новых задач требуется контроль со стороны человека. Для преодоления этого ограничения, авторы предлагают создать среду моделирования и демонстрации с использованием больших языковых моделей.
GenSim имеет два режима работы:
- целенаправленная генерация, при которой целевая задача передается в LLM, и LLM предлагает учебную программу для решения целевой задачи,
- исследовательская генерация, при которой LLM на основе предыдущих задач итеративно предлагает новые задачи, которые будут полезны при решении более сложных задач.
В качестве LLM авторы используют GPT4 и показывают, что данный подход позволяет улучшить обучение роботов.
Статьи
- Wang L. et al. GenSim: Generating Robotic Simulation Tasks via Large Language Models //arXiv preprint arXiv:2310.01361. – 2023.
Ссылки
- GenSim: Generating Robotic Simulation Tasks via Large Language Models
- код — https://github.com/liruiw/GenSim
- демо — Generative Simulation Interactive Demo
По теме
- Метод ROSIE — «масштабирование обучения роботов с помощью семантически воображаемого опыта»
- RH20T — набор данных для обучения роботов различным навыкам
- Масштабирование и дистилляция для обучения роботов низкоуровневым манипуляциям
- ALOHA — система для обучения тонкой бимануальной манипуляции
- RoboCat — проект системы для управления роботами-манипуляторами от Google Deepmind
- TidyBot — персонализированный робот-помощник на основе больших языковых моделей
- Microsoft предложила использовать ChatGPT для управления роботами
- PaLM-E — мультимодальная языковая модель для управления роботами