Компания Google DeepMind совместно с 33-мя академическими лабораториями собрали крупнейший набор данных Open X-Embodiment dataset.
Данные представляют собой более 1 миллиона траекторий от 22 различных роботов (от одноруких роботов-манипуляторов до двуручных и даже четвероногих роботов), реализующих 527 навыков (160266 задач).
Фактически, набор данных Open X-Embodiment был построен путем объединения 60 существующих наборов данных роботов из 33 робототехнических исследовательских лабораторий по всему миру, путём преобразования их в единый формат данных для удобной загрузки и применения. Используется формат данных RLDS, который сохраняет данные в сериализованных файлах tfrecord.
Так же была показана работа моделей RT-X, которые представляет собой модели, созданные на основе двух предыдущих моделей робототехнических трансформеров: RT-1 (35M) и RT-2 (семейство моделей).
Обученная на данных Open X-Embodiment, RT-1-X превосходит исходную модель RT-1 в среднем на 50%, а модель RT-2-X (55B) оказалась в три раза успешнее модели RT-2 в отношении новых навыков.
Данные результаты показывают, что совместное обучение на данных с других платформ наделяет RT-2-X дополнительными навыками, которых не было в исходном наборе данных RT-2, что позволяет роботу выполнять новые задачи (но только при использовании архитектуры модели достаточно высокой ёмкости).
Фактически, появление данного набора данных обещает существенный прорыв в обучении роботов различным манипуляциям, как появление ImageNet обеспечило прорыв применения методов глубокого обучения в области компьютерного зрения и распознавания изображений.
Статьи
- Padalkar A. et al. Open X-Embodiment: Robotic Learning Datasets and RT-X Models //arXiv preprint arXiv:2310.08864. – 2023.
Ссылки
- Open X-Embodiment: Robotic Learning Datasets and RT-X Models
- Scaling up learning across many different robot types
- RT-2: New model translates vision and language into action
По теме