Исследователи из Беркли (Калифорния, США) продемонстрировали, что можно обучить двуногого робота ходить используя только симуляцию.
Долгое время считалось, что основной проблемой использования обучения с подкреплением в робототехнике является существующая разница между симуляцией и реальным миром: после тренировки робота в симуляторе — он запускается на реальном «железе» с существующими ограничениями и всё перестаёт работать.
Однако, новое исследование показывает, что всё-таки можно обучить робота только в симуляторе, а затем успешно запустить нейронную сеть на реальном роботе (Digit), без вмешательства человека (zero-shot transfer).
Оказалось, что если взять побольше данных и более мощную модель нейронной сети, то всё может получиться.
В данном исследовании, для симуляции использовался движок Nvidia IsaacGym. Симуляция и обучение шло на 4-х GPU A100 (10 миллиардов попыток за день).
В качестве модели использовался трансформер — на его вход подавалось состояние среды и прошлые действия, а на выходе — предсказание, что нужно делать дальше.
Метод обучения: PPO (proximal policy optimization — оптимизации проксимальной политики) — это алгоритм обучения с подкреплением, который использует методы оптимизации политики, чтобы обучать агентов выполнять действия.
Статьи
- Radosavovic I. et al. Real-World Humanoid Locomotion with Reinforcement Learning
- Radosavovic I. et al. Learning Humanoid Locomotion with Transformers //arXiv preprint arXiv:2303.03381. – 2023.
Ссылки
По теме