RoboBrain 2.0 — открытая модель, предназначенная для управления роботами.
Модель обрабатывает изображения, видео и визуальные данные и понимает сложные текстовые инструкции.
Визуальные входные данные обрабатываются при помощи Vision Encoder и MLP Projector, а текстовые токенизируются в единый поток токенов. Далее все данные поступают в LLM Decoder, который сначала выполняет рассуждение, выводит структурированные планы, относительные и абсолютные координаты.
Ссылки
- RoboBrain 2.0: See Better. Think Harder. Do Smarter.
- https://github.com/FlagOpen/RoboBrain2.0
- https://huggingface.co/BAAI/RoboBrain2.0-7B
По теме
- π0.5 — новая модель для роботов от Physical Intelligence
- Nvidia GR00T — базовая ИИ-модель для обучения роботов
- Awesome-LLM-Robotics — список статей про использование больших языковых моделей в робототехнике
- Полина Федотова: AGI в робототехнике: прорыв с фундаментальными моделями
- LeRobot — открытые модели и утилиты для робототехники от Hugging Face
- OpenVLA — открытая модель Vision-Language-Action