OpenVLA — это модель Vision-Language-Action (VLA) с открытым исходным кодом.
В основе OpenVLA лежит большая языковая модель Llama 2 с 7 млрд. параметров и визуальный кодировщик (ViT), который объединяет предварительно обученный DINOv2 и SigLIP.
VLA обучен на коллекции из 970 тысяч реальных демонстраций роботов (Open X-Embodiment dataset).
На вход модели подаются текстовый промпт и изображения с камеры, а на выходе модель генерирует действия робота.
Модель можно загрузить с HuggingFace 🤗.
Статьи
- Kim M. J. et al. OpenVLA: An Open-Source Vision-Language-Action Model //arXiv preprint arXiv:2406.09246. – 2024.
Ссылки
- OpenVLA: An Open-Source Vision-Language-Action Model
- https://huggingface.co/openvla
- https://github.com/openvla/openvla
По теме
- LeRobot — открытые модели и утилиты для робототехники от Hugging Face
- Google DeepMind представила набор данных Open X-Embodiment dataset и новые модели RT-X, предназначенные для освоения роботами новых навыков
- Нейросеть Jack of All Trades от HuggingFace — открытый аналог Gato от Deepmind
- Mobile ALOHA — мобильный робот для сбора данных и обучения манипуляции
- Dobb·E — открытый проект по обучению робота выполнять домашние дела
- Awesome-LLM-Robotics — список статей про использование больших языковых моделей в робототехнике
- TidyBot — персонализированный робот-помощник на основе больших языковых моделей