OpenVLA — открытая модель Vision-Language-Action


OpenVLA — это модель Vision-Language-Action (VLA) с открытым исходным кодом.

В основе OpenVLA лежит большая языковая модель Llama 2 с 7 млрд. параметров и визуальный кодировщик (ViT), который объединяет предварительно обученный DINOv2 и SigLIP.

VLA обучен на коллекции из 970 тысяч реальных демонстраций роботов (Open X-Embodiment dataset).

На вход модели подаются текстовый промпт и изображения с камеры, а на выходе  модель генерирует действия робота.

Модель можно загрузить с HuggingFace 🤗.

Статьи

  1. Kim M. J. et al. OpenVLA: An Open-Source Vision-Language-Action Model //arXiv preprint arXiv:2406.09246. – 2024.

Ссылки

По теме


Добавить комментарий

Arduino

Что такое Arduino?
Зачем мне Arduino?
Начало работы с Arduino
Для начинающих ардуинщиков
Радиодетали (точка входа для начинающих ардуинщиков)
Первые шаги с Arduino

Разделы

  1. Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…

  2. Добрый день! Я недавно начал изучать программирование под STM32 и ваши уроки просто бесценны! Хотел узнать зачем использовать переменную типа…

3D-печать AI Android Arduino Bluetooth CraftDuino DIY IDE iRobot Kinect LEGO OpenCV Open Source Python Raspberry Pi RoboCraft ROS swarm ИК автоматизация андроид балансировать бионика версия видео военный датчик дрон интерфейс камера кибервесна манипулятор машинное обучение наше нейронная сеть подводный пылесос работа распознавание робот робототехника светодиод сервомашинка собака управление ходить шаг за шагом шаговый двигатель шилд юмор

OpenCV
Робототехника
Будущее за бионическими роботами?
Нейронная сеть - введение