OpenVLA - открытая модель Vision-Language-Action – Машинное обучение

OpenVLA — это модель Vision-Language-Action (VLA) с открытым исходным кодом.

В основе OpenVLA лежит большая языковая модель Llama 2 с 7 млрд. параметров и визуальный кодировщик (ViT), который объединяет предварительно обученный DINOv2 и SigLIP.

VLA обучен на коллекции из 970 тысяч реальных демонстраций роботов (Open X-Embodiment dataset).

На вход модели подаются текстовый промпт и изображения с камеры, а на выходе модель генерирует действия робота.

Модель можно загрузить с HuggingFace 🤗.

Статьи

Kim M. J. et al. OpenVLA: An Open-Source Vision-Language-Action Model //arXiv preprint arXiv:2406.09246. – 2024.

Ссылки

По теме

Что такое Arduino? Зачем мне Arduino? Начало работы с Arduino Для начинающих ардуинщиков Радиодетали (точка входа для начинающих ардуинщиков) Первые шаги с Arduino

Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…

Добрый день! Я недавно начал изучать программирование под STM32 и ваши уроки просто бесценны! Хотел узнать зачем использовать переменную типа…

если у вас черное окно попробуйте так. #include <opencv2/opencv.hpp> #include<iostream> #include <stdlib.h> #include <stdio.h> using namespace cv; using namespace std;…

Для Python 3.4: pip3 install tensorflow-1.1.0-cp34-cp34m-linux_armv7l.whl https://github.com/samjabrahams/tensorflow-on-raspberry-pi

PORTB = (PORTB & 0b11100111) | (i & 0b00000011); А почему Вы обнуляете биты 3 и 4, а заполняете биты…

RoboCraft

OpenVLA — открытая модель Vision-Language-Action

Добавить комментарий Отменить ответ