-
ASIMOV Benchmark — тест на определение небезопасных действий
Ещё недавно казалось, что запрограммировать знаменитые три закона робототехники Азимова нереально, но с появлением больших языковых моделей (БЯМ, LLM) и развития текущей парадигмы роботов, как «ChatGPT с актуаторами» это стало не только возможным, но и необходимым. Исследователи из Google DeepMind представили ASIMOV Benchmark — контрольный тест на определение небезопасных действий.
-
Florence-2 — универсальная модель для компьютерного зрения
Florence-2 — универсальная модель для компьютерного зрения от исследователей из Microsoft.
-
EMMA — мультимодальная модель для управления автомобилем от Waymo
Исследователи Waymo представили EMMA (End-to-End Multimodal Model for Autonomous Driving) — сквозную мультимодальную модель для автономного вождения.
-
Резервуарные вычисления для бортового ИИ
Авторы статьи Classical and Quantum Physical Reservoir Computing for Onboard Artificial Intelligence Systems: A Perspective поднимают вопрос о высоком энергопотреблении современных систем искусственного интеллекта (ИИ), что сильно ограничивает возможности автономной работы роботов, дронов и беспилотных автомобилей. Авторы отмечают, что решить эту проблему с помощью традиционных вычислительных устройств — невозможно, поэтому они рассматривают перспективы использования резервуарных…
-
Molmo — семейство открытых мультимодальных AI-моделей
Molmo (Multimodal Open Language Model) — открытая мультимодальная модель, умеющая обрабатывать картинки и текст (vision-language model (VLM)).
-
HumanPlus — имитация действий людей роботом-андроидом
Исследователи из Стэнфорда использовали 40-часовой набор данных о движениях человека чтобы обучить робота повторять движения человека по данным от RGB-камеры.
-
OpenVLA — открытая модель Vision-Language-Action
OpenVLA — это модель Vision-Language-Action (VLA) с открытым исходным кодом.
-
LeRobot — открытые модели и утилиты для робототехники от Hugging Face
LeRobot — это открытые модели и утилиты машинного обучения для робототехники от Hugging Face 🤗.
-
Self-Discover — подход к использованию различных техник рассуждения для LLM
Как уже отмечалось, для успешного использования универсального робота — его требуется научить разбивать сложные цели/команды на простые выполнимые задачи. Простого добавления к промпту «Let’s think step by step.» [1] может оказаться недостаточно. Как же тогда научить робота думать?
-
Нейросеть Jack of All Trades от HuggingFace — открытый аналог Gato от Deepmind
HuggingFace опубликовали свою открытую реализацию нейросети Gato. Назвали эту сеть — «Мастер на все руки» (Jack of All Trades (JAT)).
Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…