PARTNR — бенчмарк для задач планирования и рассуждений при взаимодействии человека и робота


PARTNR (Planning And Reasoning Tasks in humaN-Robot collaboration) — бенчмарк для задач планирования и рассуждений при взаимодействии человека и робота. Создан для оценки способности систем искусственного интеллекта (ИИ) к совместной работе с людьми при выполнении домашних (бытовых) задач.

Бенчмарк состоит из 100’000 задач на естественном языке, охватывающих 60 домов и 5819 уникальных объектов.

PARTNR фокусируется на 4 типах задач:

  1. без ограничений (подзадачи могут быть выполнены любым способом любым агентом),
  2. пространственные (содержат пространственные ограничения),
  3. временные (требуют упорядоченного выполнения),
  4. гетерогенные (включают действия, которые не могут быть выполнены одним из агентов).

Для генерации задач используется полуавтоматический подход с использованием больших языковых моделей (БЯМ, LLM) и симуляции (симулятор Habitat), что позволяет минимизировать ошибки, некорректные инструкции (галлюцинации) и невыполнимые действия.

Проведённый анализ современных БЯМ (Llama3.1-70B-Instruct) на задачах PARTNR выявил существенные ограничения в моделях ИИ (плохая координация, сбои в отслеживании задач и восстановлении после ошибок), что подчёркивает значительные трудности, с которыми сталкиваются воплощенные агенты.

Статьи

  1. Chang M., Chhablani G., Clegg A., Cote M. D., Desai R., Hlavac M., Karashchuk V., Krantz J., Mottaghi R., Parashar P., others PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks // arXiv preprint arXiv:2411.00081. 2024.

Ссылки

По теме


Добавить комментарий

Arduino

Что такое Arduino?
Зачем мне Arduino?
Начало работы с Arduino
Для начинающих ардуинщиков
Радиодетали (точка входа для начинающих ардуинщиков)
Первые шаги с Arduino

Разделы

  1. Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…

  2. Добрый день! Я недавно начал изучать программирование под STM32 и ваши уроки просто бесценны! Хотел узнать зачем использовать переменную типа…

3D-печать AI Arduino Bluetooth CraftDuino DIY Google IDE iRobot Kinect LEGO OpenCV Open Source Python Raspberry Pi RoboCraft ROS swarm ИК автоматизация андроид балансировать бионика версия видео военный датчик дрон интерфейс камера кибервесна манипулятор машинное обучение наше нейронная сеть подводный пылесос работа распознавание робот робототехника светодиод сервомашинка собака управление ходить шаг за шагом шаговый двигатель шилд юмор

OpenCV
Робототехника
Будущее за бионическими роботами?
Нейронная сеть - введение