PARTNR (Planning And Reasoning Tasks in humaN-Robot collaboration) — бенчмарк для задач планирования и рассуждений при взаимодействии человека и робота. Создан для оценки способности систем искусственного интеллекта (ИИ) к совместной работе с людьми при выполнении домашних (бытовых) задач.
Бенчмарк состоит из 100’000 задач на естественном языке, охватывающих 60 домов и 5819 уникальных объектов.
PARTNR фокусируется на 4 типах задач:
- без ограничений (подзадачи могут быть выполнены любым способом любым агентом),
- пространственные (содержат пространственные ограничения),
- временные (требуют упорядоченного выполнения),
- гетерогенные (включают действия, которые не могут быть выполнены одним из агентов).
Для генерации задач используется полуавтоматический подход с использованием больших языковых моделей (БЯМ, LLM) и симуляции (симулятор Habitat), что позволяет минимизировать ошибки, некорректные инструкции (галлюцинации) и невыполнимые действия.
Проведённый анализ современных БЯМ (Llama3.1-70B-Instruct) на задачах PARTNR выявил существенные ограничения в моделях ИИ (плохая координация, сбои в отслеживании задач и восстановлении после ошибок), что подчёркивает значительные трудности, с которыми сталкиваются воплощенные агенты.
Статьи
- Chang M., Chhablani G., Clegg A., Cote M. D., Desai R., Hlavac M., Karashchuk V., Krantz J., Mottaghi R., Parashar P., others PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks // arXiv preprint arXiv:2411.00081. 2024.
Ссылки
По теме