PARTNR - бенчмарк для задач планирования и рассуждений при взаимодействии человека и робота – Новости

PARTNR (Planning And Reasoning Tasks in humaN-Robot collaboration) — бенчмарк для задач планирования и рассуждений при взаимодействии человека и робота. Создан для оценки способности систем искусственного интеллекта (ИИ) к совместной работе с людьми при выполнении домашних (бытовых) задач.

Бенчмарк состоит из 100’000 задач на естественном языке, охватывающих 60 домов и 5819 уникальных объектов.

PARTNR фокусируется на 4 типах задач:

без ограничений (подзадачи могут быть выполнены любым способом любым агентом),
пространственные (содержат пространственные ограничения),
временные (требуют упорядоченного выполнения),
гетерогенные (включают действия, которые не могут быть выполнены одним из агентов).

Для генерации задач используется полуавтоматический подход с использованием больших языковых моделей (БЯМ, LLM) и симуляции (симулятор Habitat), что позволяет минимизировать ошибки, некорректные инструкции (галлюцинации) и невыполнимые действия.

Проведённый анализ современных БЯМ (Llama3.1-70B-Instruct) на задачах PARTNR выявил существенные ограничения в моделях ИИ (плохая координация, сбои в отслеживании задач и восстановлении после ошибок), что подчёркивает значительные трудности, с которыми сталкиваются воплощенные агенты.

Статьи

Chang M., Chhablani G., Clegg A., Cote M. D., Desai R., Hlavac M., Karashchuk V., Krantz J., Mottaghi R., Parashar P., others PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks // arXiv preprint arXiv:2411.00081. 2024.

Ссылки

По теме

Что такое Arduino? Зачем мне Arduino? Начало работы с Arduino Для начинающих ардуинщиков Радиодетали (точка входа для начинающих ардуинщиков) Первые шаги с Arduino

Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…

Добрый день! Я недавно начал изучать программирование под STM32 и ваши уроки просто бесценны! Хотел узнать зачем использовать переменную типа…

если у вас черное окно попробуйте так. #include <opencv2/opencv.hpp> #include<iostream> #include <stdlib.h> #include <stdio.h> using namespace cv; using namespace std;…

Для Python 3.4: pip3 install tensorflow-1.1.0-cp34-cp34m-linux_armv7l.whl https://github.com/samjabrahams/tensorflow-on-raspberry-pi

PORTB = (PORTB & 0b11100111) | (i & 0b00000011); А почему Вы обнуляете биты 3 и 4, а заполняете биты…

RoboCraft

PARTNR — бенчмарк для задач планирования и рассуждений при взаимодействии человека и робота

Добавить комментарий Отменить ответ