PARTNR (Planning And Reasoning Tasks in humanN-Robot collaboration) - бенчмарк, разработанный для оценки способности ИИ к совместной работе с людьми в бытовых задачах.
PARTNR состоит из 100 000 задач на естественном языке, 60 домов и 5 819 уникальных объектов. Задачи разделены на 4 типа: без ограничений, пространственные, временные и гетерогенные, где действия могут быть выполнены только человеком.
Для генерации задач используется полуавтоматический подход с применением LLM и симуляции в реальном времени. Это позволяет минимизировать ошибки, галлюцинации (некорректные инструкции) и невыполнимые действия. В процессе генерации задачи фильтруются с помощью симуляции и аннотируются вручную для разнообразия и точности.
На бенчмарке были проведены эксперименты с использованием LLM для планирования задач. Исследовались различные подходы zero-shot prompting, fine-tuning и RAG. Модели тестировались в условиях полной и частичной наблюдаемости, с централизованным и децентрализованным управлением.
Результаты тестов показали, что LLM испытывают трудности с координацией, отслеживанием задач и восстановлением после ошибок. Например, в децентрализованных настройках выполнение задач занимает на 30% больше шагов по сравнению с централизованным управлением.
Особое внимание уделялось оценке взаимодействия LLM с реальными людьми. По итогам тестирований LLM требуют на 50% больше шагов для выполнения задач по сравнению с людьми.
Прикладная реализация PARTNR содержит абстракции, позволяющие агентам выполнять инструкции на естественном языке в свободной форме в симуляторе Habitat.
Основные абстракции: агент, планировщик, инструмент и навык. Агент имеет доступ к набору инструментов, которые позволяют ему воспринимать состояние среды или взаимодействовать с ней, используя низкоуровневые навыки.
@ai_machinelearning_big_data
#AI #ML #Benchmark #PARTNR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40❤16🔥5