Интересный подход к использованию больших языковых моделей (вроде GPT-3) в робототехнике, показали в робототехническом подразделении Google, управляя мобильным роботом-манипулятором Everyday Robots при помощи команд на естественном языке.
Используя большие языковые модели в роли носителя семантических знаний о мире, авторы применяют их для обработки соответствующих высокоуровневых инструкций, выраженных на естественном языке.
Главная трудность подобной задачи — моделям не хватает контекста реального мира. Поэтому, например, просьба к языковой модели описать, как вытереть пролитую газировку, может и приведёт к разумному текстовому ответу, но он не сможет быть применим к конкретному роботу, которому и необходимо выполнить эту задачу.
Исследователи предложили реализовать «заземление» действий робота, используя предварительно обученный набор действий, которые используются в соответствии с описаниями этих действий на естественном языке. Робот, в данном случае, выступает в роли «рук и глаз» языковой модели, в то время как языковая модель предоставляет семантические знания высокого уровня о задаче. В комбинации низкоуровневых задач с большими языковыми моделями — языковая модель даёт высокоуровневые знания о процедурах выполнения сложных и протяженных во времени инструкций, а функционал, связанный с этими задачами, даёт основу, необходимую для реализации этих знаний мобильным роботом-манипулятором.
Статьи
Ссылки
По теме
- Роботы Everyday Robots от Alphabet начали выполнять уборку в офисе Google
- Alphabet X представила проект Everyday Robot Project
- Google занялась разработкой собственных роботов
- Наши будущие отношения с роботами будут похожи на наши отношения с одомашненными животными
- Учиться жить с роботами
- Видео о том как выжить при восстании роботов