Thomas Wolf (со-основатель и CSO HuggingFace) показал как можно сделать умного робота с именем «Немо» в 250 строчек кода.
Твит:
Time for the open-source AI robots revolution 🚀
We’ve been playing with a low-cost DJI robot controlled by 3 local open-source AI models (Whisper, Idefics2, Parler-TTS — all Apache2) & orchestrated by Dora-cs
In comments a 250 lines code gist to build on top of it => enjoy!!
В качестве базовой платформы они взяли готового робота — Dji RoboMaster. В качестве мозгов — ноутбук, на котором крутятся три локальных нейронных сетки (open source):
- whisper — отвечает за распознавание речи,
- Idefics2 — модель отвечает за преобразование изображения в текстовое описание,
- Parler-TTS — отвечает за преобразование текста в речь (голос робота).
Управляется всё при помощи dora-rs.
dora-rs — роботизированное приложение, ориентированное на поток данных. Представляет собой среду, которая делает создание роботизированных приложений быстрым и простым.
Обеспечивает низкую задержку, компонуемый и распределенный поток данных для создания ИИ и робототехнических приложений
Таким образом, код и модели крутятся на ноутбуке, а связь с роботом осуществляется по беспроводному интерфейсу.
Данный пример очень наглядно подтверждает тезис, что текущая парадигма роботов — «ChatGPT с актуаторами».
Ссылки
По теме
- Полина Федотова: AGI в робототехнике: прорыв с фундаментальными моделями
- Dobb·E — открытый проект по обучению робота выполнять домашние дела
- Awesome-LLM-Robotics — список статей про использование больших языковых моделей в робототехнике
- TidyBot — персонализированный робот-помощник на основе больших языковых моделей
- Boston Dynamics добавила ChatGPT своей робо-собаке Spot