Исследователи из Стэнфордского университета (США) представили концепцию новой системы интерфейса «мозг-робот»: NOIR (Neural Signal Operated Intelligent Robots — Интеллектуальные роботы, управляемые нейронными сигналами).
Система «мозг-робот» (brain-robot interface — BRI) позволяет людям с помощью сигналов мозга (используются данные электроэнцефалографии (ЭЭГ)) управлять роботом и с его помощью выполнять повседневные действия.
Суть NOIR состоит в использовании специальной системы декодирования намерений человека из сигналов ЭЭГ. Для этого используется несколько модулей, каждый из которых отвечает на свой вопрос:
(a) Что? Для выбора объекта манипуляции используется декодирование Устойчивых визуальных вызванных потенциалов (steady state visually evoked potentials (SSVEP)) с использованием классификаторов CCA ( Canonical Correlation Analysis);
(b) Как? Для способа взаимодействия с объектом используется декодирование сигналов Моторных образов (motor imagery (MI)) с использованием алгоритмов CSP+QDA;
(c) Где? Параметры взаимодействия так же декодируются из сигналов MI.
Пользователь контролирует правильность результатов декодирования, и может подтвердить или отклонить действие, для чего у пользователя считывается сжатие мышц челюстей.
Для выбора объекта, пользователь NOIR смотрит на экран, на котором демонстрируются объекты, мерцающие с разными частотами. При фокусировки пользователя на объекте — у него формируется SSVEP. По данным ЭЭГ можно определить какая частота в ЭЭГ сильнее и тогда можно сделать вывод о частоте мерцающего зрительного стимула, а следовательно и об объекте, на котором фокусируется пользователь. Ранее — для подобных задач использовались мерцающие светодиоды, но здесь используется модель (трансформер) OWL-ViT, выполняющая детектирование и вывод масок сегментации объектов. Далее на каждую маску накладываются различные частоты мерцания (6 Гц, 7.5 Гц, 8.57 Гц и 10 Гц). Пользователь должен сосредоточиться на нужном объекте в течение 10 секунд, что позволяет идентифицировать требуемый объект.
Для выбора действий пользователь NOIR должен мысленно представить одно из 4 движений: левая рука, правая рука, ноги, отдых (для обучения классификатора на эти действия выполняется предварительная 10-минутная процедура калибровки системы).
Для определения требуемых моторных образов, сигнал ЭЭГ подвергается полосовой фильтрации в диапазоне от 8 Гц до 30 Гц (этот диапазон включает частоты µ- и β-диапазонов, которые коррелируют с активностью MI), нарезается на 5-секундные сегменты и обрабатывается при помощи алгоритмов CSP (common spatial pattern — общий пространственный шаблон) и QDA (quadratic discriminant analysis — квадратичный дискриминантный анализ).
Для контроля безопасности системы распознавания, дополнительно считываются электрические сигналы напряжения лицевых мышц (электромиография (ЭМГ)). Этот сигнал появляется, когда пользователи хмурятся или сжимают челюсти, что указывает системе на
отрицательный ответ. Сигнал ЭМГ намного сильнее, чем ЭЭГ и точность его обнаружения крайне высокая, что позволяет его использование для подтверждения или отклонения выбора объекта, навыка или параметра.
Так как расшифровка намерений человека требует довольно много времени, то представленная система NOIR оптимизирует выбор объектов, навыков и параметров в зависимости от текущего контекста. Для этого система находит в памяти наиболее релевантный опыт и выбирает соответствующий навык и объект. Для этого используются модель R3M, обученная сопоставлению объектов и соответствующих навыков.
Статьи
- Zhang R. et al. NOIR: Neural Signal Operated Intelligent Robots for Everyday Activities //arXiv preprint arXiv:2311.01454. – 2023.
Ссылки
По теме