Компания Deepmind показала свою новую нейросеть Gato, которая способна выполнять более 600 задач: умеет разговаривать, играть в игры и управлять роботом.
В основе идеи использования подобной нейросети лежит подход к созданию единой системы, которая действует как многомодальный, многозадачный и многовариантный универсальный агент. То есть одна и та же сеть может играть в Atari, описывать изображения, общаться в чате и даже управлять настоящим манипулятором робота (для укладывания блоков).
Сама сеть — Трансформер (1.2 млрд. параметров, 24 слоя, эмбеддинг — 2048). Интереснее, как происходит её обучение, во время которого данные из различных задач и модальностей сериализуются в плоскую последовательность токенов, группируются и подаются на вход нейросети, где обрабатываются большой языковой моделью. Результат работы сети — предсказания действий.
Для токенизации различных типов данных используются различные подходы:
- текст токенизируется со словарём 32000,
- изображения представляются в виде набора патчей 16×16 (принцип используемый в Vision Transformer (ViT)), а значения пикселей нормализуется в диапазон [-1, 1] и делятся на корень из размера патча (√16 = 4 — вот прямо эта формула из статьи 🙂 ),
- дискретные значения (вроде нажатий на кнопки в Atari) преобразуются в последовательность целых чисел в диапазоне [0, 1024),
- непрерывные значения (вроде проприоцепции и крутящих моментов ) через mu-law приводятся к диапазону [-1, 1] и равномерно дискретизуются в 1024 значения.
Обучалась сеть на 16×16 TPU v3 за 4 дня.
далее: RoboCat — проект системы для управления роботами-манипуляторами от Google Deepmind
Статьи
Ссылки
- Deepmind — A Generalist Agent
- DeepMind’s new AI can perform over 600 tasks, from playing games to controlling robots
По теме