Florence-2 — универсальная модель для компьютерного зрения


Florence-2 architecture

Florence-2 — универсальная модель для компьютерного зрения от исследователей из Microsoft.

Сама модель имеет небольшой (по современным меркам) размер (всего 0.23B и 0.77B) и при этом обладает высокой производительностью при выполнении различных задач компьютерного зрения.

Главная особенность модели заключается не в сложной архитектуре, а в специально подготовленном наборе данных FLD-5B, состоящем из 126 миллионов изображений с соответствующими 5.4 миллиардами визуальных аннотаций.

Универсальность модели состоит в том, что она способна выполнять широкий спектр задач компьютерного зрения: генерация подписей (captioning), обнаружение объектов, связывание текста с изображением (grounding) и сегментация.

Ключевые моменты:

  • Florence-2 состоит из кодировщика изображений и стандартного мультимодального трансформера (энкодер-декодер).
  • Модель принимает в качестве входа изображение и текстовую инструкцию (задание), и генерирует ответ в текстовом виде.
  • Для обучения модели разработан новый датасет FLD‑5B, содержащий 126 млн. изображений и 5.4 млрд. аннотаций, что реализует подход многозадачного обучения (Multitask learning).
  • Аннотации получались с использованием итеративного процесса: автоматическая разметка изображения специализированными моделями с последующей фильтрацией и уточнением.
  • Все аннотации в наборе данных FLD-5B единообразно стандартизированы в текстовые выходные данные, что облегчает унифицированный подход к многозадачному обучению.
  • Архитектура Florence‑2 основана на схеме «последовательность к последовательности», что обеспечивает единый подход к обучению на множестве задач и позволяет добиться сильных результатов как в режиме zero-shot, так и при дообучении.
  • Задачи компьютерного зрения переформулированы как задачи перевода: учитывая входное изображение и подсказку, специфичную для задачи, генерируется соответствующий ответ. В зависимости от задачи и инструкции — ответ могут быть либо текстом, либо регионом изображения.
  • Чтобы модель могла работать с регионами изображения, в словарь токенизатора были добавлены специальные токены положения, представляющие квантованные координаты. Это позволяет модели обрабатывать информацию, специфичную для регионов изображения в унифицированном формате обучения.
  • Набор данных FLD-5B включает 126 млн. изображений, 500 млн. текстовых аннотаций, 1.3 млрд аннотаций текстовых областей и 3.6 млрд. аннотаций текстовых фраз в различных задачах.
    Изначально были определены три ключевых задачи: классификация изображений, обнаружение объектов и описание изображений. Были объединены пять отдельных наборов данных: ImageNet-22k, Object 365, Open Images, Conceptual Captions и LAION, которые затем были отфильтрованы, что и дало набор данных из 126 миллионов изображений.
  • Чтобы инициировать процесс аннотации для каждого типа задач,  использовались синтетические метки, полученные от отдельных специализированных моделей. Так как некоторые исходные наборы данных изображений уже содержали некоторые типы аннотаций (например,  набор данных Object 365 уже содержал аннотированные человеком ограничивающие рамки и соответствующие категории в качестве аннотаций региона), то в таких случаях эти данные объединялись с полученными синтетическими метками, сгенерированными специализированными моделями. Такой подход улучшает охват и разнообразие аннотаций.
  • Итеративное уточнение данных. Используя отфильтрованные начальные аннотации, обучалась многозадачная модель, которая использовалась для последующей обработки данных.

Таким образом, данное исследование интересно своим подходом по переформулированию задачи компьютерного зрения в задачу обработки естественного языка (Natural language processing (NLP)) и использованию многозадачного обучения. Обучение модели на масштабном наборе данных позволило создать универсальное решение для  задач компьютерного зрения, способное конкурировать с существующими специализированными моделями.

Статьи

  1. 1. Xiao B., Wu H., Xu W., Dai X., Hu H., Lu Y., Zeng M., Liu C., Yuan L. Florence-2: Advancing a unified representation for a variety of vision tasks // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024. – С. 4818-4829.

Ссылки

По теме


Добавить комментарий

Arduino

Что такое Arduino?
Зачем мне Arduino?
Начало работы с Arduino
Для начинающих ардуинщиков
Радиодетали (точка входа для начинающих ардуинщиков)
Первые шаги с Arduino

Разделы

  1. Преимуществ нет, за исключением читабельности: тип bool обычно имеет размер 1 байт, как и uint8_t. Думаю, компилятор в обоих случаях…

  2. Добрый день! Я недавно начал изучать программирование под STM32 и ваши уроки просто бесценны! Хотел узнать зачем использовать переменную типа…

3D-печать AI Arduino Bluetooth CraftDuino DIY Google IDE iRobot Kinect LEGO OpenCV Open Source Python Raspberry Pi RoboCraft ROS swarm ИК автоматизация андроид балансировать бионика версия видео военный датчик дрон интерфейс камера кибервесна манипулятор машинное обучение наше нейронная сеть подводный пылесос работа распознавание робот робототехника светодиод сервомашинка собака управление ходить шаг за шагом шаговый двигатель шилд юмор

OpenCV
Робототехника
Будущее за бионическими роботами?
Нейронная сеть - введение