Florence-2 — универсальная модель для компьютерного зрения от исследователей из Microsoft.
Сама модель имеет небольшой (по современным меркам) размер (всего 0.23B и 0.77B) и при этом обладает высокой производительностью при выполнении различных задач компьютерного зрения.
Главная особенность модели заключается не в сложной архитектуре, а в специально подготовленном наборе данных FLD-5B, состоящем из 126 миллионов изображений с соответствующими 5.4 миллиардами визуальных аннотаций.
Универсальность модели состоит в том, что она способна выполнять широкий спектр задач компьютерного зрения: генерация подписей (captioning), обнаружение объектов, связывание текста с изображением (grounding) и сегментация.
Ключевые моменты:
- Florence-2 состоит из кодировщика изображений и стандартного мультимодального трансформера (энкодер-декодер).
- Модель принимает в качестве входа изображение и текстовую инструкцию (задание), и генерирует ответ в текстовом виде.
- Для обучения модели разработан новый датасет FLD‑5B, содержащий 126 млн. изображений и 5.4 млрд. аннотаций, что реализует подход многозадачного обучения (Multitask learning).
- Аннотации получались с использованием итеративного процесса: автоматическая разметка изображения специализированными моделями с последующей фильтрацией и уточнением.
- Все аннотации в наборе данных FLD-5B единообразно стандартизированы в текстовые выходные данные, что облегчает унифицированный подход к многозадачному обучению.
- Архитектура Florence‑2 основана на схеме «последовательность к последовательности», что обеспечивает единый подход к обучению на множестве задач и позволяет добиться сильных результатов как в режиме zero-shot, так и при дообучении.
- Задачи компьютерного зрения переформулированы как задачи перевода: учитывая входное изображение и подсказку, специфичную для задачи, генерируется соответствующий ответ. В зависимости от задачи и инструкции — ответ могут быть либо текстом, либо регионом изображения.
- Чтобы модель могла работать с регионами изображения, в словарь токенизатора были добавлены специальные токены положения, представляющие квантованные координаты. Это позволяет модели обрабатывать информацию, специфичную для регионов изображения в унифицированном формате обучения.
- Набор данных FLD-5B включает 126 млн. изображений, 500 млн. текстовых аннотаций, 1.3 млрд аннотаций текстовых областей и 3.6 млрд. аннотаций текстовых фраз в различных задачах.
Изначально были определены три ключевых задачи: классификация изображений, обнаружение объектов и описание изображений. Были объединены пять отдельных наборов данных: ImageNet-22k, Object 365, Open Images, Conceptual Captions и LAION, которые затем были отфильтрованы, что и дало набор данных из 126 миллионов изображений. - Чтобы инициировать процесс аннотации для каждого типа задач, использовались синтетические метки, полученные от отдельных специализированных моделей. Так как некоторые исходные наборы данных изображений уже содержали некоторые типы аннотаций (например, набор данных Object 365 уже содержал аннотированные человеком ограничивающие рамки и соответствующие категории в качестве аннотаций региона), то в таких случаях эти данные объединялись с полученными синтетическими метками, сгенерированными специализированными моделями. Такой подход улучшает охват и разнообразие аннотаций.
- Итеративное уточнение данных. Используя отфильтрованные начальные аннотации, обучалась многозадачная модель, которая использовалась для последующей обработки данных.
Таким образом, данное исследование интересно своим подходом по переформулированию задачи компьютерного зрения в задачу обработки естественного языка (Natural language processing (NLP)) и использованию многозадачного обучения. Обучение модели на масштабном наборе данных позволило создать универсальное решение для задач компьютерного зрения, способное конкурировать с существующими специализированными моделями.
Статьи
- 1. Xiao B., Wu H., Xu W., Dai X., Hu H., Lu Y., Zeng M., Liu C., Yuan L. Florence-2: Advancing a unified representation for a variety of vision tasks // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024. – С. 4818-4829.
Ссылки
- модель — https://huggingface.co/microsoft/Florence-2-large
- протестировать работу — https://huggingface.co/spaces/SkalskiP/better-florence-2
- https://github.com/ANYANTUDRE/Florence-2-Vision-Language-Model
По теме