Детекторы текста на основе трансформеров

Введение

Сегодня мы поговорим о задаче детекции текста в рамках трансформерных моделей. Во время активного использования трансформеров в компьютерном зрении разработчики не смогли пройти мимо и не попробовать применить их для задачи локализации текста.

Возможно, читатель, интересующийся трендами в OCR, спросит: «‎А есть ли смысл в 2024 году рассматривать детекцию в отрыве от распознавания, особенно в плоскости трансформеров?». Ведь эта архитектура позволяет решить задачу OCR в так называемой end-to-end манере, то есть локализовать и распознать текст в один проход и одной моделью. Это называется Text Spotting.

Мы рассмотрим её подробнее в следующих частях нашей серии, а сегодня, сохранив историческую последовательность в повествовании о технологиях OCR, остановимся на моделях детекции текста на базе трансформеров. Так мы постепенно познакомимся с подробной информацией обо всех этапах развития задачи распознавания текстовых документов с помощью глубоких нейронных сетей 🙂

Бенчмарки

Рассмотрим три наиболее популярных бенчмарка детекции текста для задачи Scene text detection (STD).

<aside> 📌

Scene text detection (STD) — детекция текста на фотографиях реального мира.

</aside>

Total-Text — датасет из 1555 картинок с разметкой в виде полигонов вокруг слов на фотографиях реального мира (вывески, дорожные знаки и др.). Его отличает наличие сложных форм текста — например, изогнутых или с различной ориентацией. Язык — английский.
SCUT-CTW1500 — датасет из 1500 изображений с разметкой в виде полигонов текстом или более 10751 кропов отдельных слов, в том числе 3530 из них искривленных. Изображения также представляют собой фотографии реального мира, в частности фотографии из известного датасета Open Images. Язык — английский и китайский.
MSRA-TD500 — самый маленький датасет из 500 фотографий. Разметка построчная — одна размеченная сущность состоит из нескольких слов. Язык — английский и китайский.

Рисунок 1. Виды датасетов для детекции текста

Если посмотреть на бенчмарки с этими датасетами, можно увидеть следующее: на датасетах Total-Text и SCUT-CTW1500 в тройке лидеров оказываются детекторы на базе трансформеров, а именно MixNet, SRFormer, DPText-DETR. На датасете MSRA-TD500 первое место занимает также MixNet.

[Рисунок 2. Топ-3 моделей бенчмарков детекции текста: Total-Text, SCUT-CTW1500 и MSRA-TD500](https://lh7-rt.googleusercontent.com/docsz/AD_4nXf_93nHQuwfvPur8kMVg0BQWCITloICLXDLSpTg4yrw_nnolsbtOlc_mTSaHRPYKIz-dtkAA-19De_ujn4R_8VyPk9eIoC7RX8xpD1MP0M9qH_AxaRBMO_vP9q7QZOcaYWu4jtSfosak1IVk--Mv8Exur-Q?key=clPaLfKqETduCEbCEVCxVA)

Рисунок 2. Топ-3 моделей бенчмарков детекции текста: Total-Text, SCUT-CTW1500 и MSRA-TD500

Важно отметить: эти бенчмарки опубликованы на ресурсе paperswithcode.com. Их можно считать актуальными, ведь последние сабмиты датируются 2023 годом, в отличие от бенчмарков ICDAR 2013 и 2015, чей лидерборд хоть более многочисленный, но уже давно не обновлённый. Соответственно, там нет актуальных моделей.

Трансформерные детекторы

Трансформерные детекторы в CV стали набирать популярность после выхода DETR в 2020 году (кстати, на нашем канале есть статья с подробным обзором этой архитектуры 🙂). Но в то же время у DETR-like архитектур, несмотря на их достоинства (отсутствие анкеров и необходимости NMS, Non Maximum Suppression) есть и недостатки, которые не позволили им стать хорошей альтернативой CNN-детекторам:

низкое качество детекции мелких объектов (отсутствие FPN в качестве картиночного энкодера);
существенно большее время обучения (квадратичная сложность self-attention).