Автор: Булат Бадамшин
Редактура: Герман Петров
Сегодня мы поговорим о задаче детекции текста в рамках трансформерных моделей. Во время активного использования трансформеров в компьютерном зрении разработчики не смогли пройти мимо и не попробовать применить их для задачи локализации текста.
Возможно, читатель, интересующийся трендами в OCR, спросит: «А есть ли смысл в 2024 году рассматривать детекцию в отрыве от распознавания, особенно в плоскости трансформеров?». Ведь эта архитектура позволяет решить задачу OCR в так называемой end-to-end манере, то есть локализовать и распознать текст в один проход и одной моделью. Это называется Text Spotting.
Мы рассмотрим её подробнее в следующих частях нашей серии, а сегодня, сохранив историческую последовательность в повествовании о технологиях OCR, остановимся на моделях детекции текста на базе трансформеров. Так мы постепенно познакомимся с подробной информацией обо всех этапах развития задачи распознавания текстовых документов с помощью глубоких нейронных сетей 🙂
Рассмотрим три наиболее популярных бенчмарка детекции текста для задачи Scene text detection (STD).
<aside> 📌
Scene text detection (STD) — детекция текста на фотографиях реального мира.
</aside>
Рисунок 1. Виды датасетов для детекции текста
Рисунок 1. Виды датасетов для детекции текста
Если посмотреть на бенчмарки с этими датасетами, можно увидеть следующее: на датасетах Total-Text и SCUT-CTW1500 в тройке лидеров оказываются детекторы на базе трансформеров, а именно MixNet, SRFormer, DPText-DETR. На датасете MSRA-TD500 первое место занимает также MixNet.
[Рисунок 2. Топ-3 моделей бенчмарков детекции текста: Total-Text, SCUT-CTW1500 и MSRA-TD500](https://lh7-rt.googleusercontent.com/docsz/AD_4nXf_93nHQuwfvPur8kMVg0BQWCITloICLXDLSpTg4yrw_nnolsbtOlc_mTSaHRPYKIz-dtkAA-19De_ujn4R_8VyPk9eIoC7RX8xpD1MP0M9qH_AxaRBMO_vP9q7QZOcaYWu4jtSfosak1IVk--Mv8Exur-Q?key=clPaLfKqETduCEbCEVCxVA)
Рисунок 2. Топ-3 моделей бенчмарков детекции текста: Total-Text, SCUT-CTW1500 и MSRA-TD500
Важно отметить: эти бенчмарки опубликованы на ресурсе paperswithcode.com. Их можно считать актуальными, ведь последние сабмиты датируются 2023 годом, в отличие от бенчмарков ICDAR 2013 и 2015, чей лидерборд хоть более многочисленный, но уже давно не обновлённый. Соответственно, там нет актуальных моделей.
Трансформерные детекторы в CV стали набирать популярность после выхода DETR в 2020 году (кстати, на нашем канале есть статья с подробным обзором этой архитектуры 🙂). Но в то же время у DETR-like архитектур, несмотря на их достоинства (отсутствие анкеров и необходимости NMS, Non Maximum Suppression) есть и недостатки, которые не позволили им стать хорошей альтернативой CNN-детекторам: