Авторы: Булат Бадамшин, Герман Петров

Редактура: Сергей Гаврин

Введение

<aside> 📌

OCR (Optical Character Recognition) — задача распознавания текста на изображении.

</aside>

OCR — одна из первых задач компьютерного зрения, критически важная во многих технологических и бизнес-процессах: от анализа сканов документов до автономного вождения. С помощью классических методов Computer Vision её научились решать уже довольно давно. Но сегодня мы поговорим главным образом о современных подходах, основанных на нейронных сетях.

Глобально можно выделить три основных этапа решения задачи: детекция текста, его распознавание, а также извлечение ключевой информации. На каждом из них мы остановимся подробнее. И, конечно, рассмотрим современные End-to-End подходы, когда все три задачи решает одна модель.

История развития OCR

Перед более глубоким погружением в тему OCR предлагаем пройтись по ключевым, на наш взгляд, событиям, которые произошли в этой области.

1950-е: появление первого устройства для OCR

В начале 1950-х Дэвид Шепард и Харви Кук-младший изобрели устройство, способное преобразовывать печатные тексты в машинный язык или код. Это положило начало революции в автоматизированных методах сбора данных. В 1952 году Дэвид вместе с коллегами основали компанию Intelligent Machines Research Co. (IMR) для коммерциализации продукта.

Затем компания IBM получила лицензию на все патенты IMR. В 1959 году она представила совершенно новую систему для извлечения данных из документов и назвала её «‎машинным оптическим распознаванием символов»‎ (OCR) — это стало стандартной терминологией в отрасли.

1960-е и 1970-е годы: появление технологий ICR и MICR

В 1960-х исследовательская группа Массачусетского технологического института усовершенствовала возможности OCR для расшифровки рукописных символов. Это способствовало появлению технологии ICR (Intelligent Character Recognition).

<aside> 📌

ICR (Intelligent Character Recognition) — ****OCR сегодня: сопоставление (рукописного) текста его цифровому формату.

</aside>

Был предложен сложный алгоритм для анализа данных и адаптации к меняющимся форматам документов. Но эти исследования зашли в тупик из-за ограничения вычислительных ресурсов того времени.

В банковской отрасли потребность в эффективной обработке чеков привела к развитию MICR (Magnetic Ink Character Recognition).

<aside> 📌

MICR (Magnetic Ink Character Recognition) — ****внедрение в чеки символов, нанесённых магнитными чернилами, для их быстрого распознавания и обработки автоматизированными системами.

</aside>

Это нововведение упростило финансовые операции и продемонстрировало практическое применение OCR, выходящее за рамки распознавания обычного текста.

1990-е годы: распространение коммерческого программного обеспечения для OCR

Широкое распространение компьютеров вместе с продуктами компаний ABBYY, Adobe и Nuance преодолело разрыв между бумажными и цифровыми документами. Пользователи смогли преобразовывать сканы документов в редактируемый текст для дальнейшей работы. Именно в это время началась масштабная оцифровка архивов, оптимизация рабочих процессов и расширение возможности поиска по электронным документам.