Авторы: Булат Бадамшин, Герман Петров
Редактура: Сергей Гаврин
<aside> 📌
OCR (Optical Character Recognition) — задача распознавания текста на изображении.
</aside>
OCR — одна из первых задач компьютерного зрения, критически важная во многих технологических и бизнес-процессах: от анализа сканов документов до автономного вождения. С помощью классических методов Computer Vision её научились решать уже довольно давно. Но сегодня мы поговорим главным образом о современных подходах, основанных на нейронных сетях.
Глобально можно выделить три основных этапа решения задачи: детекция текста, его распознавание, а также извлечение ключевой информации. На каждом из них мы остановимся подробнее. И, конечно, рассмотрим современные End-to-End подходы, когда все три задачи решает одна модель.
Перед более глубоким погружением в тему OCR предлагаем пройтись по ключевым, на наш взгляд, событиям, которые произошли в этой области.
В начале 1950-х Дэвид Шепард и Харви Кук-младший изобрели устройство, способное преобразовывать печатные тексты в машинный язык или код. Это положило начало революции в автоматизированных методах сбора данных. В 1952 году Дэвид вместе с коллегами основали компанию Intelligent Machines Research Co. (IMR) для коммерциализации продукта.
Затем компания IBM получила лицензию на все патенты IMR. В 1959 году она представила совершенно новую систему для извлечения данных из документов и назвала её «машинным оптическим распознаванием символов» (OCR) — это стало стандартной терминологией в отрасли.
В 1960-х исследовательская группа Массачусетского технологического института усовершенствовала возможности OCR для расшифровки рукописных символов. Это способствовало появлению технологии ICR (Intelligent Character Recognition).
<aside> 📌
ICR (Intelligent Character Recognition) — ****OCR сегодня: сопоставление (рукописного) текста его цифровому формату.
</aside>
Был предложен сложный алгоритм для анализа данных и адаптации к меняющимся форматам документов. Но эти исследования зашли в тупик из-за ограничения вычислительных ресурсов того времени.
В банковской отрасли потребность в эффективной обработке чеков привела к развитию MICR (Magnetic Ink Character Recognition).
<aside> 📌
MICR (Magnetic Ink Character Recognition) — ****внедрение в чеки символов, нанесённых магнитными чернилами, для их быстрого распознавания и обработки автоматизированными системами.
</aside>
Это нововведение упростило финансовые операции и продемонстрировало практическое применение OCR, выходящее за рамки распознавания обычного текста.
Широкое распространение компьютеров вместе с продуктами компаний ABBYY, Adobe и Nuance преодолело разрыв между бумажными и цифровыми документами. Пользователи смогли преобразовывать сканы документов в редактируемый текст для дальнейшей работы. Именно в это время началась масштабная оцифровка архивов, оптимизация рабочих процессов и расширение возможности поиска по электронным документам.