РАСПОЗНАВАНИЕ СИМВОЛОВ НА ИЗОБРАЖЕНИЯХ, СОДЕРЖАЩИХ ИСКАЖЕНИЯ
Погребняк И.В.1, Тропченко А.Ю.2
1ORCID: 0000-0003-2500-924X, Студент, Университет ИТМО, 2ORCID: 0000-0003-2666-9522, Профессор, Доктор технических наук, Университет ИТМО
РАСПОЗНАВАНИЕ СИМВОЛОВ НА ИЗОБРАЖЕНИЯХ, СОДЕРЖАЩИХ ИСКАЖЕНИЯ
Аннотация
Проведен анализ эффективности методов оптического распознавания символов, решающих проблему наличия на изображении различных видов искажений. Предложены критерии оценки эффективности. Подготовлены наборы исходных данных для проведения измерений. Выполнены измерения критериев оценки эффективности анализируемых методов для каждого из наборов исходных данных. Выбраны методы с лучшими показателями критериев по результатам измерений. Предложен алгоритм распознавания символов на основании выбранных методов.
Ключевые слова: оптическое распознавание символов, компьютерное зрение, искажения, неоднородность освещения, шумы печати.
Pogrebnyak I.V.1, Tropchenko A.U.2
1ORCID: 0000-0003-2500-924X, Student, ITMO University, 2ORCID: 0000-0003-2666-9522, Professor, PhD in Engineering, ITMO University
RECOGNISION OF CHARACTERS ON IMAGES WITH DISTORTIONS
Abstract
The paper presents the results of performance analysis of optical character recognition methods, which solve the problem of various kinds of distortions on images. The criteria for performance evaluation are proposed in the study. The sets of initial data for the measurements were prepared; the criteria for performance evaluation of the analyzed methods were estimated for each of the sets of source data. According to the estimation, the methods with better results of measurements were defined. The author proposed the algorithm for character recognition based on the selected methods.
Keywords: optical character recognition, computer vision, distortion, non-uniformity of illumination, printing noise.
Оптическое распознавание символов - это процесс, реализующий перевод изображения печатного, машинописного или рукописного текста в текстовые данные, представленные в электронном виде [1]. Качество выполнения данного процесса зависит от состояния исходных данных, то есть изображения. Состояние изображения характеризуется наличием или отсутствием на изображении:
- различных шрифтов, размеров символов;
- различных и сходных, способов написания символов;
- искажений:
- шумы;
- неоднородность освещения;
- шумы печати – смещение символов, разрывы между частями одного и того же символа;
- ложные знаки.
Существует ряд открытых систем оптического распознавания символов. В ходе проведения анализа данных систем установлено отсутствие возможности распознавания символов с изображений, содержащих искажения, используемыми в них алгоритмами [2]. В связи с этим целью исследования, приведенного в данной статье, является разработка алгоритма распознавания на основании анализа эффективности методов, решающих проблему наличия искажений на изображениях.
Процесс оптического распознавания символов состоит из этапов: восприятия, предобработки, сегментации и собственно распознавания. На каждом из этапов решается проблема наличия определенных искажений. Анализ эффективности методов проводится по следующему принципу: на вход анализируемого метода подаются наборы исходных данных, после выполнения преобразования происходит оценка соответствия результата с эталонным значением на основании определенных заранее критериев.
1. Проблема наличия неоднородности освещенияВ зависимости от алгоритма, данная проблема решается либо на этапе восприятия, либо на этапе сегментации, с помощью методов локальной пороговой обработки, которые выполняют операцию бинаризации. В рамках исследования проведен анализ следующих методов: среднего порогового значения, Бернсена [3], Ниблэка [4], Саувола [5], Вульфа [6] и Брэдли-Рота [7]. Указанные методы отличаются способом вычисления порога.
В качестве критерия оценки эффективности предложена точность бинаризации изображения, определяемая как:
- коэффициент корректно преобразованных пикселей объекта:
, где сp - число корректно преобразованных пикселей объекта, p- число пикселей объекта;
- точность преобразования:
, где ip,dp - число ошибочно вставленных и удаленных пикселей объекта, pi- число пикселей изображения.
В качестве исходных данных выбраны наборы изображений с различными значениями параметров: глобальной контрастности [8], минимального уровня прозрачности в области тени и процента области, занимаемой тенью.
Результаты измерений представлены на рисунках 1-3. По результатам измерений метод Брэдли-Рота является наиболее эффективным, поскольку содержит высокие показатели оценки точности бинаризации (рис. 1) и наименьшее время выполнения (рис. 2), однако он подвержен влиянию со стороны глобальной контрастности изображения (рис. 3). Методы среднего порогового значения и Вульфа в условиях наличия тени (рис. 1) содержат низкие значения коэффициента корректно преобразованных пикселей объекта kp, но в условиях изменения контрастности (рис. 3) данные методы показывают одни из лучших результатов. После выполнения методов Бенсена и Ниблэка наблюдается большой процент шумов печати, что приводит к снижению коэффициента точности преобразования Ap.
Рис. 1 – Зависимость среднего значения точности бинаризации (kp+Ap), рассчитанного на основании варьирования параметра минимального уровня прозрачности в области тени, от процента области, занимаемой тенью
Рис. 2 – Время выполнения методов
Рис. 3 – Зависимость точности бинаризации (kp+Ap) от глобальной контрастности изображения
2. Проблема наличия шумаДанная проблема решается на этапе предобработки с помощью фильтров шума. В рамках исследования проведен анализ следующих фильтров [8] - cреднеарифметического, cреднегеометрического, cреднегармонического, контргармонического, медианного, максимума, минимума, срединной точки, усеченного среднего и адаптивного фильтра Винера.
В качестве критерия оценки эффективности фильтров выбран коэффициент корреляции Пирсона, который позволяет установить уровень схожести изображения без зашумления и восстановленного после зашумления:
где x, y – координаты пикселя, a, b – изображение без зашумления и восстановленное; – среднее арифметическое яркости изображений.
В качестве исходных данных выбраны наборы изображений с различными видами шума и с различными уровнями шума, где уровни шума – это количество шума на изображение. К исследуемым видам шума относятся [8]: равномерный (a), Гауссов (b), логарифмически нормальный (c), Реллея (d), экспоненциальный (e), Эрланга (f), импульсный (g), Пуассона (h) и мультипликативный шумы (i).
Результаты измерений представлены в таблице 1.
Таблица 1 – Тепловая карта средних значений коэффициента корреляции Пирсона для всех уровней шума
По результатам измерений фильтр Винера является наиболее эффективным, потому что имеет наиболее частый высокий показатель корреляции (табл. 1). Наиболее удачными для восстановления являются шумы равномерный, экспоненциальный, Пуассона, а наименее удачными логарифмически нормальный, Реллея, Эрланга, импульсный.
3. Проблема наличия шумов печатиДанная проблема решается на этапе предобработки с помощью операций морфологической фильтрации [9]. В рамках исследования проведен анализ операций: размыкание, замыкание.
В качестве критерия оценки эффективности методов предложена точность морфологической фильтрации изображения, определяемая как:
- коэффициент корректно преобразованных пикселей объекта:
, где сp - число корректно преобразованных пикселей объекта, p- число пикселей объекта;
- число ошибок:
, где ip,dp - число ошибочно вставленных и удаленных пикселей объекта.
В качестве исходных данных выбраны наборы изображений с различным процентом шумов печати, а также различные структурные элементы: квадрат (a), прямоугольник (b), ромб (c), восьмиугольник (d), круг (e), линия с углом наклона 450 (f). Структурный элемент – это маска фильтра в морфологических операциях [9].
Результаты измерений представлены в табл. 2.
Таблица 2 – Зависимость точности морфологической фильтрации от процента шума печати на изображении для различных параметров
Примечание: * – размеры СЭ: квадрат 2:2 (a), прямоугольник 3:2 (b), длина линия 2 (f), радиус остальных СЭ равен 2; ** – размеры измеряются в пикселях.
По результатам измерений (табл. 2) операция замыкание является наиболее эффективной, по причине наличия высокого показателя точности морфологической фильтрации для всех видов структурных элементов. Лучшим структурным элементом для операции замыкание является квадрат, поскольку число ошибок Ep наименьшее для данного элемента, а для операции размыкание – линия. Использование структурного элемента меньшего размера приводит к лучшим результатам. На результат работы методов оказывает влияние толщина линии символа.
4. Проблема наличия различных размеров, форм, наклонов символов
Данная проблема решается на этапе распознавания, методом, выбор которого производился по результатам сравнения свойств методов распознавания на присутствие инвариантности к различным состояниям изображения и возможности использования изображения в качестве входного значения (табл. 3). Выбранным методом является сверточная нейронная сеть (НС) (рис. 4).
Таблица 3 – Сравнение свойств методов распознавания
Метод | Входное значение – изображение | Инвариантность к | |||
искажениям | углу | положению | размеру | ||
Дерево решений | - | - | - | - | - |
Генетические алгоритмы | - | - | - | - | - |
НС Хопфилда | + | + | - | - | - |
НС высокого порядка | + | - | + | - | + |
Cверточная НС | + | + | + | + | - |
Рис. 4 – Архитектура сверточной нейронной сети
В качестве критерия оценки эффективности метода выбрана точность распознавания символов:
где – число корректно распознанных символов, - число символов.В качестве исходных данных выбраны наборы изображений: без искажения (a), с различными формами и размерами символов (b), с различным наклоном символов (c), с Гауссовым шумом (d), с символами со сходным написанием (e), с шумами печати и ложными знаками (f).
Результаты измерения точности распознавания символов для каждого из наборов изображений представлены в табл. 4.
Таблица 4 – Точность распознавания символов
Параметр | Вид искажения | |||||
а | b | c | d | e | f | |
AS | 0,9995 | 0,9936 | 0,9947 | 0,9806 | 0,9312 | 0,8606 |
Исходя из результатов измерений размеры, углы наклона и формы символов влияют на результат работы сверточной НС незначительно. Значительное влияние оказывают шумы печати и сходное написание символов.
Алгоритм распознавания символов
На основании анализа эффективности методов, решающих проблему наличия искажений на изображениях, предложен алгоритм распознавания, состоящий из следующих этапов:
- Предобработка:
- применение адаптивного фильтра Винера;
- применение морфологической операции закрытия в случае наличия шумов печати;
- Сегментация:
- оценка контрастности изображения;
- увеличение контрастности при необходимости;
- применение метода Брэдли-Рота;
- сегментация символов;
- Распознавание:
- сверточная нейронная сеть.
Список литературы / References
- Cheriet M. Character recognition systems: a guide for students and practioners / M. Cheriet. - John Wiley & Sons, 2007. – 326 p.
- Погребняк И. В. Анализ эффективности систем оптического распознавания символов / И. В. Погребняк // Сборник трудов VII научно-практической конференции молодых ученых «Вычислительные системы и сети (Майоровские чтения)». - 2016. - С. 130—133.
- Bernsen J. Dynamic thresholding of grey-level images / J. Bernsen // Proc. 8th ICPR. – 1986. – Vol.1 – P. 1251-1255.
- Niblack W. An Introduction to Digital image processing / W. Niblack. - Prentice Hall, 1986. - 215 p.
- Sauvola J. Adaptive document image binarization / J. Sauvola, M. Pietikainen // Pattern Recognition. – 2000. –Vol. 33 – P. 225–236.
- Wolf C. Text localization, enhancement and binarization in multimedia documents / C. Wolf, J. M. Jolion, F. Chassaing // International Conference on Pattern Recognition. – 2002. –Vol. 4 – P. 1037–1040.
- Bradley Adaptive Thresholding Using the Integral Image / D. Bradley, G. Roth // Journal of Graphics Tools. – 2007. - Vol. 12(2). - P. 13-21.
- Соловьев Н. В. Улучшение качества растровых изображений: Учеб. пособие / Н. В. Соловьев, А. М. Сергеев. - СПб.: СПбГУ ИТМО, 2010. - 158 с.
- Zhou H. Digital Image Processing: Part II / H. Zhou, J. Wu, J. Zhang. - Ventus Publishing ApS, 2010. – 92 p.
Список литературы на английском языке / References in English
- Cheriet M. Character recognition systems: a guide for students and practioners / M. Cheriet. - John Wiley & Sons, 2007. – 326 p.
- Pogrebnyak I. V. Analiz effektivnosti sistem opticheskogo raspoznavanija simvolov [Efficiency analysis of optical character recognition systems] / I. V. Pogrebnyak // Sbornik trudov VII nauchno-prakticheskoj konferencii molodyh uchennyh «Vichislitelnye sistemy i seti (Majorovskie chtenija)» [Proceedings of the scientific and practical conference of young scientists «Computing systems and networks (Mayorov’s readings)»]. - 2016. - P. 130—133. [in Russian]
- Bernsen J. Dynamic thresholding of grey-level images / J. Bernsen // Proc. 8th ICPR. – 1986. – Vol.1 – P. 1251-1255.
- Niblack W. An Introduction to Digital image processing / W. Niblack. - Prentice Hall, 1986. - 215 p.
- Sauvola J. Adaptive document image binarization / J. Sauvola, M. Pietikainen // Pattern Recognition. – 2000. –Vol. 33 – P. 225–236.
- Wolf C. Text localization, enhancement and binarization in multimedia documents / C. Wolf, J. M. Jolion, F. Chassaing // International Conference on Pattern Recognition. – 2002. –Vol. 4 – P. 1037–1040.
- Bradley Adaptive Thresholding Using the Integral Image / D. Bradley, G. Roth // Journal of Graphics Tools. – 2007. - Vol. 12(2). - P. 13-21.
- Soloviev N. V. Uluchshenie kachestva rastrovyh izobrajenij: Ucheb. posobie [Improving the quality of raster images: Educational allowance] / N. V. Soloviev, A. M. Sergeev. - SPb.: SPbGU ITMO, 2010. - 158 p. [in Russian]
- Zhou H. Digital Image Processing: Part II / H. Zhou, J. Wu, J. Zhang. - Ventus Publishing ApS, 2010. – 92 p.