РАСПОЗНАВАНИЕ СИМВОЛОВ НА ИЗОБРАЖЕНИЯХ, СОДЕРЖАЩИХ ИСКАЖЕНИЯ

Научная статья
DOI:
https://doi.org/10.23670/IRJ.2017.59.061
Выпуск: № 5 (59), 2017
Опубликована:
2017/05/19
PDF

Погребняк И.В.1, Тропченко А.Ю.2

1ORCID: 0000-0003-2500-924X, Студент, Университет ИТМО, 2ORCID: 0000-0003-2666-9522, Профессор, Доктор технических наук, Университет ИТМО

РАСПОЗНАВАНИЕ СИМВОЛОВ НА ИЗОБРАЖЕНИЯХ, СОДЕРЖАЩИХ ИСКАЖЕНИЯ

Аннотация

Проведен анализ эффективности методов оптического распознавания символов, решающих проблему наличия на изображении различных видов искажений. Предложены критерии оценки эффективности. Подготовлены наборы исходных данных для проведения измерений. Выполнены измерения критериев оценки эффективности анализируемых методов для каждого из наборов исходных данных. Выбраны методы с лучшими показателями критериев по результатам измерений. Предложен алгоритм распознавания символов на основании выбранных методов.

Ключевые слова: оптическое распознавание символов, компьютерное зрение, искажения, неоднородность освещения, шумы печати.

Pogrebnyak I.V.1, Tropchenko A.U.2

1ORCID: 0000-0003-2500-924X, Student, ITMO University,  2ORCID: 0000-0003-2666-9522, Professor,  PhD in Engineering, ITMO University

RECOGNISION OF CHARACTERS ON IMAGES WITH DISTORTIONS

Abstract

The paper presents the results of performance analysis of optical character recognition methods, which solve the problem of various kinds of distortions on images. The criteria for performance evaluation are proposed in the study. The sets of initial data for the measurements were prepared; the criteria for performance evaluation of the analyzed methods were estimated for each of the sets of source data. According to the estimation, the methods with better results of measurements were defined. The author proposed the algorithm for character recognition based on the selected methods.

Keywords: optical character recognition, computer vision, distortion, non-uniformity of illumination, printing noise.

Оптическое распознавание символов - это процесс, реализующий перевод изображения печатного, машинописного или рукописного текста в текстовые данные, представленные в электронном виде [1]. Качество выполнения данного процесса зависит от состояния исходных данных, то есть изображения. Состояние изображения характеризуется наличием или отсутствием на изображении:

  • различных шрифтов, размеров символов;
  • различных и сходных, способов написания символов;
  • искажений:
    • шумы;
    • неоднородность освещения;
    • шумы печати – смещение символов, разрывы между частями одного и того же символа;
    • ложные знаки.

Существует ряд открытых систем оптического распознавания символов. В ходе проведения анализа данных систем установлено отсутствие возможности распознавания символов с изображений, содержащих искажения, используемыми в них алгоритмами [2]. В связи с этим целью исследования,  приведенного в данной статье, является разработка алгоритма распознавания на основании анализа эффективности методов, решающих проблему наличия искажений на изображениях.

Процесс оптического распознавания символов состоит из этапов: восприятия, предобработки, сегментации и собственно распознавания. На каждом из этапов решается проблема наличия определенных искажений. Анализ эффективности методов проводится по следующему принципу: на вход анализируемого метода подаются наборы исходных данных, после выполнения преобразования происходит оценка соответствия результата с эталонным значением на основании определенных заранее критериев.

1. Проблема наличия неоднородности освещения

В зависимости от алгоритма, данная проблема решается либо на этапе восприятия, либо на этапе сегментации, с помощью методов локальной пороговой обработки, которые выполняют операцию бинаризации. В рамках исследования проведен анализ следующих методов: среднего порогового значения, Бернсена [3], Ниблэка [4], Саувола [5], Вульфа [6] и Брэдли-Рота [7]. Указанные методы отличаются способом вычисления порога.

В качестве критерия оценки эффективности предложена точность бинаризации изображения, определяемая как:

  • коэффициент корректно преобразованных пикселей объекта:

 01-06-2017 11-31-57, где сp - число корректно преобразованных пикселей объекта, p- число пикселей объекта;

  • точность преобразования:

01-06-2017 11-32-29, где ip,dp - число ошибочно вставленных и удаленных пикселей объекта, pi- число пикселей изображения.

В качестве исходных данных выбраны наборы изображений с различными значениями параметров: глобальной контрастности [8], минимального уровня прозрачности в области тени и процента области, занимаемой тенью.

Результаты измерений представлены на рисунках 1-3. По результатам измерений метод Брэдли-Рота является наиболее эффективным, поскольку содержит высокие показатели оценки точности бинаризации (рис. 1) и наименьшее время выполнения (рис. 2), однако он подвержен влиянию со стороны глобальной контрастности изображения (рис. 3). Методы среднего порогового значения и Вульфа в условиях наличия тени (рис. 1) содержат низкие значения коэффициента корректно преобразованных пикселей объекта kp, но в условиях изменения контрастности (рис. 3) данные методы показывают одни из лучших результатов. После выполнения методов Бенсена и Ниблэка наблюдается большой процент шумов печати, что приводит к снижению коэффициента точности преобразования Ap.

01-06-2017 11-33-32

Рис. 1 – Зависимость среднего значения точности бинаризации (kp+Ap), рассчитанного на основании варьирования параметра минимального уровня прозрачности в области тени, от процента области, занимаемой тенью

01-06-2017 11-34-27

Рис. 2 – Время выполнения методов

01-06-2017 11-35-07

Рис. 3 – Зависимость точности бинаризации (kp+Ap) от глобальной контрастности изображения

2. Проблема наличия шума

Данная проблема решается на этапе предобработки с помощью фильтров шума. В рамках исследования проведен анализ следующих фильтров [8] - cреднеарифметического, cреднегеометрического, cреднегармонического, контргармонического, медианного, максимума, минимума, срединной точки, усеченного среднего и адаптивного фильтра Винера.

В качестве критерия оценки эффективности фильтров выбран коэффициент корреляции Пирсона, который позволяет установить уровень схожести изображения без зашумления и восстановленного после зашумления:

01-06-2017 11-36-15

где x, y – координаты пикселя, a, b – изображение без зашумления и восстановленное; 01-06-2017 11-37-05 – среднее арифметическое яркости изображений.

В качестве исходных данных выбраны наборы изображений с различными видами шума и с различными уровнями шума, где уровни шума – это количество шума на изображение. К исследуемым видам шума относятся [8]: равномерный (a), Гауссов (b), логарифмически нормальный (c), Реллея (d), экспоненциальный (e), Эрланга (f), импульсный (g), Пуассона (h) и мультипликативный шумы (i).

Результаты измерений представлены в таблице 1.

Таблица 1 – Тепловая карта средних значений коэффициента корреляции Пирсона для всех уровней шума

01-06-2017 11-38-16

По результатам измерений фильтр Винера является наиболее эффективным, потому что имеет наиболее частый высокий показатель корреляции (табл. 1). Наиболее удачными для восстановления являются шумы равномерный, экспоненциальный, Пуассона, а наименее удачными логарифмически нормальный, Реллея, Эрланга, импульсный.

3. Проблема наличия шумов печати

Данная проблема решается на этапе предобработки с помощью операций морфологической фильтрации [9]. В рамках исследования проведен анализ операций: размыкание, замыкание.

В качестве критерия оценки эффективности методов предложена точность морфологической фильтрации изображения, определяемая как:

  • коэффициент корректно преобразованных пикселей объекта:

01-06-2017 11-31-57, где сp - число корректно преобразованных пикселей объекта, p- число пикселей объекта;

  • число ошибок:

 01-06-2017 11-39-45, где ip,dp - число ошибочно вставленных и удаленных пикселей объекта.

В качестве исходных данных выбраны наборы изображений с различным процентом шумов печати, а также различные структурные элементы: квадрат (a), прямоугольник (b), ромб (c), восьмиугольник (d), круг (e), линия с углом наклона 450 (f). Структурный элемент – это маска фильтра в морфологических операциях [9].

Результаты измерений представлены в табл. 2.

 

Таблица 2 – Зависимость точности морфологической фильтрации от процента шума печати на изображении для различных параметров

01-06-2017 11-41-09

Примечание: * – размеры СЭ: квадрат 2:2 (a), прямоугольник 3:2 (b), длина линия 2 (f), радиус остальных СЭ равен 2; ** – размеры измеряются в пикселях.

По результатам измерений (табл. 2) операция замыкание является наиболее эффективной, по причине наличия высокого показателя точности морфологической фильтрации для всех видов структурных элементов. Лучшим структурным элементом для операции замыкание является квадрат, поскольку число ошибок Ep наименьшее для данного элемента, а для операции размыкание – линия. Использование структурного элемента меньшего размера приводит к лучшим результатам. На результат работы методов оказывает влияние толщина линии символа.

4. Проблема наличия различных размеров, форм, наклонов символов

Данная проблема решается на этапе распознавания, методом, выбор которого производился по результатам сравнения свойств методов распознавания на присутствие инвариантности к различным состояниям изображения и возможности использования изображения в качестве входного значения (табл. 3). Выбранным методом является сверточная нейронная сеть (НС) (рис. 4).

 

Таблица 3 – Сравнение свойств методов распознавания

Метод Входное значение – изображение Инвариантность к
искажениям углу положению размеру
Дерево решений - - - - -
Генетические алгоритмы - - - - -
НС Хопфилда + + - - -
НС высокого порядка + - + - +
Cверточная НС + + + + -

01-06-2017 11-53-07

Рис. 4 – Архитектура сверточной нейронной сети

 

В качестве критерия оценки эффективности метода выбрана точность распознавания символов:

01-06-2017 11-53-57 где 01-06-2017 11-54-10– число корректно распознанных символов, 01-06-2017 11-54-17 - число символов.

В качестве исходных данных выбраны наборы изображений: без искажения (a), с различными формами и размерами символов (b), с различным наклоном символов (c), с Гауссовым шумом (d), с символами со сходным написанием (e), с шумами печати и ложными знаками (f).

Результаты измерения точности распознавания символов для каждого из наборов изображений представлены в табл. 4.

 

Таблица 4 – Точность распознавания символов

Параметр Вид искажения
а b c d e f
AS 0,9995 0,9936 0,9947 0,9806 0,9312 0,8606
 

Исходя из результатов измерений размеры, углы наклона и формы символов влияют на результат работы сверточной НС незначительно. Значительное влияние оказывают шумы печати и сходное написание символов.

Алгоритм распознавания символов

На основании анализа эффективности методов, решающих проблему наличия искажений на изображениях, предложен алгоритм распознавания, состоящий из следующих этапов:

  • Предобработка:
    • применение адаптивного фильтра Винера;
    • применение морфологической операции закрытия в случае наличия шумов печати;
  • Сегментация:
    • оценка контрастности изображения;
    • увеличение контрастности при необходимости;
    • применение метода Брэдли-Рота;
    • сегментация символов;
  • Распознавание:
    • сверточная нейронная сеть.

Список литературы / References

  1. Cheriet M. Character recognition systems: a guide for students and practioners / M. Cheriet. - John Wiley & Sons, 2007. – 326 p.
  2. Погребняк И. В. Анализ эффективности систем оптического распознавания символов / И. В. Погребняк // Сборник трудов VII научно-практической конференции молодых ученых «Вычислительные системы и сети (Майоровские чтения)». - 2016. - С. 130—133.
  3. Bernsen J. Dynamic thresholding of grey-level images / J. Bernsen // Proc. 8th ICPR. – 1986. – Vol.1 – P. 1251-1255.
  4. Niblack W. An Introduction to Digital image processing / W. Niblack. - Prentice Hall, 1986. - 215 p.
  5. Sauvola J. Adaptive document image binarization / J. Sauvola, M. Pietikainen // Pattern Recognition. – 2000. –Vol. 33 – P. 225–236.
  6. Wolf C. Text localization, enhancement and binarization in multimedia documents / C. Wolf, J. M. Jolion, F. Chassaing // International Conference on Pattern Recognition. – 2002. –Vol. 4 – P. 1037–1040.
  7. Bradley Adaptive Thresholding Using the Integral Image / D. Bradley, G. Roth // Journal of Graphics Tools. – 2007. - Vol. 12(2). - P. 13-21.
  8. Соловьев Н. В. Улучшение качества растровых изображений: Учеб. пособие / Н. В. Соловьев, А. М. Сергеев. - СПб.: СПбГУ ИТМО, 2010. - 158 с.
  9. Zhou H. Digital Image Processing: Part II / H. Zhou, J. Wu, J. Zhang. - Ventus Publishing ApS, 2010. – 92 p.

Список литературы на английском языке / References in English

  1. Cheriet M. Character recognition systems: a guide for students and practioners / M. Cheriet. - John Wiley & Sons, 2007. – 326 p.
  2. Pogrebnyak I. V. Analiz effektivnosti sistem opticheskogo raspoznavanija simvolov [Efficiency analysis of optical character recognition systems] / I. V. Pogrebnyak // Sbornik trudov VII nauchno-prakticheskoj konferencii molodyh uchennyh «Vichislitelnye sistemy i seti (Majorovskie chtenija)» [Proceedings of the scientific and practical conference of young scientists «Computing systems and networks (Mayorov’s readings)»]. - 2016. - P. 130—133. [in Russian]
  3. Bernsen J. Dynamic thresholding of grey-level images / J. Bernsen // Proc. 8th ICPR. – 1986. – Vol.1 – P. 1251-1255.
  4. Niblack W. An Introduction to Digital image processing / W. Niblack. - Prentice Hall, 1986. - 215 p.
  5. Sauvola J. Adaptive document image binarization / J. Sauvola, M. Pietikainen // Pattern Recognition. – 2000. –Vol. 33 – P. 225–236.
  6. Wolf C. Text localization, enhancement and binarization in multimedia documents / C. Wolf, J. M. Jolion, F. Chassaing // International Conference on Pattern Recognition. – 2002. –Vol. 4 – P. 1037–1040.
  7. Bradley Adaptive Thresholding Using the Integral Image / D. Bradley, G. Roth // Journal of Graphics Tools. – 2007. - Vol. 12(2). - P. 13-21.
  8. Soloviev N. V. Uluchshenie kachestva rastrovyh izobrajenij: Ucheb. posobie [Improving the quality of raster images: Educational allowance] / N. V. Soloviev, A. M. Sergeev. - SPb.: SPbGU ITMO, 2010. - 158 p. [in Russian]
  9. Zhou H. Digital Image Processing: Part II / H. Zhou, J. Wu, J. Zhang. - Ventus Publishing ApS, 2010. – 92 p.