HTML-content

2303-9868

2227-6017

Международный научно-исследовательский журнал

2303-9868

ООО Цифра

10.60797/IRJ.2026.168.4

Brief communication

Архитектурное обоснование сквозной модели для детекции и распознавания лиц в условиях низкой освещённости с сохранением идентичности

https://orcid.org/0000-0001-5554-3887

Кузнецова

Агнесса Сергеевна

agnessakyz@yandex.ru 1 Громов

Евгений Геннадьевич

jek_kot@mail.ru 1

https://orcid.org/0000-0003-1470-8766

Гилка

Вадим Викторович

gilka.vadim@yandex.ru 1 Морозов

Дмитрий Александрович

dimka5rus@yandex.ru 1

https://ror.org/041szz343

Федеральное государственное бюджетное образовательное учреждение высшего образования Волгоградский государственный технический университет

17 06 2026

2026

6 168 1 6 09 04 2026 26 05 2026

2022

This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See http://creativecommons.org/licenses/by/4.0/ .

В работе представлено архитектурное решение задачи сквозной детекции и распознавания лиц, функционирующее в условиях недостаточной освещенности. Низкий уровень освещения вызывает критическое ухудшение качества входных данных: рост шумов, падение контраста и потерю текстурной информации, что негативно влияет на точность локализации объектов и стабильность извлекаемых биометрических эмбеддингов. Для преодоления указанных ограничений предлагается интегрировать модуль улучшения изображения, детектор и распознаватель в единый вычислительный контур. Такая структура, в отличие от классических каскадных решений с внешней предобработкой, обеспечивает согласованное обучение всех компонентов и целенаправленную оптимизацию признакового пространства, релевантного для сохранения identity-информации.Центральная методологическая проблема при реализации данного подхода заключается в некорректности использования нестабильного эмбеддинга из зашумленного темного кадра в качестве эталона для функции потерь идентичности. В работе анализируются два способа разрешения этого противоречия. Первый предполагает парное обучение с применением эталонных изображений нормальной освещенности. Второй, не требующий наличия светлых эталонов, базируется на механизме teacher–student дистилляции с momentum teacher, что позволяет стабилизировать процесс формирования биометрических представлений. Дополнительно рассматриваются аспекты стабилизации ключевых точек, гейтинг потерь на основе уверенности детектора и балансировка многокомпонентной целевой функции. Предложенная архитектура создает методологически обоснованную основу для разработки программного комплекса, ориентированного на высокую точность распознавания личности в условиях сложных световых сцен.

низкая освещённость детекция лиц распознавание лиц сохранение идентичности общий энкодер teacher student дистилляция гейтинг потерь

HTML-content

1. Введение

Условия недостаточной освещённости ухудшают качество изображения не только визуально, но и на уровне признаков, которыми оперируют современные нейросетевые модели. Рост сенсорного шума, нестабильность экспозиции, локальные тени, снижение контраста и потеря высокочастотных деталей приводят к тому, что ключевые ориентиры лица определяются менее точно, а эмбеддинги, используемые для идентификации, становятся менее устойчивыми [1], [4]. Поэтому даже сильные модели детекции и распознавания, показавшие высокое качество на кадрах нормальной освещённости, в тёмных сценах демонстрируют выраженную деградацию точности [5], [7].

Традиционная каскадная схема, в которой улучшение изображения предшествует детекции и распознаванию, удобна для инженерной реализации, однако разрывает единую оптимизацию между этапами. Модуль улучшения в таком конвейере ориентируется прежде всего на визуальную выразительность изображения и не контролирует сохранение биометрически значимых деталей, тогда как последующие блоки вынуждены работать с входами из иного распределения, чем то, на котором они изначально обучались [5], [7]. В результате внешнее улучшение может не только не помочь, но и ухудшить распознавание, если сглаживаются тонкие текстуры, искажается локальная геометрия или изменяется микроконтраст в областях глаз, носа и рта.

В настоящей работе рассматривается сквозная постановка задачи, в которой улучшение изображения, детекция и распознавание объединяются в единый вычислительный граф. Базовая идея состоит в использовании общего энкодера признаков, к которому подключаются детекторные и распознавательные головы, а также механизмы сохранения идентичности, устойчивые к шуму, ошибкам раннего выравнивания и фотометрической деградации. Такой подход позволяет трактовать улучшение не как отдельную предобработку, а как часть общей процедуры формирования биометрически полезного представления [7].

2. Методы и принципы исследования

Исходное изображение рассматривается как входной тензор

x ∈ ℝ 3 × 3 × H × W

где [LATEX_FORMULA]B[/LATEX_FORMULA] обозначает размер пакета, а [LATEX_FORMULA]H[/LATEX_FORMULA] и [LATEX_FORMULA]W[/LATEX_FORMULA]задают пространственные размеры изображения. Общий [LATEX_FORMULA]E[/LATEX_FORMULA] энкодер строит многоуровневое представление признаков, предназначенное для последующей совместной обработки задач улучшения, локализации и идентификации.

{ C 2 , C 3 , C 4 , C 5 } C k ∈ R B × C × ( H 2 k ) × ( W 2 k ) C 3 , C 4 , C 5

Далее по уровням формируется пирамидальное представление признаков, обеспечивающее перенос информации между масштабами и позволяющее сохранить как локальные, так и более глобальные структуры лица.

{ P 3 , P 4 , P 5 } = F P N ( C 3 , C 4 , C 5 )

Полученное пирамидальное представление используется совместно в детекторе и распознавателе [6], [12]. Детектор[LATEX_FORMULA]D[/LATEX_FORMULA] для каждого лица оценивает положение рамки, ключевые точки и меру уверенности, которая далее используется не только для локализации, но и для управления силой распознавательных потерь.

D ( P i ) = { b i , l i , s i } i = 1 N

Где [LATEX_FORMULA]b_i [/LATEX_FORMULA] обозначает рамку;

[LATEX_FORMULA]l = \{ i \}[/LATEX_FORMULA] — набор landmarks;

s i ∈ [ 0 , 1 ]

— confidence после подавления немаксимумов.

На следующем шаге выполняются выравнивание лица по ключевым точкам и извлечение фиксированного окна признаков, что позволяет привести входы распознавателя к согласованному геометрическому виду.

t i = R O I A l i g n ( P , A ( b i , 1 ) )

В этом выражении [LATEX_FORMULA]A[/LATEX_FORMULA] обозначает аффинное выравнивание к каноническому виду, а [LATEX_FORMULA]t_i[/LATEX_FORMULA] имеет фиксированный пространственный размер. После выравнивания распознавательная ветвь [LATEX_FORMULA]R[/LATEX_FORMULA] формирует нормированный эмбеддинг, который затем используется в термах идентичности и при необходимости в классификационной потере.

z i = n o r m ( R ( t i ) ) z i ∈ ℝ d

2.1. Архитектурная постановка identity loss

Если эталонный эмбеддинг вычисляется непосредственно по тёмному входу, возникает логически замкнутый контур, в котором нестабильное представление используется как цель для собственной коррекции. В базовом варианте это можно записать следующим образом:

z x = R ( A ( x , l x ) ) , z y = R ( A ( y , l y ) ) L i i l = 1 − cos ( z x , z y )

Здесь y обозначает улучшенное изображение. Ключевая проблема состоит в том, что при сильной деградации [LATEX_FORMULA]z_x[/LATEX_FORMULA] сам по себе может быть шумным и смещённым, поэтому генератор получает ненадёжную целевую функцию и начинает подстраиваться под искажённый эталон [5].

Если доступны парные данные, то есть эталонное изображение нормальной освещённости [LATEX_FORMULA]x^{\text{ref}}, \ \text{identityloss}[/LATEX_FORMULA] целесообразно определять по опорному изображению нормального качества:

z r e f = n o r m ( R ( A ( x r e f , l r e f ) ) ) , z y = n o r m ( R ( A ( y , l y ) ) ) L pair i = 1 − cos ( z r e f , z y )

Такой режим разрывает замкнутый круг, поскольку эталонный эмбеддинг извлекается из качественного изображения и тем самым задаёт более устойчивую цель для оптимизации [1].

При отсутствии парных данных предлагается использовать teacher student схему. В этой постановке teacher сеть [LATEX_FORMULA]R_{\tau}[/LATEX_FORMULA] обновляется по правилу экспоненциального скользящего среднего, что обеспечивает более плавную и устойчивую динамику формирования целевых представлений:

θ τ ← μ θ τ + ( 1 − μ ) θ s , μ ∈ ( 0 , 1 )

Здесь [LATEX_FORMULA]\theta_{\tau}[/LATEX_FORMULA] и [LATEX_FORMULA]\theta_s[/LATEX_FORMULA]обозначают параметры teacher и student соответственно. После обновления teacher формируются эмбеддинги, используемые для непарного варианта identity loss:

z τ = n o r m ( R τ ( A ( y , l y ) ) ) , z s = n o r m ( R s ( A ( y , l y ) ) ) L int m = 1 − cos ( z s , z τ )

Поскольку teacher ветвь по определению схемы не получает градиент, остановка градиента в данном случае выступает техническим следствием выбранной организации обучения, а не самостоятельным методом стабилизации [9].

Если доступны метки идентичности, в схему дополнительно включается ArcFace потеря:

L arc = A r c F a c e L o s s ( z , k )

Указанный терм усиливает разделимость классов в пространстве эмбеддингов [5]. Если же метки идентичности отсутствуют, ArcFace потеря не используется, а сохранение идентичности обеспечивается исключительно через teacher student механизм и согласование представлений.

2.2. Стабилизация выравнивания и landmarks

На ранних этапах совместного обучения детектор и распознаватель ведут себя нестабильно, поскольку ошибки в landmarks немедленно отражаются на alignment и далее ухудшают эмбеддинги. Поэтому на этапе прогрева целесообразно использовать предобученный детектор [LATEX_FORMULA]D_0[/LATEX_FORMULA] как внешнего учителя для ключевых точек, а согласованность с его оценками вводить как дополнительный регуляризатор:

I ( 0 ) = D 0

Такое ограничение сдерживает отклонение текущих landmarks от стабильной опорной траектории и позволяет подключать identity потери только после того, как выравнивание становится достаточно надёжным для передачи корректного сигнала в распознаватель [6], [8].

Figure 1

Схема обучения

Сначала выполняется прогрев общего энкодера и ветви улучшения, затем стабилизируется детекция и ключевые точки, после чего включается совместное обучение с identity потерями.

3. Режимы данных и функция потерь

Под парным режимом понимается наличие пары «тёмное изображение, эталонное изображение» для одной сцены или одного лица. Под непарным режимом понимается отсутствие такого фотометрического эталона. Это различие не совпадает автоматически с наличием identity меток: метки личности могут присутствовать как в парном, так и в непарном сценарии. Такое разделение принципиально важно для корректного выбора супервизии.

Общая функция потерь модели записывается следующим выражением:

L = λ e n h L e n h + λ r a d L r a d + λ d e t L d e t + λ a r c L a r c + λ i d L i d + λ c o n s L c o n s

где, [LATEX_FORMULA]L_{\text{cons}}[/LATEX_FORMULA]

В парном режиме модуль улучшения естественно задаётся как сумма пиксельной, структурной и признаковой составляющих, что позволяет одновременно контролировать фотометрическое соответствие и сохранение признаков, значимых для распознавания:

L e n h p a i r = ‖ y − x r e f ‖ 1 + α · ( 1 − S S I M ( y , x r e f ) ) + β · L f e a t ( y , x r e f )

Коэффициенты α и β регулируют вклад структурной и признаковой частей. В непарном режиме вместо прямого эталона используются zero reference регуляризаторы, ориентированные на самосогласованность и корректное поведение улучшателя без явного фотометрического образца:

L e n h = L e n h p a i r , если доступна пара ( x , x r e f ) L − e n h = L _ Z ( y ) , если пары нет

Аналогично adversarial часть включается только в том случае, если выбран GAN режим:

L a d v = 0 , если GAN не используется

Таким образом, непарность относится только к отсутствию фотометрического эталона и не отменяет возможность supervision для распознавания [2], [4]. Это позволяет разделять источник данных для улучшения и источник сигналов для идентификации без логических противоречий.

4. Балансировка многокомпонентной оптимизации

Поскольку отдельные функции потерь могут формировать разнонаправленные градиенты, статический подбор коэффициентов не всегда приводит к устойчивому обучению. Один из практических вариантов заключается в использовании обучаемых весов, связанных с гомоскедастической неопределённостью:

L = ∑ i = 1 N ( 1 2 σ i 2 L i + log ( σ i ) )

В этом выражении [LATEX_FORMULA]\sigma_i[/LATEX_FORMULA] обозначают обучаемые параметры, а индекс i соответствует отдельным задачам модели, например улучшению, детекции и распознаванию [10]. Такая форма позволяет автоматически перераспределять вклад задач по мере обучения. В качестве альтернативы может использоваться подход GradNorm, в котором контролируются нормы градиентов по общим параметрам:

G i = ∇ w ( w i L i 2 )

Здесь

w i

—[10]

Результаты. Результатом проведённого анализа является непротиворечивая архитектурная схема, в которой улучшение, детекция и распознавание связаны через общий энкодер и согласованные функции потерь. По сравнению с каскадным конвейером предложенная постановка допускает прямое влияние задач детекции и распознавания на формирование общего пространства признаков. Это означает, что модуль улучшения оптимизируется не только по фотометрическим критериям, но и с учётом требований к локализации и устойчивости эмбеддингов

[7]

Существенным результатом является устранение логической проблемы замкнутого круга identity loss. Показано, что использование эмбеддинга тёмного входа в качестве эталона методологически ненадёжно, тогда как парный эталон и teacher student схема формируют более устойчивые и интерпретируемые цели для оптимизации

[1][9][6][8]

Отдельный результат связан с вычислительной организацией системы. Если головы детекции и распознавания подключены непосредственно к общему энкодеру, декодер улучшения может быть отключён на этапе инференса без потери основной функциональности, при условии, что обучение проводилось в том же режиме и градиенты от задач детекции и распознавания действительно влияли на общий энкодер. Это делает предложенную архитектуру применимой не только для офлайн обработки, но и для сценариев с ограниченным вычислительным бюджетом.

Дополнительным результатом является повышение отказоустойчивости за счёт гейтинга по уверенности детектора. Пусть

s i [LATEX_FORMULA]g(s_i) = \sigma\bigl(k(s_i - \tau)\bigr), \quad k > 0[/LATEX_FORMULA]

Соответствующий гейтированный identity loss принимает вид:

L i d g a t e = ∑ i g ( s i ) ( 1 − cos ( z s , i , z τ , i ) )

Аналогичным образом определяется и гейтированная ArcFace потеря:

L a r c g a t e = ∑ i g ( s i ) L a r c , i

Такая форма ослабляет влияние распознавания на ранних и слабодетектируемых примерах, не отключая распознаватель полностью и не разрушая совместную оптимизацию.

Предложенная схема показывает, что ключевые инженерные риски в задачах low light распознавания лиц определяются не столько выбором конкретного backbone, сколько согласованием источников супервизии и моментом включения распознавательных термов. Если identity loss привязан к нестабильному эмбеддингу тёмного входа, система получает ошибочную цель вне зависимости от мощности генератора. Напротив, при использовании согласованных признаков общего энкодера и при подключении identity термов только после стабилизации landmarks архитектура становится существенно более устойчивой как с методологической, так и с вычислительной точки зрения.

Не менее важна и вычислительная организация модели. Shared encoder с прямыми подключениями к головам детекции и распознавания уменьшает избыточную стоимость обработки, а возможность отключения декодера на инференсе делает схему пригодной для практических систем, где критичны время отклика и объём памяти. Дополнительный гейтинг распознавательных потерь по уверенности детектора естественным образом учитывает качество наблюдения и снижает риск разрушительных градиентов на ранних стадиях обучения.

Дополнительное методологическое значение предложенной архитектуры состоит в том, что она позволяет явно развести фотометрическую и биометрическую составляющие задачи, не разрывая их на уровне обучения. В классических каскадах между этими составляющими обычно отсутствует обратная связь: модуль улучшения стремится восстановить визуальную разборчивость кадра, а распознаватель лишь пассивно принимает полученный результат. В рассматриваемой схеме, напротив, улучшение подчиняется требованиям последующих задач и тем самым оптимизируется в контексте конечной цели. Это особенно важно для сцен с неравномерным освещением, локальными пересветами, тенями и сенсорным шумом, где визуально «приятное» восстановление не всегда совпадает с сохранением идентичностно значимых микропризнаков. Следовательно, даже без проведения экспериментальной части уже на уровне архитектурного анализа можно утверждать, что согласование источников супервизии и последовательности включения потерь является критическим условием устойчивой работы системы.

Практическая перспектива дальнейшей верификации такой модели связана с поэтапной экспериментальной проверкой на наборах данных, содержащих как контролируемые, так и естественные низкоосвещённые сцены. На первом этапе необходимо подтвердить устойчивость детекции и корректность landmarks после прогрева и регуляризации, на втором этапе — оценить влияние парного и непарного режимов на сохранение идентичности, а на третьем этапе — сопоставить качество распознавания при включённом и отключённом декодере улучшения на инференсе. Подобная стратегия не меняет предложенную архитектурную логику, но позволяет последовательно проверить те допущения, которые были сформулированы в данной статье на теоретическом уровне. Тем самым предложенная схема выступает не только как концептуальная модель, но и как практически пригодный каркас для построения последующих экспериментальных протоколов.

5. Заключение

Предложенная сквозная архитектура объединяет улучшение изображения, детекцию и распознавание лиц в единый вычислительный контур и устраняет ключевые противоречия, характерные для каскадных схем. Основной вклад работы состоит в том, что улучшение рассматривается не как внешняя предобработка, а как часть процесса формирования биометрически полезного представления. Благодаря этому фотометрическая коррекция связывается с требованиями к точности детекции и к устойчивости эмбеддингов.

Показано, что наиболее критичным риском является использование нестабильного тёмного эмбеддинга как эталона для identity loss. Для устранения этого риска предложены два согласованных режима: первый основан на парном эталонном изображении, второй использует teacher student дистилляцию с momentum teacher. Кроме того, обоснована необходимость ранней стабилизации landmarks, адаптивного взвешивания многокомпонентной функции потерь и гейтинга распознавательных термов по уверенности детектора.

С практической точки зрения наибольший интерес представляет вариант с общим энкодером и прямыми подключениями голов детекции и распознавания, поскольку он позволяет отключать декодер улучшения на этапе инференса и тем самым снижать вычислительную нагрузку. Следовательно, сформулированная архитектурная схема может служить основой для дальнейшей программной реализации, экспериментальной верификации и прикладного внедрения в задачах распознавания лиц при низкой освещённости.

Additional File

The additional file for this article can be found as follows:

Online Supplementary Material

Further description of analytic pipeline and patient demographic information. DOI: https://doi.org/10.60797/IRJ.2026.168.4

Acknowledgements

Competing Interests

1 Chen C. Learning to see in the dark / C. Chen, Q. Chen Q., J. Xu, V. Koltun // In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2018. — № 16. DOI: 10.1109/CVPR.2018.00347. [in English] 2 Guo C. Zero-reference deep curve estimation for low-light image enhancement / C. Guo, C. Li, J. Guo // 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2020. — DOI: 10.1109/CVPR42600.2020.00185. 3 Ma L. Toward fast, flexible, and robust low-light image enhancement / L. Ma, T. Ma, R. Liu // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2022. — DOI: 10.1109/CVPR52688.2022.00555. 4 Jiang Y. EnlightenGAN: deep light enhancement without paired supervision / Y. Jiang , X. Gong, D. Liu // IEEE Transactions on Image Processing. — 2021. — № 30. — с. 2340-23-49. DOI: 10.1109/TIP.2021.3051462. [in English] 5 Deng J. ArcFace: additive angular margin loss for deep face recognition / J. Deng , J. Guo, N. Xue , S. Zafeiriou // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2019. — № 22. DOI: 10.1109/CVPR.2019.00482. [in English] 6 Deng J. RetinaFace: single-shot multi-level face localisation in the wild / J. Deng , J. Guo , E. Ververas , I. Kotsia, S. Zafeiriou // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2020. — № 6. DOI: 10.1109/CVPR42600.2020.00525. [in English] 7 Wang W. HLA-Face: joint high-low adaptation for low-light face detection / W. Wang , W. Yang , J. Liu // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2021. — № 77. DOI: 10.1109/CVPR46437.2021.01593. [in English] 8 Визильтер Ю.В. Одноэтапный детектор лиц и особых точек на цифровых изображениях / Ю.В. Визильтер , В.С. Горбацевич, А.С. Моисеенко // Компьютерная оптика. — 2020. — № 44 (4). — с. 589–595. DOI: 10.18287/2412-6179-CO-674. 9 Tarvainen A. Mean teachers are better role models: weight-averaged consistency targets improve semi-supervised deep learning results / A. Tarvainen, H. Valpola // arXiv. — 2017. — DOI: 10.48550/arXiv.1703.01780 10 Kendall A. Multi-task learning using uncertainty to weigh losses for scene geometry and semantics / A. Kendall , Y. Gal , R. Cipolla // Proceedings of the IEEE/CVF. — 2018. — № 21. DOI: 10.1109/CVPR.2018.00781. [in English]