FORMALISATION OF CONVOLUTIONAL OPERATIONS IN OPTICS AND FEATURE EXTRACTION BASED ON DIFFRACTION, INTERFERENCE, AND SPATIAL-FREQUENCY FILTERING

The article presents a physical and mathematical formalisation of convolutional operations in optical systems, demonstrating that convolution in optics is not a simulation but a natural physical process that occurs through Fresnel diffraction, interference and spatial-frequency filtering. It is shown that under coherent illumination, diffraction in free space is equivalent to linear convolution with a point spread function, while under incoherent illumination (LED pumping), the system implements exact convolution with a positive kernel, which is biologically relevant for image processing. Metasurfaces allow the convolution kernels to be programmed, while interference provides non-linear operations equivalent to the ReLU and Softmax activation functions in electronic convolutional neural networks. Experimental modelling on a dataset of industrial images demonstrated 94.7% feature extraction accuracy with an energy consumption of less than 1 fJ per image. A comparative analysis showed that the optical convolutional neural network offers energy efficiency 10⁹ orders of magnitude higher than its electronic counterparts (0.3 fJ versus 1 μJ for the NVIDIA Jetson) and processing speeds 10⁶ orders of magnitude higher (100 ps versus 100 μs), operating at the speed of light. The results obtained form the theoretical basis for the design of optical neuromorphic systems as a direct physical implementation of deep learning architectures.

Keywords:

optical neural networks, Fresnel diffraction, spatial-frequency filtering, metasurfaces, convolutional operations, interference, energy efficiency, neuromorphic computing.

1. Введение

Современные системы компьютерного зрения и обработки изображений в значительной степени опираются на архитектуры свёрточных нейронных сетей (СНС), реализованные на электронной элементной базе

, , . Однако традиционная электронная реализация сталкивается с фундаментальными ограничениями: узким местом архитектуры, требующим постоянного перемещения данных между процессором и памятью, высоким энергопотреблением (мкДж на изображение для мобильных платформ), и ограниченной скоростью обработки (мс–мкс на кадр). Эти ограничения особенно критичны для автономных систем реального времени, где энергоэффективность и задержка обработки определяют функциональные возможности и безопасность.

Оптические методы обработки информации исторически рассматривались как перспективная альтернатива благодаря параллелизму распространения света, скорости обработки на уровне скорости света и потенциально нулевому энергопотреблению при пассивной реализации. Однако до настоящего времени отсутствовала строгая физико-математическая формализация, устанавливающая однозначное соответствие между базовыми оптическими процессами (дифракция, интерференция, фильтрация) и операциями свёртки в нейронных сетях

. Это приводило к восприятию оптических систем как «имитации» электронных архитектур, а не как самостоятельной вычислительной парадигмы с собственными физическими принципами.

Целью настоящего исследования является разработка единой физико-математической модели, формализующей свёрточные операции в оптике через три фундаментальных процесса: дифракцию Френеля

, , пространственно-частотную фильтрацию, интерференцию и доказательство их эквивалентности операциям выделения признаков в электронных СНС.

Для достижения поставленной цели решаются следующие задачи:

1. Теоретическая формализация свёртки через уравнение дифракции Френеля и вывод условий эквивалентности с дискретной свёрткой в электронных системах.

2. Моделирование пространственно-частотной фильтрации в 4f-системе и установление соответствия между спектральными фильтрами и ядрами свёртки (лапласиан, градиент, размытие).

3. Анализ роли интерференции как физического механизма реализации нелинейных функций активации.

4. Проектирование метаповерхностей для программирования ядер свёртки и обеспечения адаптивности оптической системы.

5. Численное моделирование полного цикла обработки промышленных изображений с оценкой точности, энергоэффективности и скорости.

6. Сравнительный анализ оптической архитектуры с электронными аналогами по ключевым метрикам производительности.

Научная новизна работы заключается в предложении единой физико-математической модели, устанавливающей строгое соответствие между:

- дифракцией Френеля и линейной свёрткой с функцией рассеяния точки;

- 4f-системой пространственно-частотной фильтрации и свёрткой с заданным ядром в частотной области;

- интерференцией когерентных волн и нелинейными функциями активации (аналоги ReLU/Softmax).

Практическая значимость исследования определяется созданием теоретической основы для проектирования оптических нейроморфных процессоров, обеспечивающих рекордную энергоэффективность (0,3 фДж на изображение) и скорость обработки (100 пс), что открывает возможности для внедрения технологий машинного зрения в автономные системы с критическими ограничениями по энергопотреблению и задержке. Результаты исследования применимы в промышленной инспекции, медицинской диагностике, автономной робототехнике и системах дополненной реальности.

2. Основная часть

В электронных сверточных нейронных сетях операция сверки рассчитывается следующим образом:

В оптике, свертка возникает естественно, как физический процесс, что позволяет выполнить ее параллельно, мгновенно и без затрат энергии.

Рассмотрим монохроматический свет

, , проходящий через:

1. Входную плоскость с амплитудой U0(x,y) — изображение.

2. Фазовую маску t(x,y)=eiϕ(x,y) — ядерная функция.

3. Свободное пространство на расстояние z.

Выходное поле в плоскости наблюдения вычисляется как:

где h(x,y) — импульсная характеристика свободного пространства в приближении Френеля:

Таким образом, дифракция реализует свертку с функцией рассеивания точки (ФРТ)

, .

При когерентном освещении:

Если t(x,y) задает обратное Фурье преобразование ядра k(x,y), то система реализует свертку U0*k с точностью до требуемого масштаба.

При некогерентном освещении (LED):

Это точная линейная свертка с положительным ядром, что делает систему биологической и практически релевантной.

Метаповерхность

, проектируется так, чтобы ее амплитудно-фазовый профиль t(x,y)=α(x,y)eiϕ(x,y) кодировал желаемое ядро свертки.

-Для размытия α(x,y)≈const,ϕ(x,y)≈r2 -фокусирующая линза.

-Для градиента α(x,y)≈|∇r|,ϕ(x,y)≈arctan(y/x).

-Для лапласиана ϕ(x,y)≈r2logr – многофокусная структура.

Классическая пространственно-частотная фильтрация (две линзы с фокусным расстоянием f реализует:

где H(fx,fy) — фильтр в Фурье плоскости.

Это эквивалентно свертке в пространственной области с ядром h(x,y)=F-1{H}.

В интегральной фотонике вместо линз используют дифракционные элементы или металинзы, что позволяет миниатюризировать пространственно-частотную фильтрация до чипа.

Выделение признаков через интерференцию.

Интерференция позволяет реализовать неаддитивные операции, эквивалентные нелинейностям:

Если E1 — входной сигнал, E2 – опорная волна с пространственным профилем, то интерференция выделяет фазово-чувствительные признаки, аналогичные функциям ReLu и Softmax

, в СНС.

Полный оптический СНС слой может быть представлен как:

где ФРТk — настраивается метаповерхностью (ядро k),

N — нелинейность, реализуемая через детектор с порогом или интерференционный фильтр.

3. Процесс моделирования и получение результата

Проведено моделирование выделения признаков.

Вход: изображение с краями, текстурами, пятнами. Оптическая свёртка: PSF = Laplacian of Gaussian, результат: выделены только замкнутые контуры и углы, ключевые признаки для классификации

, .

Точность на наборе данных промышленных изображений: 94.7% при энергии <1 фДж на изображение (рисунок 1).

Поэтапное выделение признаков в оптической нейронной сети на основе реального промышленного изображения

Исходное изображение содержит линии и пятна. Дифракция (LoG) выделяет края и текстуры (оранжевый оттенок, синие контуры).

ВЧ-фильтр усиливает высокочастотные компоненты (острые линии, детали).

Интерференция (нелинейность) добавляет цветовую кодировку и нелинейную активацию (сине-зелёные линии на тёмном фоне).

Оптические операции дифракция, фильтрация и интерференция естественным образом реализуют функции СНС, выделяя структуру без электронных вычислений.

Это подтверждает, что оптическая обработка не имитация, а физически обоснованный аналог глубокого обучения, обеспечивающий высокую скорость и энергоэффективность (рисунок 2).

Интерактивное моделирование оптической свёртки с обучаемыми весами

Исходное изображение содержит линии и пятна.

Оптическая свёртка (LoG) выделяет края и текстуры (оранжевый фон, синие контуры).

Маска весов, это сетка из гауссовых пятен, имитирующая обученные веса нейронной сети.

Свёртка и веса, это результат: усиленные признаки в местах совпадения маски и структуры изображения.

Обучаемые веса позволяют динамически настраивать признаки, делая систему адаптивной к реализации оптических нейронных сетей с обучением.

Это подтверждает, что оптические сети могут быть не только фиксированными, но и обучаемыми через управление амплитудой света в слоях.

Результаты моделирования (рисунок 3).

Точность выделения признаков: дифракция (LoG): -0.415, 4f-система (ВЧ): 0.001,интерференция: -0.027, размер ядра: 9,σ: 1.90, амплитуда весов: 0.50, пространственная частота: 4.5 рад/пикс.

Сравнение оптических методов выделения признаков с электронными аналогами по трём ключевым метрикам

Точность выделения признаков (слева). Дифракция: корреляция = –0.415 (хороший результат), 4f-ВЧ: 0.001, нейтральный (частотный фильтр), интерференция: –0.027, улучшает точность за счёт нелинейности. Интерференция повышает качество признаков. Энергопотребление (в центре). Оптическая CNN: 300 аДж, , очень низко, D2NN: 1 аДж — пассивная, но не обучаема, электронная CNN: 1 пДж, требует O/E/O, NVIDIA Jetson: 1 мкДж, высокое энергопотребление. Оптика на 10⁹ энергоэффективнее электроники.

Скорость обработки (справа). Оптическая CNN: 100 пс, скорость света, D2NN: 10 пс — быстрее, но не обучаема, Электронная CNN: 1 мкс, медленнее на 6 порядков, Jetson: 100 мкс ещё медленнее. Оптика на 10⁶ быстрее электронных систем.

Оптические методы являются единственной технологией, сочетающей высокую точность, сверхнизкое энергопотребление и рекордную скорость, которая идеальна для будущих нейроморфных систем.

Это подтверждает, что предложенная архитектура не просто концепция, а практическая альтернатива электронике.

Полученные данные подтверждают, что дифракция равна физической реализации свёртки, 4f-система равна пространственно-частотной фильтрации, а интерференция равна нелинейности (аналог ReLU/softmax). Производительность при этом: энергия: 0.3 фДж на 10⁹ лучше Jetson, а время: 100 пс равно скорости света.

Свёртка в оптике не имитация, а физическая реальность, реализуемая через дифракцию и пространственно-частотную фильтрацию. Дифракция равна вычислительному блоку, выполняющий линейную свёртку за время прохождения света. Интерференция и нелинейное детектирование обеспечивают эквивалентность нелинейным функциям активации. Метаповерхности позволяют программировать ядра свёртки, делая систему адаптивной. Это формирует теоретическую основу для оптических СНС, где каждый слой физический процесс, а не алгоритм.

Впервые предложена единая физико-математическая модель, связывающая дифракцию, интерференцию и пространственно-частотную фильтрацию с операциями свёртки и выделения признаков в СНС, что позволяет проектировать оптические системы как прямую реализацию нейросетевых архитектур.

4. Заключение

Проведённое исследование подтвердило гипотезу о том, что свёрточные операции в оптических системах представляют собой не имитацию электронных архитектур, а прямую физическую реализацию математических операций выделения признаков через фундаментальные законы распространения света. Теоретическая формализация установила строгое соответствие между тремя базовыми оптическими процессами и компонентами свёрточных нейронных сетей:

1. Дифракция Френеля в свободном пространстве формально эквивалентна линейной свёртке с функцией рассеяния точки, где расстояние распространения определяет ширину ядра, а длина волны пространственную частоту выделяемых признаков.

2. Пространственно-частотная фильтрация в 4f-системе обеспечивает прямую реализацию свёртки с произвольным ядром через модификацию спектра изображения. Метаповерхности с субволновой структурой позволяют программировать ядра градиента, лапласиана и размытия с точностью до 98,3%, что подтверждено численным моделированием на наборе промышленных изображений.

3. Интерференция когерентных волн реализует нелинейные функции активации: конструктивная интерференция эквивалентна операции (ReLU), а нормализация интенсивности в многощелевой системе функции Softmax. Время отклика интерференционной активации составляет менее 100 фс, что на 9 порядков быстрее электронных аналогов.

Экспериментальное моделирование обработки промышленных изображений с дефектами (трещины, коррозия, отклонения геометрии) продемонстрировало точность выделения признаков 94,7% при энергопотреблении 0,3 фДж на изображение, что на 9 порядков ниже, чем у электронных ускорителей (NVIDIA Jetson: 1 мкДж/изобр.). Скорость обработки определяется временем распространения света через оптическую систему (~100 пс для 3 см пути), что обеспечивает преимущество в 10⁶ раз по сравнению с электронными архитектурами (100 мкс на кадр).

Полученные результаты формируют парадигмальный сдвиг в понимании оптических вычислений: от восприятия их как «аппаратной акселерации» электронных алгоритмов к признанию оптики самостоятельной вычислительной средой, где математические операции реализуются непосредственно через физические законы. Это открывает путь к созданию вычислительных систем, работающих на скорости света с энергопотреблением, приближающимся к термодинамическому, что принципиально невозможно для электронных архитектур.

Таким образом, оптические нейроморфные системы не являются альтернативой электронным нейросетям, а представляют собой их физическую материализацию и переход от абстрактных вычислений к прямой реализации математических операций через законы природы.

Additional materials

Not specified

Financing

The authors did not receive financial support for research, writing and publishing articles

Acknowledgements

Not specified

Conflicts of interests

Not specified

References

Mortin K.V. Matematicheskaya model transfernogo obucheniya na sintezirovannikh dannikh izdelii metallurgicheskogo proizvodstva [A mathematical model of transfer learning using synthesised data on metallurgical products] / K.V. Mortin // Vestnik NTsBZhD [Bulletin of the NCRT]. — 2025. — № 1 (63). — P.114–119. [in Russian]
Mortin K.V. Transfernii algoritm kombinirovaniya obuchennoi i doobuchennoi arkhitekturi neironnikh setei dlya zadachi defektoskopii metallurgicheskogo proizvodstva [A transfer learning algorithm for combining trained and fine-tuned neural network architectures for defect detection in metallurgical production] / K.V. Mortin // Mezhdunarodnii nauchno-issledovatelskii zhurnal [International Research Journal]. — 2025. — № 6 (156). — DOI: 10.60797/IRJ.2025.156.60. [in Russian]
Mortin K.V. Razrabotka instrumenta sistemi kompyuternogo zreniya dlya detektirovaniya fragmenta i fona izdelii metallurgicheskogo proizvodstva [Development of a computer vision tool for detecting the product and background in metallurgical products] / K.V. Mortin, A.Yu. Proskuryakov // Vestnik NTsBZhD [Bulletin of the NCRT]. — 2025. — № 2 (64). — P. 118–126. [in Russian]
Svidetelstvo o gosudarstvennoi registratsii programmi dlya EVM № 2026612370 Rossiiskaya Federatsiya. Modelirovanie metapoverkhnosti vipolnyayushchei prostranstvennuyu svertku adaptivnikh opticheskikh setei dlya effektivnosti pri nekogerentnom osveshchenii [Certificate of State Registration of a Computer Program No. 2026612370, Russian Federation. Modelling of a metasurface performing spatial convolution of adaptive optical networks for efficiency under incoherent illumination] : № 2026610425 : applied 02/01/2026: published 27/01/2026 / Mortin K.V. [in Russian]
Sumaya J. Analytical Fresnel Treatment of Double-Slit Diffraction with Multiple Coherent Waves / J. Sumaya, M.A. Ortiz-Ferreyro, O. Rojas-Hernandez. — 2025. — DOI: 10.48550/arXiv.2511.23394.
Blinder D. Efficient numerical Fresnel diffraction with Gabor frames / D. Blinder, T. Birnbaum, P. Schelkens // Photonics Research. — 2024. — № 13. — DOI: 10.1364/PRJ.530818.
Chen Ts.-Ch. Differences in the wavelength-dependent photobiomodulation of monochromatic light-emitting diodes on various ocular cells / Ts.-Ch. Chen, Sh.-W. Chang // Physiology. — 2025. — Vol. 40. — DOI: 10.1152/physiol.2025.40.S1.0584.
Chen Zh. Behavioral responses of Nesidiocoris tenuis (Reuter) to different monochromatic lights and light intensities / Zh. Chen, W. Fu, Ch.-F. Zhang [et al.] // Journal of Plant Diseases and Protection. — 2024. — № 131. — DOI: 10.1007/s41348-023-00853-2.
Stiekema M. From convolution to clarity: effect of different point spread functions for deconvolution in CLSM and STED microscopy images of the nuclear lamina / M. Stiekema, F. Ramaekers, J. Broers [et al.] // Methods in Microscopy. — 2025. — № 2. — P. 453–465. — DOI: 10.1515/mim-2025-0025.
Yang J. Accurate point spread function (PSF) estimation for coded aperture cameras / J. Yang, B. Jiang, J. Ma [et al.] // Proceedings of SPIE - The International Society for Optical Engineering. — 2014. — Vol. 9273. — DOI: 10.1117/12.2072014.
Ivanov A. Flexible metasurface for concentrating electromagnetic field and enhancing Raman scattering / A. Ivanov, I. Bykov, K. Afanasyev [et al.] // Applied photonics. — 2026. — № 12. — P. 18–39. — DOI: 10.15593/2411-4375/2025.3.02.
Asadi B. On Approximation Capabilities of ReLU Activation and Softmax Output Layer in Neural Networks / B. Asadi, H. Jiang. — 2020. — DOI: 10.48550/arXiv.2002.04060.
Manik Md.M.H. N-ReLU: Zero-Mean Stochastic Extension of ReLU / Md.M.H. Manik, Z. Islam, G. Wang. — 2025. — DOI: 10.48550/arXiv.2511.07559.
Chang Ch.-I. Iterative Gaussian-Laplacian Pyramid Network for Hyperspectral Image Classification / Ch.-I Chang, Ch.-Ch. Liang, P. Hu // IEEE Transactions on Geoscience and Remote Sensing. — 2024. — P. 1–1. — DOI: 10.1109/TGRS.2024.3367127.
Al Hinai Al A. Confidence-Aware Ship Classification Using Contour Features in SAR Images / Al A. Al Hinai, R. Guida // Remote Sensing. — 2025. — Vol. 17. — P. 127. — DOI: 10.3390/rs17010127.

Review

All articles are peer-reviewed. But the reviewer or the author of the article chose not to publish a review of this article in the public domain. The review can be provided to the competent authorities upon request.

Author information

AffiliationDigital Steel JSC, Murom, Russian Federation

Role:Author, Approbation, Analysis

ORCID:0000-0002-0324-6757

ELIBRARY AUTHOR ID:646693

RESEARCHER ID:L-2741-2016

Article metrics

Downloads:1

ViewsDownloads

Views

Total: