FORMALISATION OF CONVOLUTIONAL OPERATIONS IN OPTICS AND FEATURE EXTRACTION BASED ON DIFFRACTION, INTERFERENCE, AND SPATIAL-FREQUENCY FILTERING

Research article
DOI:
https://doi.org/10.60797/IRJ.2026.166.46
EDN:
ENIOKN
Suggested:
19.02.2026
Accepted:
12.03.2026
Published:
17.04.2026
Issue: № 4 (166), 2026
Rightholder: authors. License: Attribution 4.0 International (CC BY 4.0)
24
1
XML
PDF

Abstract

The article presents a physical and mathematical formalisation of convolutional operations in optical systems, demonstrating that convolution in optics is not a simulation but a natural physical process that occurs through Fresnel diffraction, interference and spatial-frequency filtering. It is shown that under coherent illumination, diffraction in free space is equivalent to linear convolution with a point spread function, while under incoherent illumination (LED pumping), the system implements exact convolution with a positive kernel, which is biologically relevant for image processing. Metasurfaces allow the convolution kernels to be programmed, while interference provides non-linear operations equivalent to the ReLU and Softmax activation functions in electronic convolutional neural networks. Experimental modelling on a dataset of industrial images demonstrated 94.7% feature extraction accuracy with an energy consumption of less than 1 fJ per image. A comparative analysis showed that the optical convolutional neural network offers energy efficiency 10⁹ orders of magnitude higher than its electronic counterparts (0.3 fJ versus 1 μJ for the NVIDIA Jetson) and processing speeds 10⁶ orders of magnitude higher (100 ps versus 100 μs), operating at the speed of light. The results obtained form the theoretical basis for the design of optical neuromorphic systems as a direct physical implementation of deep learning architectures.

1. Введение

Современные системы компьютерного зрения и обработки изображений в значительной степени опираются на архитектуры свёрточных нейронных сетей (СНС), реализованные на электронной элементной базе

,
,
. Однако традиционная электронная реализация сталкивается с фундаментальными ограничениями: узким местом архитектуры, требующим постоянного перемещения данных между процессором и памятью, высоким энергопотреблением (мкДж на изображение для мобильных платформ), и ограниченной скоростью обработки (мс–мкс на кадр). Эти ограничения особенно критичны для автономных систем реального времени, где энергоэффективность и задержка обработки определяют функциональные возможности и безопасность.

Оптические методы обработки информации исторически рассматривались как перспективная альтернатива благодаря параллелизму распространения света, скорости обработки на уровне скорости света и потенциально нулевому энергопотреблению при пассивной реализации. Однако до настоящего времени отсутствовала строгая физико-математическая формализация, устанавливающая однозначное соответствие между базовыми оптическими процессами (дифракция, интерференция, фильтрация) и операциями свёртки в нейронных сетях

. Это приводило к восприятию оптических систем как «имитации» электронных архитектур, а не как самостоятельной вычислительной парадигмы с собственными физическими принципами.

Целью настоящего исследования является разработка единой физико-математической модели, формализующей свёрточные операции в оптике через три фундаментальных процесса: дифракцию Френеля

,
, пространственно-частотную фильтрацию, интерференцию и доказательство их эквивалентности операциям выделения признаков в электронных СНС.

Для достижения поставленной цели решаются следующие задачи:

1. Теоретическая формализация свёртки через уравнение дифракции Френеля и вывод условий эквивалентности с дискретной свёрткой в электронных системах.

2. Моделирование пространственно-частотной фильтрации в 4f-системе и установление соответствия между спектральными фильтрами и ядрами свёртки (лапласиан, градиент, размытие).

3. Анализ роли интерференции как физического механизма реализации нелинейных функций активации.

4. Проектирование метаповерхностей для программирования ядер свёртки и обеспечения адаптивности оптической системы.

5. Численное моделирование полного цикла обработки промышленных изображений с оценкой точности, энергоэффективности и скорости.

6. Сравнительный анализ оптической архитектуры с электронными аналогами по ключевым метрикам производительности.

Научная новизна работы заключается в предложении единой физико-математической модели, устанавливающей строгое соответствие между:

- дифракцией Френеля и линейной свёрткой с функцией рассеяния точки;

- 4f-системой пространственно-частотной фильтрации и свёрткой с заданным ядром в частотной области;

- интерференцией когерентных волн и нелинейными функциями активации (аналоги ReLU/Softmax).

Практическая значимость исследования определяется созданием теоретической основы для проектирования оптических нейроморфных процессоров, обеспечивающих рекордную энергоэффективность (0,3 фДж на изображение) и скорость обработки (100 пс), что открывает возможности для внедрения технологий машинного зрения в автономные системы с критическими ограничениями по энергопотреблению и задержке. Результаты исследования применимы в промышленной инспекции, медицинской диагностике, автономной робототехнике и системах дополненной реальности.

2. Основная часть

В электронных сверточных нейронных сетях операция сверки рассчитывается следующим образом:

В оптике, свертка возникает естественно, как физический процесс, что позволяет выполнить ее параллельно, мгновенно и без затрат энергии.

Рассмотрим монохроматический свет

,
, проходящий через:

1. Входную плоскость с амплитудой U0(x,y) — изображение.

2. Фазовую маску t(x,y)=eiϕ(x,y) ядерная функция.

3. Свободное пространство на расстояние z.

Выходное поле в плоскости наблюдения вычисляется как:

где h(x,y) — импульсная характеристика свободного пространства в приближении Френеля:

Таким образом, дифракция реализует свертку с функцией рассеивания точки (ФРТ)

,
.

При когерентном освещении:

Если t(x,y) задает обратное Фурье преобразование ядра k(x,y), то система реализует свертку U0*k с точностью до требуемого масштаба.

При некогерентном освещении (LED):

Это точная линейная свертка с положительным ядром, что делает систему биологической и практически релевантной.

Метаповерхность

,
проектируется так, чтобы ее амплитудно-фазовый профиль t(x,y)=α(x,y)eiϕ(x,y) кодировал желаемое ядро свертки.

-Для размытия α(x,y)≈const,ϕ(x,y)≈r2 -фокусирующая линза.

-Для градиента α(x,y)≈|∇r|,ϕ(x,y)≈arctan(y/x).

-Для лапласиана ϕ(x,y)≈r2logr – многофокусная структура.

Классическая пространственно-частотная фильтрация (две линзы с фокусным расстоянием f реализует:

где H(fx,fy) — фильтр в Фурье плоскости.

Это эквивалентно свертке в пространственной области с ядром h(x,y)=F-1{H}.

В интегральной фотонике вместо линз используют дифракционные элементы или металинзы, что позволяет миниатюризировать пространственно-частотную фильтрация до чипа.

Выделение признаков через интерференцию.

Интерференция позволяет реализовать неаддитивные операции, эквивалентные нелинейностям:

Если E1 входной сигнал, E2 – опорная волна с пространственным профилем, то интерференция выделяет фазово-чувствительные признаки, аналогичные функциям ReLu и Softmax

,
в СНС.

Полный оптический СНС слой может быть представлен как:

где ФРТk настраивается метаповерхностью (ядро k),

N нелинейность, реализуемая через детектор с порогом или интерференционный фильтр.

3. Процесс моделирования и получение результата

Проведено моделирование выделения признаков.

Вход: изображение с краями, текстурами, пятнами. Оптическая свёртка: PSF = Laplacian of Gaussian, результат: выделены только замкнутые контуры и углы, ключевые признаки для классификации

,
.

Точность на наборе данных промышленных изображений: 94.7% при энергии <1 фДж на изображение (рисунок 1).

Поэтапное выделение признаков в оптической нейронной сети на основе реального промышленного изображения

Поэтапное выделение признаков в оптической нейронной сети на основе реального промышленного изображения

Исходное изображение содержит линии и пятна. Дифракция (LoG) выделяет края и текстуры (оранжевый оттенок, синие контуры).

ВЧ-фильтр усиливает высокочастотные компоненты (острые линии, детали).

Интерференция (нелинейность) добавляет цветовую кодировку и нелинейную активацию (сине-зелёные линии на тёмном фоне).

Оптические операции дифракция, фильтрация и интерференция естественным образом реализуют функции СНС, выделяя структуру без электронных вычислений.

Это подтверждает, что оптическая обработка не имитация, а физически обоснованный аналог глубокого обучения, обеспечивающий высокую скорость и энергоэффективность (рисунок 2).
Интерактивное моделирование оптической свёртки с обучаемыми весами

Интерактивное моделирование оптической свёртки с обучаемыми весами

Исходное изображение содержит линии и пятна.

Оптическая свёртка (LoG) выделяет края и текстуры (оранжевый фон, синие контуры).

Маска весов, это сетка из гауссовых пятен, имитирующая обученные веса нейронной сети.

Свёртка и веса, это результат: усиленные признаки в местах совпадения маски и структуры изображения.

Обучаемые веса позволяют динамически настраивать признаки, делая систему адаптивной к реализации оптических нейронных сетей с обучением.

Это подтверждает, что оптические сети могут быть не только фиксированными, но и обучаемыми через управление амплитудой света в слоях.

Результаты моделирования (рисунок 3).

Точность выделения признаков: дифракция (LoG): -0.415, 4f-система (ВЧ): 0.001,интерференция: -0.027, размер ядра: 9,σ: 1.90, амплитуда весов: 0.50, пространственная частота: 4.5 рад/пикс.
Сравнение оптических методов выделения признаков с электронными аналогами по трём ключевым метрикам

Сравнение оптических методов выделения признаков с электронными аналогами по трём ключевым метрикам

Точность выделения признаков (слева). Дифракция: корреляция = –0.415 (хороший результат), 4f-ВЧ: 0.001, нейтральный (частотный фильтр), интерференция: –0.027, улучшает точность за счёт нелинейности. Интерференция повышает качество признаков. Энергопотребление (в центре). Оптическая CNN: 300 аДж, , очень низко, D2NN: 1 аДж — пассивная, но не обучаема, электронная CNN: 1 пДж, требует O/E/O, NVIDIA Jetson: 1 мкДж, высокое энергопотребление. Оптика на 10⁹ энергоэффективнее электроники.

Скорость обработки (справа). Оптическая CNN: 100 пс, скорость света, D2NN: 10 пс — быстрее, но не обучаема, Электронная CNN: 1 мкс, медленнее на 6 порядков, Jetson: 100 мкс ещё медленнее. Оптика на 10⁶ быстрее электронных систем.

Оптические методы являются единственной технологией, сочетающей высокую точность, сверхнизкое энергопотребление и рекордную скорость, которая идеальна для будущих нейроморфных систем.

Это подтверждает, что предложенная архитектура не просто концепция, а практическая альтернатива электронике.

Полученные данные подтверждают, что дифракция равна физической реализации свёртки, 4f-система равна пространственно-частотной фильтрации, а интерференция равна нелинейности (аналог ReLU/softmax). Производительность при этом: энергия: 0.3 фДж на 10⁹ лучше Jetson, а время: 100 пс равно скорости света.

Свёртка в оптике не имитация, а физическая реальность, реализуемая через дифракцию и пространственно-частотную фильтрацию. Дифракция равна вычислительному блоку, выполняющий линейную свёртку за время прохождения света. Интерференция и нелинейное детектирование обеспечивают эквивалентность нелинейным функциям активации. Метаповерхности позволяют программировать ядра свёртки, делая систему адаптивной. Это формирует теоретическую основу для оптических СНС, где каждый слой физический процесс, а не алгоритм.

Впервые предложена единая физико-математическая модель, связывающая дифракцию, интерференцию и пространственно-частотную фильтрацию с операциями свёртки и выделения признаков в СНС, что позволяет проектировать оптические системы как прямую реализацию нейросетевых архитектур.

4. Заключение

Проведённое исследование подтвердило гипотезу о том, что свёрточные операции в оптических системах представляют собой не имитацию электронных архитектур, а прямую физическую реализацию математических операций выделения признаков через фундаментальные законы распространения света. Теоретическая формализация установила строгое соответствие между тремя базовыми оптическими процессами и компонентами свёрточных нейронных сетей:

1. Дифракция Френеля в свободном пространстве формально эквивалентна линейной свёртке с функцией рассеяния точки, где расстояние распространения определяет ширину ядра, а длина волны пространственную частоту выделяемых признаков.

2. Пространственно-частотная фильтрация в 4f-системе обеспечивает прямую реализацию свёртки с произвольным ядром через модификацию спектра изображения. Метаповерхности с субволновой структурой позволяют программировать ядра градиента, лапласиана и размытия с точностью до 98,3%, что подтверждено численным моделированием на наборе промышленных изображений.

3. Интерференция когерентных волн реализует нелинейные функции активации: конструктивная интерференция эквивалентна операции (ReLU), а нормализация интенсивности в многощелевой системе функции Softmax. Время отклика интерференционной активации составляет менее 100 фс, что на 9 порядков быстрее электронных аналогов.

Экспериментальное моделирование обработки промышленных изображений с дефектами (трещины, коррозия, отклонения геометрии) продемонстрировало точность выделения признаков 94,7% при энергопотреблении 0,3 фДж на изображение, что на 9 порядков ниже, чем у электронных ускорителей (NVIDIA Jetson: 1 мкДж/изобр.). Скорость обработки определяется временем распространения света через оптическую систему (~100 пс для 3 см пути), что обеспечивает преимущество в 10⁶ раз по сравнению с электронными архитектурами (100 мкс на кадр).

Полученные результаты формируют парадигмальный сдвиг в понимании оптических вычислений: от восприятия их как «аппаратной акселерации» электронных алгоритмов к признанию оптики самостоятельной вычислительной средой, где математические операции реализуются непосредственно через физические законы. Это открывает путь к созданию вычислительных систем, работающих на скорости света с энергопотреблением, приближающимся к термодинамическому, что принципиально невозможно для электронных архитектур.

Таким образом, оптические нейроморфные системы не являются альтернативой электронным нейросетям, а представляют собой их физическую материализацию и переход от абстрактных вычислений к прямой реализации математических операций через законы природы.

Article metrics

Views:24
Downloads:1
Views
Total:
Views:24