HTML-content

2303-9868

2227-6017

Международный научно-исследовательский журнал

2303-9868

ООО Цифра

10.60797/IRJ.2026.168.116

Brief communication

Обучение нейронных сетей на основе методов с экспоненциальной релаксацией

https://orcid.org/0009-0004-4312-2224

Ершов

Степан Сергеевич

stepanershov8@gmail.com 1

https://elibrary.ru/author_profile.asp?id=657671

Дробинцев

Павел Дмитриевич

drobintsev_pd@spbstu.ru 1

https://elibrary.ru/author_profile.asp?id=472967

Черноруцкий

Игорь Георгиевич

igcher1946@mail.ru 1

https://ror.org/02x91aj62

Санкт-Петербургский политехнический университет Петра Великого

17 06 2026

2026

10 168 1 10 26 04 2026 26 05 2026

2022

This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See http://creativecommons.org/licenses/by/4.0/ .

Оптимизация многомерных невыпуклых функционалов остается одной из главных проблем при обучении архитектур глубокого обучения. В то время как стохастические методы первого порядка (такие как SGD и Adam) повсеместно используются для навигации в зашумленных пространствах параметров, они неизбежно сталкиваются с трудностями при наличии патологической кривизны и плоских участков, характерных для плохо обусловленных задач. В данном исследовании рассматривается применение метода экспоненциальной релаксации (ЭР) — алгоритма оптимизации второго порядка, изначально разработанного в рамках теории жестких динамических систем. Благодаря использованию точной матрицы Гессе и непрерывной функции экспоненциальной релаксации метод ЭР динамически масштабирует шаги оптимизации: он делает крупные шаги вдоль плоских долин и осторожные, стабилизированные — на крутых склонах. Эффективность метода систематически оценивается в сравнении с классическими подходами на различных топологиях, включая синтетические овраги, медицинские наборы данных с сильной корреляцией признаков, автоэнкодеры с седловыми точками и задачи деконволюции физических сигналов. Эмпирические результаты показывают, что метод ЭР достигает оптимальных состояний за значительно меньшее число итераций, эффективно преодолевая явление «заклинивания». В статье также анализируются вычислительные ограничения спектрального разложения и намечаются пути масштабирования алгоритма с использованием подпространств Крылова (метод Ланцоша). Результаты подтверждают, что метод ЭР обеспечивает непревзойденную точность для решения сложных физических обратных задач и высокоточного моделирования, где методы первого порядка терпят неудачу.

нейронные сети метод экспоненциальной релаксации оптимизация второго порядка матрица Гессе Adam плохо обусловленные задачи овражность матричная экспонента глубокое обучение

HTML-content

1. Введение

Обучение глубоких нейронных сетей фундаментально сводится к задаче минимизации эмпирического риска в сложных, многомерных и невыпуклых пространствах

[1][2]

Тем не менее, методы первого порядка обладают серьезным математическим ограничением: они опираются исключительно на локальную информацию о градиенте, оставаясь «слепыми» к кривизне второго порядка ландшафта функции потерь

[3][4, С. 61][4, С. 62][5]

Адаптивные методы, такие как Adam, пытаются решить эту проблему, независимо масштабируя скорость обучения для каждого параметра на основе скользящих средних градиента. Однако они неявно полагаются на диагональную аппроксимацию матрицы кривизны

[2][4, С. 63][6]

Для полноценного учета геометрии пространства применяются методы второго порядка, использующие матрицу Гессе. Классический метод Ньютона нормирует кривизну по всем направлениям, умножая градиент на обратную матрицу Гессе [7, С. 48]. Однако он нестабилен при отрицательной кривизне (в седловых точках) и требует кубических вычислительных затрат [8, С. 736]

В качестве математически обоснованной альтернативы выступает метод экспоненциальной релаксации (ЭР), корни которого лежат в теории жестких обыкновенных дифференциальных уравнений

[9, С. 2][10, С. 25][11, С. 232]

Цель данного исследования — провести строгую оценку эффективности метода экспоненциальной релаксации при обучении нейронных сетей на задачах с выраженной плохой обусловленностью и мультиколлинеарностью. В ходе сравнительного анализа с алгоритмами первого порядка будут определены топологические условия, в которых ЭР демонстрирует наибольшее преимущество, а также рассмотрены перспективы его масштабирования с помощью безгессиановых методов (Hessian-Free)

[8]

2. Методы исследования

Нейронная сеть представляет собой параметризованную функцию

f ( x , W ) w ∈ R N J ( w ) = 1 m ∑ i = 1 m ( y p r e d , i ( w ) − y t r u e , i ) 2

Обучение сводится к итеративному обновлению весов

g = ∇ J ( w k ) G = ∇ 2 J ( w k ) ∈ R N × N

[12, С. 200]

Сложность оптимизации напрямую зависит от спектра собственных значений матрицы Гессе

κ ( G ) = | λ max | | λ min |

Если κ(

[13][4, С. 61][4, С. 62]

Чтобы преодолеть ограничения градиентного спуска, метод ЭР использует специальную масштабирующую матрицу, выведенную из дифференциального уравнения наискорейшего спуска – непрерывного аналога градиентных методов, подробно исследованного в литературе по компьютерным методам оптимизации

[14, С. 145][11, С. 232]

w k + 1 = w k − H ( G , h ) ∇ J ( w k )

где

[11, С. 232]

H ( G , h ) = ∫ 0 h exp ( − t G ) d t = G − 1 ( I − exp ( − h G ) )

Для каждого собственного значения

R ( λ i ) = 1 − exp ( − λ i h ) λ i

Эта функция обеспечивает идеальный баланс:

1. При большой кривизне (

2. При малой кривизне (

3. При отрицательной кривизне (

[11, С. 235]

В рамках данного исследования ЭР реализован через точное спектральное разложение матрицы Гессе. На каждой итерации матрица

H m a t = V · diag ( 1 − exp ( − h λ i ) λ i ) · V − 1

Для предотвращения вычислительной неустойчивости (деления на нуль) при |

[11, С. 240]

Для тестирования были использованы как классические аналитические функции, так и архитектуры нейронных сетей на реальных данных. Сравнение проводилось с методами SGD и Adam.

2. [12, С. 89]

3. [15]

5. [16, С. 15]

3. Основные результаты

На функции Розенброка метод ЭР благодаря матричной экспоненте динамически адаптировал шаг и быстро достиг глобального минимума, двигаясь вдоль искривленного дна. В то же время SGD и Adam продемонстрировали сильное заклинивание, тратя итерации на бесполезные колебания между крутыми стенами (см. рис. 1).

Figure 1

Сходимость методов на функции Розенброка

[4, С. 65]

Figure 2

Сходимость методов на ступенчатой функции

На задаче с числом обусловленности 2000 тестировалась способность алгоритмов найти точные физические веса (целевые значения W=[2,0, -1,5, 0,5]) (см. табл. 1).

Table 1

Результаты восстановления параметров в синтетическом овраге

Метод	MSE Loss	Дистанция до оптимума	Итерации	Полученные веса
SGD	3,84×10-6Missing Mark : sup	5,66×100Missing Mark : sup	500	[-2,089, 2,405, 0,500]
Adam	3,84×10-6Missing Mark : sup	5,66×100Missing Mark : sup	500	[-2,091, 2,406, 0,500]
Метод ЭР	3,40×10-8Missing Mark : sup	5,20×10-1Missing Mark : sup	100	[1,624, -1,140, 0,500]

Хотя функции потерь у SGD и Adam упали до 10-6Missing Mark : sup, алгоритмы остановились далеко от истинных весов (дистанция 5,66). Диагональная аппроксимация Adam не смогла распутать ковариацию признаков. ЭР, используя полную матрицу Гессе, сократил дистанцию до оптимума на порядок всего за 100 итераций.

В задаче бинарной классификации на наборе данных Breast Cancer исследовалась проблема естественной геометрической жесткости. Набор данных Breast Cancer содержит признаки с корреляцией ≈0,998, что формирует в пространстве потерь вырожденный желоб

[15]

Table 2

Результаты обучения на задаче классификации

Метод	Итоговая ошибка (Loss)
SGD	0,6884
Adam	0,3545
Метод ЭР	0,0455

Figure 3

Сходимость методов при обучении на медицинских данных

Для исследования поведения алгоритмов оптимизации в условиях архитектурных узких мест (bottlenecks) была смоделирована задача восстановления данных с использованием автоэнкодера с околонулевой инициализацией

[19]

Table 3

Результаты обучения на задаче автоэнкодера

Метод	Ошибка реконструкции
SGD	0,9999
Adam	0,8058
Метод ЭР	0,7506

Figure 4

Сходимость на задаче автоэнкодера

В качестве задачи регрессии, имитирующей физические обратные задачи с сильной мультиколлинеарностью, использовался набор данных по гидродинамике яхт (Yacht Hydrodynamics). Модели необходимо было предсказать физическое сопротивление корпуса на основе шести параметров геометрии и числа Фруда. Архитектура представляла собой однослойную сеть, однако перед подачей на вход исходные признаки подвергались полиномиальному расширению второй степени (включая квадраты и попарные произведения), а целевая переменная сопротивления масштабировалась в диапазон гиперболического тангенса. Механизм возникновения экстремальной овражности здесь напрямую вытекал из полиномиального преобразования: перемножение близких по смыслу физических параметров порождает искусственную, но мощнейшую мультиколлинеарность. Матрица ковариации входных сигналов становится практически вырожденной, что приводит к формированию матрицы Гессе с множеством исчезающе малых собственных значений. В результате возникает матрица кривизны, стремящаяся к вырождению (сравнение методов приведено в табл. 4). В условиях такого вырожденного спектра метод Adam даже за несколько сотен итераций достигает лишь умеренной точности, постоянно осциллируя вокруг оптимума. Алгоритм ЭР, динамически обрабатывая малые собственные значения матрицы Гессе через предел функции релаксации, полностью обратил физический оператор всего за несколько десятков шагов, обеспечив падение среднеквадратичной ошибки до машинного нуля (см. рис. 5). Это делает его идеальным инструментом для физически-информированных нейросетей (PINN)

[17]

Table 4

Сравнение оптимизаторов на задаче регрессии

Метод	Итерации	Итоговая ошибка (Loss)
SGD	100	9,2026⋅10-3Missing Mark : sup
Adam	100	2,0833⋅10-2Missing Mark : sup
ER	30	3,6970⋅10-3Missing Mark : sup

Figure 5

Сходимость оптимизаторов на задаче регрессии

Несмотря на подавляющее преимущество в качестве сходимости, точная реализация ЭР требует вычисления матрицы вторых производных и ее спектрального разложения на каждом шаге. Это дает кубическую вычислительную сложность O(

[8, С. 737][8, С. 738][18]

4. Обсуждение

Полученные эмпирические результаты наглядно демонстрируют фундаментальные ограничения методов оптимизации первого порядка и адаптивных алгоритмов (SGD, Adam) в условиях патологической кривизны ландшафта потерь. В задачах с сильно коррелированными признаками (таких как набор данных Breast Cancer) и синтетических оврагах с числом обусловленности κ(

[6][2][3][11, С. 242][17][8, С. 737][18]

5. Заключение

Обучение глубоких нейронных сетей фундаментально зависит от способности алгоритмов оптимизации эффективно минимизировать невыпуклые функционалы эмпирического риска. В данной работе была проведена строгая оценка метода экспоненциальной релаксации (ЭР) как альтернативы популярным стохастическим методам первого порядка (SGD, Adam). Поставленная цель исследования полностью достигнута: мы теоретически обосновали и эмпирически доказали, что в условиях патологической кривизны, мультиколлинеарности признаков и наличия седловых точек метод ЭР демонстрирует абсолютное превосходство. Динамическое масштабирование шага на основе непрерывной функции от кривизны пространства позволяет методу ЭР успешно сходиться в вытянутых и повернутых оврагах, избегая высокочастотных осцилляций и стагнации. В задачах точного восстановления физических параметров, деконволюции сигналов и классификации высококоррелированных медицинских данных алгоритм второго порядка достигает оптимальных состояний за гораздо меньшее число итераций. Хотя вычислительная стоимость ограничивает применение неоптимизированных подходов вычисления шага метода в сверхбольших архитектурах нейросетей, метод экспоненциальной релаксации уже сегодня является незаменимым инструментом для решения обратных физических задач, тренировки физически-информированных нейросетей (PINN) и оптимизации компактных систем управления. Переход к проекционным алгоритмам и адаптивным стратегиям аппроксимации кривизны является ключевым вектором для дальнейших исследований, который в перспективе позволит внедрить механизмы матричной экспоненты в повседневную практику масштабируемого глубокого обучения.

Additional File

The additional file for this article can be found as follows:

Online Supplementary Material

Further description of analytic pipeline and patient demographic information. DOI: https://doi.org/10.60797/IRJ.2026.168.116

Acknowledgements

Competing Interests

1 Sun R. Optimization for deep learning: An overview / R. Sun // Journal of the Operations Research Society of China. — 2020. — Vol. 8. — № 2. — P. 249–294. — DOI: 10.1007/s40305-020-00309-6. 2 Kingma D.P. Adam: A method for stochastic optimization / D.P. Kingma, J. Ba // arXiv. — 2014. — URL: https://arxiv.org/abs/1412.6980 (accessed: 26.04.2026). 3 Kunstner F. Limitations of the empirical Fisher approximation for natural gradient descent / F. Kunstner, P. Hennig, L. Balles // Advances in Neural Information Processing Systems. — 2019. — Vol. 32. — P. 4156–4167. 4 Черноруцкий И.Г. Градиентные методы с экспоненциальной функцией релаксации / И.Г. Черноруцкий // Научно-технические ведомости СПбГПУ. Информатика. Телекоммуникации. Управление. — 2013. — № 5 (181). — С. 58–66. 5 Liu L. On the variance of the adaptive learning rate and beyond / L. Liu, H. Jiang, P. He [et al.] // Proceedings of the 8th International Conference on Learning Representations (ICLR). — 2020. — URL: https://arxiv.org/abs/1908.03265 (accessed: 26.03.2026). 6 Dangel F. Jamming in deep learning: a geometric perspective / F. Dangel, F. Kunstner, P. Hennig // arXiv. — 2021. — 2102.21276. — URL: https://arxiv.org/abs/2102.21276 (accessed: 26.03.2024). 7 Nocedal J. Numerical Optimization / J. Nocedal, S.J. Wright. — 2nd edition. — New York : Springer, 2006. — 664 p. 8 Martens J. Deep learning via Hessian-free optimization / J. Martens // Proceedings of the 27th International Conference on Machine Learning. — 2010. — P. 735–742. — URL: https://icml.cc/Conferences/2010/papers/458.pdf (accessed: 26.03.2026). 9 Hairer E. Solving Ordinary Differential Equations II: Stiff and Differential-Algebraic Problems / E. Hairer, G. Wanner. — 2nd edition. — Berlin : Springer, 1996. — 614 p. — DOI: 10.1007/978-3-642-05221-7. 10 Ракитский Ю.В. Численные методы решения жестких систем / Ю.В. Ракитский, С.М. Устинов, И.Г. Черноруцкий. — Москва : Наука, 1979. — 208 с. 11 Higham N.J. Functions of Matrices: Theory and Computation / N.J. Higham. — Philadelphia : SIAM, 2008. — 425 p. — DOI: 10.1137/1.9780898717778. 12 Goodfellow I. Deep Learning / I. Goodfellow, Y. Bengio, A. Courville. — Cambridge : MIT Press, 2016. — 800 p. 13 Ludwig O. The condition number as a scale-invariant proxy for information encoding in neural units / O. Ludwig // arXiv. — 2025. — URL: https://arxiv.org/html/2506.16289v1 (accessed: 26.04.2026). 14 Черноруцкий И.Г. Методы оптимизации. Компьютерные технологии / И.Г. Черноруцкий. — Санкт-Петербург : БХВ-Петербург, 2011. — 384 с. 15 Wolberg W.H. Breast Cancer Wisconsin (Diagnostic) Data Set / W.H. Wolberg, W.N. Street, O.L. Mangasarian // UCI Machine Learning Repository. — 1993. — URL: https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic) (accessed: 26.03.2026). 16 Arridge S. Solving inverse problems using data-driven models / S. Arridge, P. Maass, O. Öktem [et al.] // Acta Numerica. — 2019. — Vol. 28. — P. 1–174. — DOI: 10.1017/S096249291900004X. 17 Wang S. Understanding and mitigating gradient pathologies in physics-informed neural networks / S. Wang, Y. Teng, P. Perdikaris // SIAM Journal on Scientific Computing. — 2021. — Vol. 43. — № 5. — P. A3055–A3081. — DOI: 10.1137/20M1318043. 18 Yao Z. PyHessian: Neural networks through the lens of the Hessian / Z. Yao, A. Gholami, K. Keutzer [et al.] // 2020 IEEE International Conference on Big Data. — 2020. — P. 581–590. — DOI: 10.1109/BigData50022.2020.9378171. 19 Vo J. Efficient second-order neural network optimization via adaptive trust region methods / J. Vo // arXiv. — 2024. — URL: https://arxiv.org/abs/2410.02293 (accessed: 26.03.2026). 20 Bernacchia A. Global curvature for second-order optimization of neural networks / A. Bernacchia // Proceedings of the 42nd International Conference on Machine Learning. — 2025. — URL: https://icml.cc/virtual/2025/poster/44556 (accessed: 26.03.2024). 21 Abreu N. The potential of second-order optimization for LLMs: A study with full Gauss-Newton / N. Abreu, N. Vyas, S. Kakade [et al.] // arXiv. — 2025. — 2510.09378. — URL: https://arxiv.org/abs/2510.09378 (accessed: 26.03.2026). 22 Gomes D.M. Towards practical second-order optimizers in deep learning: Insights from Fisher information analysis / D.M. Gomes // arXiv. — 2025. — URL: https://arxiv.org/abs/2504.20096 (accessed: 26.03.2026).