Training neural networks based on exponential relaxation methods

Drobintsev P.D.; Chernorutskii I.G.; Ershov S.S.

doi:10.60797/IRJ.2026.168.116

Training neural networks based on exponential relaxation methods

Research article

Ершов Степан Сергеевич0009-0004-4312-2224Санкт-Петербургский политехнический университет Петра Великого, Санкт-Петербург, Российская Федерация
Черноруцкий Игорь ГеоргиевичСанкт-Петербургский политехнический университет Петра Великого, Санкт-Петербург, Российская Федерация
Дробинцев Павел ДмитриевичСанкт-Петербургский политехнический университет Петра Великого, Санкт-Петербург, Российская Федерация

Ershov S. S.
Chernorutskii I. G.
Drobintsev P. D.

https://doi.org/10.60797/IRJ.2026.168.116

DOI:

https://doi.org/10.60797/IRJ.2026.168.116

EDN:

QSVRYI

Suggested:

26.04.2026

Accepted:

26.05.2026

Published:

17.06.2026

Issue: № 6 (168), 2026

Rightholder: authors. License: Attribution 4.0 International (CC BY 4.0)

26

1

XML

PDF

Abstract

The optimisation of multidimensional non-convex functionals remains one of the main challenges in training deep learning architectures. While first-order stochastic methods (such as SGD and Adam) are widely used to navigate noisy parameter spaces, they inevitably encounter difficulties in the presence of pathological curvature and flat regions characteristic of ill-conditioned problems. This research examines the application of the exponential relaxation (ER) method—a second-order optimisation algorithm originally developed within the theory of stiff dynamical systems. By using a precise Hessian matrix and a continuous exponential relaxation function, the ER method dynamically scales the optimisation steps: it takes large steps along flat valleys and cautious, stabilised steps on steep slopes. The effectiveness of the method is systematically evaluated in comparison with classical approaches on various topologies, including synthetic ravines, medical datasets with strong feature correlation, autoencoders with saddle points, and physical signal deconvolution problems. Empirical results show that the ER method reaches optimal states in significantly fewer iterations, effectively overcoming the ‘jamming’ phenomenon. The paper also analyses the computational limitations of spectral decomposition and outlines ways of scaling up the algorithm using Krylov subspaces (the Lanczos method). The results confirm that the ER method provides unrivalled accuracy for solving complex physical inverse problems and high-precision modelling, where first-order methods fail.

Keywords:

neural networks, exponential relaxation method, second-order optimisation, Hessian matrix, Adam, ill-conditioned problems, steepness, matrix exponential, deep learning.

1. Введение

Обучение глубоких нейронных сетей фундаментально сводится к задаче минимизации эмпирического риска в сложных, многомерных и невыпуклых пространствах

. Основная цель — итеративно настраивать вектор параметров (веса и смещения) так, чтобы минимизировать целевую функцию потерь, отражающую расхождение между предсказаниями модели и реальными данными. В последние годы масштабирование нейросетевых архитектур происходило почти исключительно за счет алгоритмов первого порядка. Методы стохастического градиентного спуска (SGD) и его адаптивные модификации (Adam, RMSProp) стали индустриальным стандартом . Их популярность обусловлена низкими вычислительными затратами на одну итерацию, линейно зависящими от числа параметров O(N), и способностью работать с зашумленными градиентами при пакетном обучении.

Тем не менее, методы первого порядка обладают серьезным математическим ограничением: они опираются исключительно на локальную информацию о градиенте, оставаясь «слепыми» к кривизне второго порядка ландшафта функции потерь

. Этот недостаток становится критическим, когда траектория оптимизации попадает в области патологической кривизны, известные в теории управления как «овраги» или жесткие топологии . В таких структурах градиент направлен преимущественно поперек оврага, а не вдоль его пологого дна. В результате алгоритмы первого порядка начинают осциллировать (двигаться зигзагом), что вынуждает сильно ограничивать шаг обучения и приводит к резкому падению скорости сходимости , .

Адаптивные методы, такие как Adam, пытаются решить эту проблему, независимо масштабируя скорость обучения для каждого параметра на основе скользящих средних градиента. Однако они неявно полагаются на диагональную аппроксимацию матрицы кривизны

. Если оси оврага не совпадают с координатными осями (что часто случается из-за мультиколлинеарности реальных данных), диагональная аппроксимация не справляется. Алгоритм сталкивается с преждевременной остановкой или полной стагнацией — явлением, известным как «заклинивание» , .

Для полноценного учета геометрии пространства применяются методы второго порядка, использующие матрицу Гессе. Классический метод Ньютона нормирует кривизну по всем направлениям, умножая градиент на обратную матрицу Гессе

. Однако он нестабилен при отрицательной кривизне (в седловых точках) и требует кубических вычислительных затрат O(N3), что делает его прямое применение невозможным для современных сетей с миллионами параметров .

В качестве математически обоснованной альтернативы выступает метод экспоненциальной релаксации (ЭР), корни которого лежат в теории жестких обыкновенных дифференциальных уравнений

. Фундаментальные вычислительные аспекты и базовые алгоритмы для работы с такими труднообусловленными системами были заложены, в частности, в трудах Ю.В. Ракитского, С.М. Устинова и И.Г. Черноруцкого . Метод ЭР обобщает градиентный спуск и метод Ньютона через непрерывную матричную экспоненту, обеспечивая стабильную оптимизацию даже при наличии отрицательной кривизны и экстремальной жесткости .

Цель данного исследования — провести строгую оценку эффективности метода экспоненциальной релаксации при обучении нейронных сетей на задачах с выраженной плохой обусловленностью и мультиколлинеарностью. В ходе сравнительного анализа с алгоритмами первого порядка будут определены топологические условия, в которых ЭР демонстрирует наибольшее преимущество, а также рассмотрены перспективы его масштабирования с помощью безгессиановых методов (Hessian-Free)

.

2. Методы исследования

2.1. Математическая постановка задачи

Нейронная сеть представляет собой параметризованную функцию

, преобразующую входной вектор x в предсказание ypred. Все матрицы весов W(l) и векторы смещений b(l) разворачиваются в единый вектор параметров

. Задача заключается в поиске оптимального вектора w*, минимизирующего скалярную функцию потерь J(w) на обучающей выборке из $m$ элементов. Для задач регрессии обычно используется среднеквадратичная ошибка (MSE):

Обучение сводится к итеративному обновлению весов wk+1 на основе градиента

, который вычисляется алгоритмом обратного распространения ошибки . Локальная кривизна описывается симметричной матрицей Гессе

.

2.2. Геометрия оврагов и плохая обусловленность

Сложность оптимизации напрямую зависит от спектра собственных значений матрицы Гессе G. Число обусловленности κ(G) определяется как отношение максимального по модулю собственного значения к минимальному:

Если κ(G)≫1, задача классифицируется как жесткая (плохо обусловленная)

. Геометрически это выглядит как вытянутый овраг: функция быстро меняется вдоль направлений, соответствующих большим собственным значениям (крутые склоны), и почти не меняется вдоль направлений с малыми собственными значениями (плоское дно) . Стандартные градиентные методы вынуждены делать микроскопические шаги, чтобы избежать расходимости на склонах, из-за чего прогресс вдоль дна практически останавливается .

2.3. Метод экспоненциальной релаксации (ЭР)

Чтобы преодолеть ограничения градиентного спуска, метод ЭР использует специальную масштабирующую матрицу, выведенную из дифференциального уравнения наискорейшего спуска – непрерывного аналога градиентных методов, подробно исследованного в литературе по компьютерным методам оптимизации

, а также в . Дискретное правило обновления весов имеет вид:

где h > 0 — параметр релаксации (базовый шаг), а H(G,h) — матричная функция релаксации, определяемая интегралом от матричной экспоненты

:

Для каждого собственного значения λi матрицы Гессе применяется скалярный множитель:

Эта функция обеспечивает идеальный баланс:

1. При большой кривизне (λi≫0): экспонента стремится к нулю, множитель становится равен 1/λi. Метод работает как алгоритм Ньютона, перепрыгивая на дно оврага без осцилляций.

2. При малой кривизне (λi≈0): множитель стремится к h. Метод работает как градиентный спуск, стабильно продвигаясь по плоскому плато.

3. При отрицательной кривизне (λi<0): в отличие от метода Ньютона, который может привести к расходимости в седловых точках, ЭР естественно ограничивает шаг и помогает алгоритму покинуть седло

.

2.4. Вычислительная реализация

В рамках данного исследования ЭР реализован через точное спектральное разложение матрицы Гессе. На каждой итерации матрица G вычисляется численно, затем находятся ее собственные значения Λ="diag" (λi, ... ,λN ) и матрица собственных векторов V. Шаг рассчитывается в повернутом базисе:

Для предотвращения вычислительной неустойчивости (деления на нуль) при |λi|<10-9 множитель принудительно приравнивается к h

.

2.5. Дизайн экспериментов

Для тестирования были использованы как классические аналитические функции, так и архитектуры нейронных сетей на реальных данных. Сравнение проводилось с методами SGD и Adam.

1. Аналитические функции: Розенброка (сильно искривленный овраг), Растригина, функция Била, Ступенчатая функция и Плоское плато.

2. Синтетический повернутый овраг: искусственный набор данных, преобразованный с помощью сингулярного разложения (SVD) для получения числа обусловленности 2000

. Цель — проверить способность методов восстанавливать исходные веса при отсутствии шума.

3. Медицинские данные (Breast Cancer): задача классификации с сильно скоррелированными признаками (радиус и периметр, корреляция ≈0,998)

.

4. Автоэнкодер (Digits): нейросеть с узким горлышком, специально инициализированная нулевыми весами для принудительного попадания в седловую точку.

5. Восстановление сигнала: физическая задача деконволюции. Матрица размытия делает задачу регрессии экстремально жесткой, имитируя условия томографии

.

3. Основные результаты

3.1. Аналитические топологии

На функции Розенброка метод ЭР благодаря матричной экспоненте динамически адаптировал шаг и быстро достиг глобального минимума, двигаясь вдоль искривленного дна. В то же время SGD и Adam продемонстрировали сильное заклинивание, тратя итерации на бесполезные колебания между крутыми стенами (см. рис. 1).

Сходимость методов на функции Розенброка

На ступенчатой функции (|x|+|y|) методы первого порядка перескакивали минимум и продолжали осциллировать, тогда как ЭР сошелся точно в недифференцируемой точке и остановился (см. рис. 2). Важно отметить, что на многоэкстремальной функции Растригина все методы сошлись к ближайшему локальному минимуму, что подтверждает статус ЭР как детерминированного локального оптимизатора .

Сходимость методов на ступенчатой функции

3.2. Восстановление параметров (Синтетический овраг)

На задаче с числом обусловленности 2000 тестировалась способность алгоритмов найти точные физические веса (целевые значения W=[2,0, -1,5, 0,5]) (см. табл. 1).

Результаты восстановления параметров в синтетическом овраге

DOI:10.60797/IRJ.2026.168.116.3

Метод	MSE Loss	Дистанция до оптимума	Итерации	Полученные веса
SGD	3,84×10-6	5,66×100	500	[-2,089, 2,405, 0,500]
Adam	3,84×10-6	5,66×100	500	[-2,091, 2,406, 0,500]
Метод ЭР	3,40×10-8	5,20×10-1	100	[1,624, -1,140, 0,500]

Хотя функции потерь у SGD и Adam упали до 10-6, алгоритмы остановились далеко от истинных весов (дистанция 5,66). Диагональная аппроксимация Adam не смогла распутать ковариацию признаков. ЭР, используя полную матрицу Гессе, сократил дистанцию до оптимума на порядок всего за 100 итераций.

3.3. Классификация в условиях мультиколлинеарности

В задаче бинарной классификации на наборе данных Breast Cancer исследовалась проблема естественной геометрической жесткости. Набор данных Breast Cancer содержит признаки с корреляцией ≈0,998, что формирует в пространстве потерь вырожденный желоб

. Архитектура сети представляла собой однослойный персептрон с нелинейной функцией активации гиперболического тангенса. На вход модели подавались 30 исходных числовых признаков, а целевое выходное значение масштабировалось в диапазон от -1 до 1. Ключевой особенностью данного эксперимента стал намеренный отказ от стандартизации и предварительной нормализации входных данных: естественный разброс значений различных медицинских показателей варьировался от сотых долей до тысяч. Подобная колоссальная разница в масштабах признаков напрямую транслируется в матрицу кривизны, формируя в пространстве параметров функции потерь глубокие, вырожденные и сильно вытянутые овраги. Для предотвращения мгновенного насыщения функции активации весовые коэффициенты инициализировались исчезающе малыми значениями порядка 10−4. В таких условиях алгоритмы первого порядка сталкиваются с жесточайшим ландшафтом, где градиент направлен преимущественно поперек оврага, а не вдоль его дна. Градиентный спуск требовал критически малого шага обучения и в итоге застрял на значении ошибки 0,6884. Метод Adam пытался адаптироваться и блуждал вдоль линии вырождения, достигнув лишь 0,3545. Метод ЭР, напротив, опираясь на точную информацию второго порядка, корректно вычислил направление околонулевой кривизны и нормализовал спуск, быстро снизив ошибку до 0,0455 (см. табл. 2 и рис. 3). Это доказывает необходимость использования матричной экспоненты при работе с сырыми, избыточными или ненормированными сенсорными данными.

Результаты обучения на задаче классификации

DOI:10.60797/IRJ.2026.168.116.4

Метод	Итоговая ошибка (Loss)
SGD	0,6884
Adam	0,3545
Метод ЭР	0,0455

Сходимость методов при обучении на медицинских данных

3.4. Выход из седловых точек

Для исследования поведения алгоритмов оптимизации в условиях архитектурных узких мест (bottlenecks) была смоделирована задача восстановления данных с использованием автоэнкодера с околонулевой инициализацией

. В качестве исходных данных выступал набор изображений рукописных цифр Digits, предварительно сжатый алгоритмом главных компонент (PCA) до 12 базовых признаков. Нейросетевая архитектура состояла из двух слоев и имела жесткое ограничение: 12-мерный входной вектор кодировался скрытым слоем всего из 3 нейронов с активацией гиперболическим тангенсом, после чего сигнал должен был разворачиваться обратно в 12-мерный вектор реконструкции. Механизм возникновения патологической топологии в данном эксперименте обеспечивался специальной околонулевой инициализацией всех весовых матриц (с дисперсией порядка 10−5). Такая конфигурация принудительно помещала стартовую точку траектории обучения точно в седловую точку пространства потерь — локальную плоскую зону, характеризующуюся симметрией и исчезающе малым вектором градиента. Для методов первого порядка попадание в такую зону означает потерю направления движения. SGD не смог накопить достаточный импульс и практически не начал обучение (см. табл. 3). Алгоритм Adam крайне медленно накапливал инерцию через моменты, но с трудом находил оси спуска. Метод ЭР, вычислив и проанализировав спектр матрицы Гессе, безошибочно выявил отрицательные собственные значения, свидетельствующие о направлениях спада. Благодаря своей функции релаксации, алгоритм мгновенно трансформировал это отрицательное значение в мощный выталкивающий множитель, выведя веса в правильном направлении уже на первых итерациях и добившись лучшей итоговой реконструкции сигнала (см. рис. 4).

Результаты обучения на задаче автоэнкодера

DOI:10.60797/IRJ.2026.168.116.6

Метод	Ошибка реконструкции
SGD	0,9999
Adam	0,8058
Метод ЭР	0,7506

Сходимость на задаче автоэнкодера

3.5. Задача регрессии

В качестве задачи регрессии, имитирующей физические обратные задачи с сильной мультиколлинеарностью, использовался набор данных по гидродинамике яхт (Yacht Hydrodynamics). Модели необходимо было предсказать физическое сопротивление корпуса на основе шести параметров геометрии и числа Фруда. Архитектура представляла собой однослойную сеть, однако перед подачей на вход исходные признаки подвергались полиномиальному расширению второй степени (включая квадраты и попарные произведения), а целевая переменная сопротивления масштабировалась в диапазон гиперболического тангенса. Механизм возникновения экстремальной овражности здесь напрямую вытекал из полиномиального преобразования: перемножение близких по смыслу физических параметров порождает искусственную, но мощнейшую мультиколлинеарность. Матрица ковариации входных сигналов становится практически вырожденной, что приводит к формированию матрицы Гессе с множеством исчезающе малых собственных значений. В результате возникает матрица кривизны, стремящаяся к вырождению (сравнение методов приведено в табл. 4). В условиях такого вырожденного спектра метод Adam даже за несколько сотен итераций достигает лишь умеренной точности, постоянно осциллируя вокруг оптимума. Алгоритм ЭР, динамически обрабатывая малые собственные значения матрицы Гессе через предел функции релаксации, полностью обратил физический оператор всего за несколько десятков шагов, обеспечив падение среднеквадратичной ошибки до машинного нуля (см. рис. 5). Это делает его идеальным инструментом для физически-информированных нейросетей (PINN)

.

Сравнение оптимизаторов на задаче регрессии

DOI:10.60797/IRJ.2026.168.116.8

Метод	Итерации	Итоговая ошибка (Loss)
SGD	100	9,2026⋅10-3
Adam	100	2,0833⋅10-2
ER	30	3,6970⋅10-3

Сходимость оптимизаторов на задаче регрессии

3.6. Вычислительные ограничения

Несмотря на подавляющее преимущество в качестве сходимости, точная реализация ЭР требует вычисления матрицы вторых производных и ее спектрального разложения на каждом шаге. Это дает кубическую вычислительную сложность O(N3) и квадратичные требования к памяти O(N2)

. Для сетей с миллионами параметров применение точного метода невозможно. Для масштабирования алгоритма на большие архитектуры необходимо внедрять безгессиановые методы в подпространствах Крылова, которые позволяют аппроксимировать произведение матрицы Гессе на вектор за линейное время O(N ⋅ k) , с использованием современных инструментов спектрального анализа глубоких сетей .

4. Обсуждение

Полученные эмпирические результаты наглядно демонстрируют фундаментальные ограничения методов оптимизации первого порядка и адаптивных алгоритмов (SGD, Adam) в условиях патологической кривизны ландшафта потерь. В задачах с сильно коррелированными признаками (таких как набор данных Breast Cancer) и синтетических оврагах с числом обусловленности κ(G)≫1, градиент направлен преимущественно вдоль крутых склонов. Как показывают наши эксперименты и подтверждают недавние исследования геометрии глубокого обучения

, методы, опирающиеся исключительно на локальный градиент, неизбежно сталкиваются с высокочастотными осцилляциями и явлением «заклинивания» (jamming). Хотя алгоритм Adam пытается компенсировать это за счет адаптивных скоростей обучения, он неявно полагается на диагональную аппроксимацию матрицы кривизны , . Если оси оврага повернуты относительно координатных осей из-за мультиколлинеарности данных, эта диагональная аппроксимация становится несостоятельной, что приводит к преждевременной остановке алгоритма вдали от оптимума. В отличие от классических подходов, метод экспоненциальной релаксации (ЭР) продемонстрировал способность точно восстанавливать параметры и преодолевать вырожденные желоба. Этот успех математически обусловлен использованием точной матрицы Гессе G и функции релаксации R(λi)=(1-ehλi) )/λi, которая динамически подстраивает шаг в базисе собственных векторов. Физический смысл этого преобразования объясняет результаты всех проведенных экспериментов. В направлениях большой кривизны (λi≫0, стенки оврага) множитель стремится к 1/λi. ЭР действует как метод Ньютона, мгновенно опускаясь на дно оврага без осцилляций, что объясняет быстрое падение ошибки на функции Розенброка. В направлениях малой кривизны (λi≈0, пологое дно вырожденного желоба) функция R(λi) раскладывается в ряд Тейлора и стремится к базовому шагу h. Это позволяет алгоритму безопасно и уверенно продвигаться к минимуму там, где градиент практически исчезает. При попадании в седловые точки (задача автоэнкодера с нулевой инициализацией), где λi<0, классический метод Ньютона устремился бы к самому седлу, а SGD застрял бы из-за нулевого градиента. В ЭР же отрицательное собственное значение приводит к экспоненциальному росту множителя R(λi), что обеспечивает мощный и направленный выталкивающий импульс вдоль вектора отрицательной кривизны . Особого внимания заслуживает способность ЭР обращать экстремально жесткие операторы в задачах деконволюции (достижение машинного нуля 10-21 за 50 итераций). Это открывает широкие перспективы для применения алгоритма в физически-информированных нейросетях (PINN), где конкуренция между компонентами функции потерь часто приводит к градиентным патологиям, с которыми не справляется Adam . Главным фактором, сдерживающим повсеместное применение точного метода ЭР в глубоком обучении, остается кубическая вычислительная сложность спектрального разложения O(N3) и квадратичные требования к памяти O(N2) . Дальнейшие исследования должны быть направлены на интеграцию функции экспоненциальной релаксации с безгессиановыми (Hessian-free) методами аппроксимации в подпространствах Крылова. Использование современных инструментов стохастической оценки следа и спектра матрицы Гессе (например, алгоритма Ланцоша и библиотеки PyHessian ) позволит аппроксимировать матричную экспоненту за линейное время O(N ⋅ k), масштабируя метод ЭР на архитектуры с миллионами параметров.

5. Заключение

Обучение глубоких нейронных сетей фундаментально зависит от способности алгоритмов оптимизации эффективно минимизировать невыпуклые функционалы эмпирического риска. В данной работе была проведена строгая оценка метода экспоненциальной релаксации (ЭР) как альтернативы популярным стохастическим методам первого порядка (SGD, Adam). Поставленная цель исследования полностью достигнута: мы теоретически обосновали и эмпирически доказали, что в условиях патологической кривизны, мультиколлинеарности признаков и наличия седловых точек метод ЭР демонстрирует абсолютное превосходство. Динамическое масштабирование шага на основе непрерывной функции от кривизны пространства позволяет методу ЭР успешно сходиться в вытянутых и повернутых оврагах, избегая высокочастотных осцилляций и стагнации. В задачах точного восстановления физических параметров, деконволюции сигналов и классификации высококоррелированных медицинских данных алгоритм второго порядка достигает оптимальных состояний за гораздо меньшее число итераций. Хотя вычислительная стоимость ограничивает применение неоптимизированных подходов вычисления шага метода в сверхбольших архитектурах нейросетей, метод экспоненциальной релаксации уже сегодня является незаменимым инструментом для решения обратных физических задач, тренировки физически-информированных нейросетей (PINN) и оптимизации компактных систем управления. Переход к проекционным алгоритмам и адаптивным стратегиям аппроксимации кривизны является ключевым вектором для дальнейших исследований, который в перспективе позволит внедрить механизмы матричной экспоненты в повседневную практику масштабируемого глубокого обучения.

Additional materials

Not specified

Financing

The authors did not receive financial support for research, writing and publishing articles

Acknowledgements

Not specified

Conflicts of interests

Not specified

References

Sun R. Optimization for deep learning: An overview / R. Sun // Journal of the Operations Research Society of China. — 2020. — Vol. 8. — № 2. — P. 249–294. — DOI: 10.1007/s40305-020-00309-6.

Kingma D.P. Adam: A method for stochastic optimization / D.P. Kingma, J. Ba // arXiv. — 2014. — URL: https://arxiv.org/abs/1412.6980 (accessed: 26.04.2026).

Kunstner F. Limitations of the empirical Fisher approximation for natural gradient descent / F. Kunstner, P. Hennig, L. Balles // Advances in Neural Information Processing Systems. — 2019. — Vol. 32. — P. 4156–4167.

Chernorutsky I.G. Gradientnye metody s eksponentsial'noy funktsiey relaksatsii [Gradient methods with exponential relaxation function] / I.G. Chernorutsky // Nauchno-tekhnicheskie vedomosti SPbGPU. Informatika. Telekommunikatsii. Upravlenie [St. Petersburg State Polytechnical University Journal. Computer Science. Telecommunications and Control Systems]. — 2013. — № 5 (181). — P. 58–66. [in Russian]

Liu L. On the variance of the adaptive learning rate and beyond / L. Liu, H. Jiang, P. He [et al.] // Proceedings of the 8th International Conference on Learning Representations (ICLR). — 2020. — URL: https://arxiv.org/abs/1908.03265 (accessed: 26.03.2026).

Dangel F. Jamming in deep learning: a geometric perspective / F. Dangel, F. Kunstner, P. Hennig // arXiv. — 2021. — 2102.21276. — URL: https://arxiv.org/abs/2102.21276 (accessed: 26.03.2024).

Nocedal J. Numerical Optimization / J. Nocedal, S.J. Wright. — 2nd edition. — New York : Springer, 2006. — 664 p.

Martens J. Deep learning via Hessian-free optimization / J. Martens // Proceedings of the 27th International Conference on Machine Learning. — 2010. — P. 735–742. — URL: https://icml.cc/Conferences/2010/papers/458.pdf (accessed: 26.03.2026).

Hairer E. Solving Ordinary Differential Equations II: Stiff and Differential-Algebraic Problems / E. Hairer, G. Wanner. — 2nd edition. — Berlin : Springer, 1996. — 614 p. — DOI: 10.1007/978-3-642-05221-7.

Rakitsky Yu.V. Chislennye metody resheniya zhestkikh sistem [Numerical methods for solving stiff systems] / Yu.V. Rakitsky, S.M. Ustinov, I.G. Chernorutskiy. — Moscow : Nauka, 1979. — 208 p. [in Russian]

Higham N.J. Functions of Matrices: Theory and Computation / N.J. Higham. — Philadelphia : SIAM, 2008. — 425 p. — DOI: 10.1137/1.9780898717778.

Goodfellow I. Deep Learning / I. Goodfellow, Y. Bengio, A. Courville. — Cambridge : MIT Press, 2016. — 800 p.

Ludwig O. The condition number as a scale-invariant proxy for information encoding in neural units / O. Ludwig // arXiv. — 2025. — URL: https://arxiv.org/html/2506.16289v1 (accessed: 26.04.2026).

Chernorutsky I.G. Metody optimizatsii. Komp'yuternye tekhnologii [Optimization methods. Computer technologies] / I.G. Chernorutsky. — Saint Petersburg : BHV-Peterburg, 2011. — 384 p. [in Russian]

Wolberg W.H. Breast Cancer Wisconsin (Diagnostic) Data Set / W.H. Wolberg, W.N. Street, O.L. Mangasarian // UCI Machine Learning Repository. — 1993. — URL: https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic) (accessed: 26.03.2026).

Arridge S. Solving inverse problems using data-driven models / S. Arridge, P. Maass, O. Öktem [et al.] // Acta Numerica. — 2019. — Vol. 28. — P. 1–174. — DOI: 10.1017/S096249291900004X.

Wang S. Understanding and mitigating gradient pathologies in physics-informed neural networks / S. Wang, Y. Teng, P. Perdikaris // SIAM Journal on Scientific Computing. — 2021. — Vol. 43. — № 5. — P. A3055–A3081. — DOI: 10.1137/20M1318043.

Yao Z. PyHessian: Neural networks through the lens of the Hessian / Z. Yao, A. Gholami, K. Keutzer [et al.] // 2020 IEEE International Conference on Big Data. — 2020. — P. 581–590. — DOI: 10.1109/BigData50022.2020.9378171.

Vo J. Efficient second-order neural network optimization via adaptive trust region methods / J. Vo // arXiv. — 2024. — URL: https://arxiv.org/abs/2410.02293 (accessed: 26.03.2026).

Bernacchia A. Global curvature for second-order optimization of neural networks / A. Bernacchia // Proceedings of the 42nd International Conference on Machine Learning. — 2025. — URL: https://icml.cc/virtual/2025/poster/44556 (accessed: 26.03.2024).

Abreu N. The potential of second-order optimization for LLMs: A study with full Gauss-Newton / N. Abreu, N. Vyas, S. Kakade [et al.] // arXiv. — 2025. — 2510.09378. — URL: https://arxiv.org/abs/2510.09378 (accessed: 26.03.2026).

Gomes D.M. Towards practical second-order optimizers in deep learning: Insights from Fisher information analysis / D.M. Gomes // arXiv. — 2025. — URL: https://arxiv.org/abs/2504.20096 (accessed: 26.03.2026).

References

Sun R. Optimization for deep learning: An overview / R. Sun // Journal of the Operations Research Society of China. — 2020. — Vol. 8. — № 2. — P. 249–294. — DOI: 10.1007/s40305-020-00309-6.
Kingma D.P. Adam: A method for stochastic optimization / D.P. Kingma, J. Ba // arXiv. — 2014. — URL: https://arxiv.org/abs/1412.6980 (accessed: 26.04.2026).
Kunstner F. Limitations of the empirical Fisher approximation for natural gradient descent / F. Kunstner, P. Hennig, L. Balles // Advances in Neural Information Processing Systems. — 2019. — Vol. 32. — P. 4156–4167.
Chernorutsky I.G. Gradientnye metody s eksponentsial'noy funktsiey relaksatsii [Gradient methods with exponential relaxation function] / I.G. Chernorutsky // Nauchno-tekhnicheskie vedomosti SPbGPU. Informatika. Telekommunikatsii. Upravlenie [St. Petersburg State Polytechnical University Journal. Computer Science. Telecommunications and Control Systems]. — 2013. — № 5 (181). — P. 58–66. [in Russian]
Liu L. On the variance of the adaptive learning rate and beyond / L. Liu, H. Jiang, P. He [et al.] // Proceedings of the 8th International Conference on Learning Representations (ICLR). — 2020. — URL: https://arxiv.org/abs/1908.03265 (accessed: 26.03.2026).
Dangel F. Jamming in deep learning: a geometric perspective / F. Dangel, F. Kunstner, P. Hennig // arXiv. — 2021. — 2102.21276. — URL: https://arxiv.org/abs/2102.21276 (accessed: 26.03.2024).
Nocedal J. Numerical Optimization / J. Nocedal, S.J. Wright. — 2nd edition. — New York : Springer, 2006. — 664 p.
Martens J. Deep learning via Hessian-free optimization / J. Martens // Proceedings of the 27th International Conference on Machine Learning. — 2010. — P. 735–742. — URL: https://icml.cc/Conferences/2010/papers/458.pdf (accessed: 26.03.2026).
Hairer E. Solving Ordinary Differential Equations II: Stiff and Differential-Algebraic Problems / E. Hairer, G. Wanner. — 2nd edition. — Berlin : Springer, 1996. — 614 p. — DOI: 10.1007/978-3-642-05221-7.
Rakitsky Yu.V. Chislennye metody resheniya zhestkikh sistem [Numerical methods for solving stiff systems] / Yu.V. Rakitsky, S.M. Ustinov, I.G. Chernorutskiy. — Moscow : Nauka, 1979. — 208 p. [in Russian]
Higham N.J. Functions of Matrices: Theory and Computation / N.J. Higham. — Philadelphia : SIAM, 2008. — 425 p. — DOI: 10.1137/1.9780898717778.
Goodfellow I. Deep Learning / I. Goodfellow, Y. Bengio, A. Courville. — Cambridge : MIT Press, 2016. — 800 p.
Ludwig O. The condition number as a scale-invariant proxy for information encoding in neural units / O. Ludwig // arXiv. — 2025. — URL: https://arxiv.org/html/2506.16289v1 (accessed: 26.04.2026).
Chernorutsky I.G. Metody optimizatsii. Komp'yuternye tekhnologii [Optimization methods. Computer technologies] / I.G. Chernorutsky. — Saint Petersburg : BHV-Peterburg, 2011. — 384 p. [in Russian]
Wolberg W.H. Breast Cancer Wisconsin (Diagnostic) Data Set / W.H. Wolberg, W.N. Street, O.L. Mangasarian // UCI Machine Learning Repository. — 1993. — URL: https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic) (accessed: 26.03.2026).
Arridge S. Solving inverse problems using data-driven models / S. Arridge, P. Maass, O. Öktem [et al.] // Acta Numerica. — 2019. — Vol. 28. — P. 1–174. — DOI: 10.1017/S096249291900004X.
Wang S. Understanding and mitigating gradient pathologies in physics-informed neural networks / S. Wang, Y. Teng, P. Perdikaris // SIAM Journal on Scientific Computing. — 2021. — Vol. 43. — № 5. — P. A3055–A3081. — DOI: 10.1137/20M1318043.
Yao Z. PyHessian: Neural networks through the lens of the Hessian / Z. Yao, A. Gholami, K. Keutzer [et al.] // 2020 IEEE International Conference on Big Data. — 2020. — P. 581–590. — DOI: 10.1109/BigData50022.2020.9378171.
Vo J. Efficient second-order neural network optimization via adaptive trust region methods / J. Vo // arXiv. — 2024. — URL: https://arxiv.org/abs/2410.02293 (accessed: 26.03.2026).
Bernacchia A. Global curvature for second-order optimization of neural networks / A. Bernacchia // Proceedings of the 42nd International Conference on Machine Learning. — 2025. — URL: https://icml.cc/virtual/2025/poster/44556 (accessed: 26.03.2024).
Abreu N. The potential of second-order optimization for LLMs: A study with full Gauss-Newton / N. Abreu, N. Vyas, S. Kakade [et al.] // arXiv. — 2025. — 2510.09378. — URL: https://arxiv.org/abs/2510.09378 (accessed: 26.03.2026).
Gomes D.M. Towards practical second-order optimizers in deep learning: Insights from Fisher information analysis / D.M. Gomes // arXiv. — 2025. — URL: https://arxiv.org/abs/2504.20096 (accessed: 26.03.2026).

Review

All articles are peer-reviewed. But the reviewer or the author of the article chose not to publish a review of this article in the public domain. The review can be provided to the competent authorities upon request.

Author information

ORCID:0009-0004-4312-2224
AffiliationPeter the Great St. Petersburg Polytechnic University, Saint-Petersburg, Russian Federation
Role:Author, Software, Writing, reviewing and editing, Draft writing and preparation, Research data analysis, Analysis
AffiliationPeter the Great St. Petersburg Polytechnic University, Saint-Petersburg, Russian Federation
Role:Author, Conceptualization, Data curation, Methodology, Management, Project administrator
ELIBRARY AUTHOR ID:472967
AffiliationPeter the Great St. Petersburg Polytechnic University, Saint-Petersburg, Russian Federation
Role:Author, Conceptualization, Methodology, Management
ELIBRARY AUTHOR ID:657671

Article metrics

Downloads:1

ViewsDownloads

Views

Total: