<?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE article PUBLIC "-//NLM/DTD JATS (Z39.96) Journal Publishing DTD v1.2 20120330//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
    <!--<?xml-stylesheet type="text/xsl" href="article.xsl">-->
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:ns1="http://www.w3.org/1999/xlink" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.2" xml:lang="en">
	<front>
		<journal-meta>
			<journal-id journal-id-type="issn">2303-9868</journal-id>
			<journal-id journal-id-type="eissn">2227-6017</journal-id>
			<journal-title-group>
				<journal-title>Международный научно-исследовательский журнал</journal-title>
			</journal-title-group>
			<issn pub-type="epub">2303-9868</issn>
			<publisher>
				<publisher-name>ООО Цифра</publisher-name>
			</publisher>
		</journal-meta>
		<article-meta>
			<article-id pub-id-type="doi">10.60797/IRJ.2026.168.116</article-id>
			<article-categories>
				<subj-group>
					<subject>Brief communication</subject>
				</subj-group>
			</article-categories>
			<title-group>
				<article-title>Обучение нейронных сетей на основе методов с экспоненциальной релаксацией</article-title>
			</title-group>
			<contrib-group>
				<contrib contrib-type="author" corresp="yes">
					<contrib-id contrib-id-type="orcid">https://orcid.org/0009-0004-4312-2224</contrib-id>
					<name>
						<surname>Ершов</surname>
						<given-names>Степан Сергеевич</given-names>
					</name>
					<email>stepanershov8@gmail.com</email>
					<xref ref-type="aff" rid="aff-1">1</xref>
				</contrib>
				<contrib contrib-type="author">
					<contrib-id contrib-id-type="rinc">https://elibrary.ru/author_profile.asp?id=657671</contrib-id>
					<name>
						<surname>Дробинцев</surname>
						<given-names>Павел Дмитриевич</given-names>
					</name>
					<email>drobintsev_pd@spbstu.ru</email>
					<xref ref-type="aff" rid="aff-1">1</xref>
				</contrib>
				<contrib contrib-type="author">
					<contrib-id contrib-id-type="rinc">https://elibrary.ru/author_profile.asp?id=472967</contrib-id>
					<name>
						<surname>Черноруцкий</surname>
						<given-names>Игорь Георгиевич</given-names>
					</name>
					<email>igcher1946@mail.ru</email>
					<xref ref-type="aff" rid="aff-1">1</xref>
				</contrib>
			</contrib-group>
			<aff id="aff-1">
				<institution-wrap>
					<institution-id institution-id-type="ROR">https://ror.org/02x91aj62</institution-id>
					<institution content-type="education">Санкт-Петербургский политехнический университет Петра Великого</institution>
				</institution-wrap>
			</aff>
			<pub-date publication-format="electronic" date-type="pub" iso-8601-date="2026-06-17">
				<day>17</day>
				<month>06</month>
				<year>2026</year>
			</pub-date>
			<pub-date pub-type="collection">
				<year>2026</year>
			</pub-date>
			<volume>10</volume>
			<issue>168</issue>
			<fpage>1</fpage>
			<lpage>10</lpage>
			<history>
				<date date-type="received" iso-8601-date="2026-04-26">
					<day>26</day>
					<month>04</month>
					<year>2026</year>
				</date>
				<date date-type="accepted" iso-8601-date="2026-05-26">
					<day>26</day>
					<month>05</month>
					<year>2026</year>
				</date>
			</history>
			<permissions>
				<copyright-statement>Copyright: &amp;#x00A9; 2022 The Author(s)</copyright-statement>
				<copyright-year>2022</copyright-year>
				<license license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
					<license-p>
						This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See 
						<uri xlink:href="http://creativecommons.org/licenses/by/4.0/">http://creativecommons.org/licenses/by/4.0/</uri>
					</license-p>
					.
				</license>
			</permissions>
			<self-uri xlink:href="https://research-journal.org/archive/6-168-2026-june/10.60797/IRJ.2026.168.116"/>
			<abstract>
				<p>Оптимизация многомерных невыпуклых функционалов остается одной из главных проблем при обучении архитектур глубокого обучения. В то время как стохастические методы первого порядка (такие как SGD и Adam) повсеместно используются для навигации в зашумленных пространствах параметров, они неизбежно сталкиваются с трудностями при наличии патологической кривизны и плоских участков, характерных для плохо обусловленных задач. В данном исследовании рассматривается применение метода экспоненциальной релаксации (ЭР) — алгоритма оптимизации второго порядка, изначально разработанного в рамках теории жестких динамических систем. Благодаря использованию точной матрицы Гессе и непрерывной функции экспоненциальной релаксации метод ЭР динамически масштабирует шаги оптимизации: он делает крупные шаги вдоль плоских долин и осторожные, стабилизированные — на крутых склонах. Эффективность метода систематически оценивается в сравнении с классическими подходами на различных топологиях, включая синтетические овраги, медицинские наборы данных с сильной корреляцией признаков, автоэнкодеры с седловыми точками и задачи деконволюции физических сигналов. Эмпирические результаты показывают, что метод ЭР достигает оптимальных состояний за значительно меньшее число итераций, эффективно преодолевая явление «заклинивания». В статье также анализируются вычислительные ограничения спектрального разложения и намечаются пути масштабирования алгоритма с использованием подпространств Крылова (метод Ланцоша). Результаты подтверждают, что метод ЭР обеспечивает непревзойденную точность для решения сложных физических обратных задач и высокоточного моделирования, где методы первого порядка терпят неудачу.</p>
			</abstract>
			<kwd-group>
				<kwd>нейронные сети</kwd>
				<kwd> метод экспоненциальной релаксации</kwd>
				<kwd> оптимизация второго порядка</kwd>
				<kwd> матрица Гессе</kwd>
				<kwd> Adam</kwd>
				<kwd> плохо обусловленные задачи</kwd>
				<kwd> овражность</kwd>
				<kwd> матричная экспонента</kwd>
				<kwd> глубокое обучение</kwd>
			</kwd-group>
		</article-meta>
	</front>
	<body>
		<sec>
			<title>HTML-content</title>
			<p>1. Введение</p>
			<p>Обучение глубоких нейронных сетей фундаментально сводится к задаче минимизации эмпирического риска в сложных, многомерных и невыпуклых пространствах </p>
			<p>[1][2]</p>
			<p>Тем не менее, методы первого порядка обладают серьезным математическим ограничением: они опираются исключительно на локальную информацию о градиенте, оставаясь «слепыми» к кривизне второго порядка ландшафта функции потерь </p>
			<p>[3][4, С. 61][4, С. 62][5]</p>
			<p>Адаптивные методы, такие как Adam, пытаются решить эту проблему, независимо масштабируя скорость обучения для каждого параметра на основе скользящих средних градиента. Однако они неявно полагаются на диагональную аппроксимацию матрицы кривизны </p>
			<p>[2][4, С. 63][6]</p>
			<p>Для полноценного учета геометрии пространства применяются методы второго порядка, использующие матрицу Гессе. Классический метод Ньютона нормирует кривизну по всем направлениям, умножая градиент на обратную матрицу Гессе [7, С. 48]. Однако он нестабилен при отрицательной кривизне (в седловых точках) и требует кубических вычислительных затрат [8, С. 736]</p>
			<p>В качестве математически обоснованной альтернативы выступает метод экспоненциальной релаксации (ЭР), корни которого лежат в теории жестких обыкновенных дифференциальных уравнений </p>
			<p>[9, С. 2][10, С. 25][11, С. 232]</p>
			<p>Цель данного исследования — провести строгую оценку эффективности метода экспоненциальной релаксации при обучении нейронных сетей на задачах с выраженной плохой обусловленностью и мультиколлинеарностью. В ходе сравнительного анализа с алгоритмами первого порядка будут определены топологические условия, в которых ЭР демонстрирует наибольшее преимущество, а также рассмотрены перспективы его масштабирования с помощью безгессиановых методов (Hessian-Free) </p>
			<p>[8]</p>
			<p>2. Методы исследования</p>
			<p>Нейронная сеть представляет собой параметризованную функцию </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>f</mml:mi>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>x</mml:mi>
					<mml:mo>,</mml:mo>
					<mml:mi>W</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
				</mml:mrow>
			</mml:math>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>w</mml:mi>
					<mml:mo>∈</mml:mo>
					<mml:msup>
						<mml:mi>R</mml:mi>
						<mml:mrow>
							<mml:mi>N</mml:mi>
						</mml:mrow>
					</mml:msup>
				</mml:mrow>
			</mml:math>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>J</mml:mi>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>w</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
					<mml:mo>=</mml:mo>
					<mml:mfrac>
						<mml:mrow>
							<mml:mn>1</mml:mn>
						</mml:mrow>
						<mml:mrow>
							<mml:mi>m</mml:mi>
						</mml:mrow>
					</mml:mfrac>
					<mml:msubsup>
						<mml:mo>∑</mml:mo>
						<mml:mrow>
							<mml:mi>i</mml:mi>
							<mml:mo>=</mml:mo>
							<mml:mn>1</mml:mn>
						</mml:mrow>
						<mml:mrow>
							<mml:mi>m</mml:mi>
						</mml:mrow>
					</mml:msubsup>
					<mml:msup>
						<mml:mrow>
							<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
							<mml:msub>
								<mml:mi>y</mml:mi>
								<mml:mrow>
									<mml:mrow>
										<mml:mi mathvariant="italic">p</mml:mi>
										<mml:mi mathvariant="italic">r</mml:mi>
										<mml:mi mathvariant="italic">e</mml:mi>
										<mml:mi mathvariant="italic">d</mml:mi>
									</mml:mrow>
									<mml:mo>,</mml:mo>
									<mml:mi mathvariant="italic">i</mml:mi>
								</mml:mrow>
							</mml:msub>
							<mml:mo stretchy="false">(</mml:mo>
							<mml:mi>w</mml:mi>
							<mml:mo stretchy="false">)</mml:mo>
							<mml:mo>−</mml:mo>
							<mml:msub>
								<mml:mi>y</mml:mi>
								<mml:mrow>
									<mml:mrow>
										<mml:mi mathvariant="italic">t</mml:mi>
										<mml:mi mathvariant="italic">r</mml:mi>
										<mml:mi mathvariant="italic">u</mml:mi>
										<mml:mi mathvariant="italic">e</mml:mi>
									</mml:mrow>
									<mml:mo>,</mml:mo>
									<mml:mi mathvariant="italic">i</mml:mi>
								</mml:mrow>
							</mml:msub>
							<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
						</mml:mrow>
						<mml:mrow>
							<mml:mn>2</mml:mn>
						</mml:mrow>
					</mml:msup>
				</mml:mrow>
			</mml:math>
			<p>Обучение сводится к итеративному обновлению весов </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>g</mml:mi>
					<mml:mo>=</mml:mo>
					<mml:mo>∇</mml:mo>
					<mml:mi>J</mml:mi>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msub>
							<mml:mi>w</mml:mi>
							<mml:mrow>
								<mml:mi>k</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
				</mml:mrow>
			</mml:math>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>G</mml:mi>
					<mml:mo>=</mml:mo>
					<mml:msup>
						<mml:mo>∇</mml:mo>
						<mml:mrow>
							<mml:mn>2</mml:mn>
						</mml:mrow>
					</mml:msup>
					<mml:mrow>
						<mml:mtext> </mml:mtext>
						<mml:mi mathvariant="normal">J</mml:mi>
					</mml:mrow>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msub>
							<mml:mi>w</mml:mi>
							<mml:mrow>
								<mml:mi>k</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
					<mml:mo>∈</mml:mo>
					<mml:msup>
						<mml:mi>R</mml:mi>
						<mml:mrow>
							<mml:mi>N</mml:mi>
							<mml:mi>×</mml:mi>
							<mml:mi>N</mml:mi>
						</mml:mrow>
					</mml:msup>
				</mml:mrow>
			</mml:math>
			<p>[12, С. 200]</p>
			<p>Сложность оптимизации напрямую зависит от спектра собственных значений матрицы Гессе </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>κ</mml:mi>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>G</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
					<mml:mo>=</mml:mo>
					<mml:mfrac>
						<mml:mrow>
							<mml:mrow>
								<mml:mo stretchy="true" fence="true" form="prefix">|</mml:mo>
								<mml:msub>
									<mml:mi>λ</mml:mi>
									<mml:mrow>
										<mml:mo>max</mml:mo>
									</mml:mrow>
								</mml:msub>
								<mml:mo stretchy="true" fence="true" form="postfix">|</mml:mo>
							</mml:mrow>
						</mml:mrow>
						<mml:mrow>
							<mml:mrow>
								<mml:mo stretchy="true" fence="true" form="prefix">|</mml:mo>
								<mml:msub>
									<mml:mi>λ</mml:mi>
									<mml:mrow>
										<mml:mo>min</mml:mo>
									</mml:mrow>
								</mml:msub>
								<mml:mo stretchy="true" fence="true" form="postfix">|</mml:mo>
							</mml:mrow>
						</mml:mrow>
					</mml:mfrac>
				</mml:mrow>
			</mml:math>
			<p>Если κ(</p>
			<p>[13][4, С. 61][4, С. 62]</p>
			<p>Чтобы преодолеть ограничения градиентного спуска, метод ЭР использует специальную масштабирующую матрицу, выведенную из дифференциального уравнения наискорейшего спуска – непрерывного аналога градиентных методов, подробно исследованного в литературе по компьютерным методам оптимизации </p>
			<p>[14, С. 145][11, С. 232]</p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:msub>
						<mml:mi>w</mml:mi>
						<mml:mrow>
							<mml:mi>k</mml:mi>
							<mml:mo>+</mml:mo>
							<mml:mn>1</mml:mn>
						</mml:mrow>
					</mml:msub>
					<mml:mo>=</mml:mo>
					<mml:msub>
						<mml:mi>w</mml:mi>
						<mml:mrow>
							<mml:mi>k</mml:mi>
						</mml:mrow>
					</mml:msub>
					<mml:mo>−</mml:mo>
					<mml:mi>H</mml:mi>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>G</mml:mi>
					<mml:mo>,</mml:mo>
					<mml:mi>h</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
					<mml:mo>∇</mml:mo>
					<mml:mi>J</mml:mi>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msub>
							<mml:mi>w</mml:mi>
							<mml:mrow>
								<mml:mi>k</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
				</mml:mrow>
			</mml:math>
			<p>где </p>
			<p>[11, С. 232]</p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>H</mml:mi>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>G</mml:mi>
					<mml:mo>,</mml:mo>
					<mml:mi>h</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
					<mml:mo>=</mml:mo>
					<mml:msubsup>
						<mml:mo>∫</mml:mo>
						<mml:mrow>
							<mml:mn>0</mml:mn>
						</mml:mrow>
						<mml:mrow>
							<mml:mi>h</mml:mi>
						</mml:mrow>
					</mml:msubsup>
					<mml:mi>exp</mml:mi>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mo>−</mml:mo>
					<mml:mi>t</mml:mi>
					<mml:mi>G</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
					<mml:mrow>
						<mml:mi mathvariant="normal">d</mml:mi>
						<mml:mi mathvariant="normal">t</mml:mi>
					</mml:mrow>
					<mml:mo>=</mml:mo>
					<mml:msup>
						<mml:mi>G</mml:mi>
						<mml:mrow>
							<mml:mo>−</mml:mo>
							<mml:mn>1</mml:mn>
						</mml:mrow>
					</mml:msup>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mi>I</mml:mi>
					<mml:mo>−</mml:mo>
					<mml:mi>exp</mml:mi>
					<mml:mo stretchy="false">(</mml:mo>
					<mml:mo>−</mml:mo>
					<mml:mi>h</mml:mi>
					<mml:mi>G</mml:mi>
					<mml:mo stretchy="false">)</mml:mo>
					<mml:mo stretchy="false">)</mml:mo>
				</mml:mrow>
			</mml:math>
			<p>Для каждого собственного значения </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:mi>R</mml:mi>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:msub>
							<mml:mi>λ</mml:mi>
							<mml:mrow>
								<mml:mi>i</mml:mi>
							</mml:mrow>
						</mml:msub>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
					<mml:mo>=</mml:mo>
					<mml:mfrac>
						<mml:mrow>
							<mml:mn>1</mml:mn>
							<mml:mo>−</mml:mo>
							<mml:mi>exp</mml:mi>
							<mml:mrow>
								<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
								<mml:mo>−</mml:mo>
								<mml:msub>
									<mml:mi>λ</mml:mi>
									<mml:mrow>
										<mml:mi>i</mml:mi>
									</mml:mrow>
								</mml:msub>
								<mml:mi>h</mml:mi>
								<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
							</mml:mrow>
						</mml:mrow>
						<mml:mrow>
							<mml:msub>
								<mml:mi>λ</mml:mi>
								<mml:mrow>
									<mml:mi>i</mml:mi>
								</mml:mrow>
							</mml:msub>
						</mml:mrow>
					</mml:mfrac>
				</mml:mrow>
			</mml:math>
			<p>Эта функция обеспечивает идеальный баланс:</p>
			<p>1. При большой кривизне (</p>
			<p>2. При малой кривизне (</p>
			<p>3. При отрицательной кривизне (</p>
			<p>[11, С. 235]</p>
			<p>В рамках данного исследования ЭР реализован через точное спектральное разложение матрицы Гессе. На каждой итерации матрица </p>
			<mml:math display="inline">
				<mml:mrow>
					<mml:msub>
						<mml:mi>H</mml:mi>
						<mml:mrow>
							<mml:mi>m</mml:mi>
							<mml:mi>a</mml:mi>
							<mml:mi>t</mml:mi>
						</mml:mrow>
					</mml:msub>
					<mml:mo>=</mml:mo>
					<mml:mi>V</mml:mi>
					<mml:mi>·</mml:mi>
					<mml:mo>diag</mml:mo>
					<mml:mrow>
						<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
						<mml:mfrac>
							<mml:mrow>
								<mml:mn>1</mml:mn>
								<mml:mo>−</mml:mo>
								<mml:mi>exp</mml:mi>
								<mml:mrow>
									<mml:mo stretchy="true" fence="true" form="prefix">(</mml:mo>
									<mml:mo>−</mml:mo>
									<mml:mi>h</mml:mi>
									<mml:msub>
										<mml:mi>λ</mml:mi>
										<mml:mrow>
											<mml:mi>i</mml:mi>
										</mml:mrow>
									</mml:msub>
									<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
								</mml:mrow>
							</mml:mrow>
							<mml:mrow>
								<mml:msub>
									<mml:mi>λ</mml:mi>
									<mml:mrow>
										<mml:mi>i</mml:mi>
									</mml:mrow>
								</mml:msub>
							</mml:mrow>
						</mml:mfrac>
						<mml:mo stretchy="true" fence="true" form="postfix">)</mml:mo>
					</mml:mrow>
					<mml:mi>·</mml:mi>
					<mml:msup>
						<mml:mi>V</mml:mi>
						<mml:mrow>
							<mml:mo>−</mml:mo>
							<mml:mn>1</mml:mn>
						</mml:mrow>
					</mml:msup>
				</mml:mrow>
			</mml:math>
			<p>Для предотвращения вычислительной неустойчивости (деления на нуль) при |</p>
			<p>[11, С. 240]</p>
			<p>Для тестирования были использованы как классические аналитические функции, так и архитектуры нейронных сетей на реальных данных. Сравнение проводилось с методами SGD и Adam.</p>
			<p>1. </p>
			<p>2. [12, С. 89]</p>
			<p>3. [15]</p>
			<p>4. </p>
			<p>5. [16, С. 15]</p>
			<p>3. Основные результаты</p>
			<p>На функции Розенброка метод ЭР благодаря матричной экспоненте динамически адаптировал шаг и быстро достиг глобального минимума, двигаясь вдоль искривленного дна. В то же время SGD и Adam продемонстрировали сильное заклинивание, тратя итерации на бесполезные колебания между крутыми стенами (см. рис. 1).</p>
			<fig id="F1">
				<label>Figure 1</label>
				<caption>
					<p>Сходимость методов на функции Розенброка</p>
				</caption>
				<alt-text>Сходимость методов на функции Розенброка</alt-text>
				<graphic ns1:href="/media/images/2026-06-17/21192e0b-5a55-4335-80f5-67de0f9cec43.png"/>
			</fig>
			<p>[4, С. 65]</p>
			<fig id="F2">
				<label>Figure 2</label>
				<caption>
					<p>Сходимость методов на ступенчатой функции</p>
				</caption>
				<alt-text>Сходимость методов на ступенчатой функции</alt-text>
				<graphic ns1:href="/media/images/2026-06-17/e14fd6ad-ec7d-4a9c-adf3-1fe784a01f29.png"/>
			</fig>
			<p>На задаче с числом обусловленности 2000 тестировалась способность алгоритмов найти точные физические веса (целевые значения W=[2,0, -1,5, 0,5]) (см. табл. 1).</p>
			<table-wrap id="T1">
				<label>Table 1</label>
				<caption>
					<p>Результаты восстановления параметров в синтетическом овраге</p>
				</caption>
				<table>
					<tr>
						<td>Метод</td>
						<td>MSE Loss</td>
						<td>Дистанция до оптимума</td>
						<td>Итерации</td>
						<td>Полученные веса</td>
					</tr>
					<tr>
						<td>SGD</td>
						<td>3,84×10-6Missing Mark : sup</td>
						<td>5,66×100Missing Mark : sup</td>
						<td>500</td>
						<td>[-2,089, 2,405, 0,500]</td>
					</tr>
					<tr>
						<td>Adam</td>
						<td>3,84×10-6Missing Mark : sup</td>
						<td>5,66×100Missing Mark : sup</td>
						<td>500</td>
						<td>[-2,091, 2,406, 0,500]</td>
					</tr>
					<tr>
						<td>Метод ЭР</td>
						<td>3,40×10-8Missing Mark : sup</td>
						<td>5,20×10-1Missing Mark : sup</td>
						<td>100</td>
						<td>[1,624, -1,140, 0,500]</td>
					</tr>
				</table>
			</table-wrap>
			<p>Хотя функции потерь у SGD и Adam упали до 10-6Missing Mark : sup, алгоритмы остановились далеко от истинных весов (дистанция 5,66). Диагональная аппроксимация Adam не смогла распутать ковариацию признаков. ЭР, используя полную матрицу Гессе, сократил дистанцию до оптимума на порядок всего за 100 итераций.</p>
			<p>В задаче бинарной классификации на наборе данных Breast Cancer исследовалась проблема естественной геометрической жесткости. Набор данных Breast Cancer содержит признаки с корреляцией ≈0,998, что формирует в пространстве потерь вырожденный желоб </p>
			<p>[15]</p>
			<table-wrap id="T2">
				<label>Table 2</label>
				<caption>
					<p>Результаты обучения на задаче классификации</p>
				</caption>
				<table>
					<tr>
						<td>Метод</td>
						<td>Итоговая ошибка (Loss)</td>
					</tr>
					<tr>
						<td>SGD</td>
						<td>0,6884</td>
					</tr>
					<tr>
						<td>Adam</td>
						<td>0,3545</td>
					</tr>
					<tr>
						<td>Метод ЭР</td>
						<td>0,0455</td>
					</tr>
				</table>
			</table-wrap>
			<fig id="F3">
				<label>Figure 3</label>
				<caption>
					<p>Сходимость методов при обучении на медицинских данных</p>
				</caption>
				<alt-text>Сходимость методов при обучении на медицинских данных</alt-text>
				<graphic ns1:href="/media/images/2026-06-18/68a066c8-4b51-44b4-8070-35f2f44ba6ec.png"/>
			</fig>
			<p>Для исследования поведения алгоритмов оптимизации в условиях архитектурных узких мест (bottlenecks) была смоделирована задача восстановления данных с использованием автоэнкодера с околонулевой инициализацией </p>
			<p>[19]</p>
			<table-wrap id="T3">
				<label>Table 3</label>
				<caption>
					<p>Результаты обучения на задаче автоэнкодера</p>
				</caption>
				<table>
					<tr>
						<td>Метод</td>
						<td>Ошибка реконструкции</td>
					</tr>
					<tr>
						<td>SGD</td>
						<td>0,9999</td>
					</tr>
					<tr>
						<td>Adam</td>
						<td>0,8058</td>
					</tr>
					<tr>
						<td>Метод ЭР</td>
						<td>0,7506</td>
					</tr>
				</table>
			</table-wrap>
			<fig id="F4">
				<label>Figure 4</label>
				<caption>
					<p>Сходимость на задаче автоэнкодера</p>
				</caption>
				<alt-text>Сходимость на задаче автоэнкодера</alt-text>
				<graphic ns1:href="/media/images/2026-06-18/d280460b-c3c2-4534-ada1-9b1b1bae6bcb.png"/>
			</fig>
			<p>В качестве задачи регрессии, имитирующей физические обратные задачи с сильной мультиколлинеарностью, использовался набор данных по гидродинамике яхт (Yacht Hydrodynamics). Модели необходимо было предсказать физическое сопротивление корпуса на основе шести параметров геометрии и числа Фруда. Архитектура представляла собой однослойную сеть, однако перед подачей на вход исходные признаки подвергались полиномиальному расширению второй степени (включая квадраты и попарные произведения), а целевая переменная сопротивления масштабировалась в диапазон гиперболического тангенса. Механизм возникновения экстремальной овражности здесь напрямую вытекал из полиномиального преобразования: перемножение близких по смыслу физических параметров порождает искусственную, но мощнейшую мультиколлинеарность. Матрица ковариации входных сигналов становится практически вырожденной, что приводит к формированию матрицы Гессе с множеством исчезающе малых собственных значений. В результате возникает матрица кривизны, стремящаяся к вырождению (сравнение методов приведено в табл. 4). В условиях такого вырожденного спектра метод Adam даже за несколько сотен итераций достигает лишь умеренной точности, постоянно осциллируя вокруг оптимума. Алгоритм ЭР, динамически обрабатывая малые собственные значения матрицы Гессе через предел функции релаксации, полностью обратил физический оператор всего за несколько десятков шагов, обеспечив падение среднеквадратичной ошибки до машинного нуля (см. рис. 5). Это делает его идеальным инструментом для физически-информированных нейросетей (PINN) </p>
			<p>[17]</p>
			<table-wrap id="T4">
				<label>Table 4</label>
				<caption>
					<p>Сравнение оптимизаторов на задаче регрессии</p>
				</caption>
				<table>
					<tr>
						<td>Метод</td>
						<td>Итерации</td>
						<td>Итоговая ошибка (Loss)</td>
					</tr>
					<tr>
						<td>SGD</td>
						<td>100</td>
						<td>9,2026⋅10-3Missing Mark : sup</td>
					</tr>
					<tr>
						<td>Adam</td>
						<td>100</td>
						<td>2,0833⋅10-2Missing Mark : sup</td>
					</tr>
					<tr>
						<td>ER</td>
						<td>30</td>
						<td>3,6970⋅10-3Missing Mark : sup</td>
					</tr>
				</table>
			</table-wrap>
			<fig id="F5">
				<label>Figure 5</label>
				<caption>
					<p>Сходимость оптимизаторов на задаче регрессии</p>
				</caption>
				<alt-text>Сходимость оптимизаторов на задаче регрессии</alt-text>
				<graphic ns1:href="/media/images/2026-06-18/673d027c-ad09-4179-90df-c0b3eb06e874.png"/>
			</fig>
			<p>Несмотря на подавляющее преимущество в качестве сходимости, точная реализация ЭР требует вычисления матрицы вторых производных и ее спектрального разложения на каждом шаге. Это дает кубическую вычислительную сложность O(</p>
			<p>[8, С. 737][8, С. 738][18]</p>
			<p>4. Обсуждение</p>
			<p>Полученные эмпирические результаты наглядно демонстрируют фундаментальные ограничения методов оптимизации первого порядка и адаптивных алгоритмов (SGD, Adam) в условиях патологической кривизны ландшафта потерь. В задачах с сильно коррелированными признаками (таких как набор данных Breast Cancer) и синтетических оврагах с числом обусловленности κ(</p>
			<p>[6][2][3][11, С. 242][17][8, С. 737][18]</p>
			<p>5. Заключение</p>
			<p>Обучение глубоких нейронных сетей фундаментально зависит от способности алгоритмов оптимизации эффективно минимизировать невыпуклые функционалы эмпирического риска. В данной работе была проведена строгая оценка метода экспоненциальной релаксации (ЭР) как альтернативы популярным стохастическим методам первого порядка (SGD, Adam). Поставленная цель исследования полностью достигнута: мы теоретически обосновали и эмпирически доказали, что в условиях патологической кривизны, мультиколлинеарности признаков и наличия седловых точек метод ЭР демонстрирует абсолютное превосходство. Динамическое масштабирование шага на основе непрерывной функции от кривизны пространства позволяет методу ЭР успешно сходиться в вытянутых и повернутых оврагах, избегая высокочастотных осцилляций и стагнации. В задачах точного восстановления физических параметров, деконволюции сигналов и классификации высококоррелированных медицинских данных алгоритм второго порядка достигает оптимальных состояний за гораздо меньшее число итераций. Хотя вычислительная стоимость ограничивает применение неоптимизированных подходов вычисления шага метода в сверхбольших архитектурах нейросетей, метод экспоненциальной релаксации уже сегодня является незаменимым инструментом для решения обратных физических задач, тренировки физически-информированных нейросетей (PINN) и оптимизации компактных систем управления. Переход к проекционным алгоритмам и адаптивным стратегиям аппроксимации кривизны является ключевым вектором для дальнейших исследований, который в перспективе позволит внедрить механизмы матричной экспоненты в повседневную практику масштабируемого глубокого обучения.</p>
		</sec>
		<sec sec-type="supplementary-material">
			<title>Additional File</title>
			<p>The additional file for this article can be found as follows:</p>
			<supplementary-material xmlns:xlink="http://www.w3.org/1999/xlink" id="S1" xlink:href="https://doi.org/10.5334/cpsy.78.s1">
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/25178.docx">25178.docx</inline-supplementary-material>]-->
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/25178.pdf">25178.pdf</inline-supplementary-material>]-->
				<label>Online Supplementary Material</label>
				<caption>
					<p>
						Further description of analytic pipeline and patient demographic information. DOI:
						<italic>
							<uri>https://doi.org/10.60797/IRJ.2026.168.116</uri>
						</italic>
					</p>
				</caption>
			</supplementary-material>
		</sec>
	</body>
	<back>
		<ack>
			<title>Acknowledgements</title>
			<p/>
		</ack>
		<sec>
			<title>Competing Interests</title>
			<p/>
		</sec>
		<ref-list>
			<ref id="B1">
				<label>1</label>
				<mixed-citation publication-type="confproc">Sun R. Optimization for deep learning: An overview / R. Sun // Journal of the Operations Research Society of China. — 2020. — Vol. 8. — № 2. — P. 249–294. — DOI: 10.1007/s40305-020-00309-6.</mixed-citation>
			</ref>
			<ref id="B2">
				<label>2</label>
				<mixed-citation publication-type="confproc">Kingma D.P. Adam: A method for stochastic optimization / D.P. Kingma, J. Ba // arXiv. — 2014. — URL: https://arxiv.org/abs/1412.6980 (accessed: 26.04.2026).</mixed-citation>
			</ref>
			<ref id="B3">
				<label>3</label>
				<mixed-citation publication-type="confproc">Kunstner F. Limitations of the empirical Fisher approximation for natural gradient descent / F. Kunstner, P. Hennig, L. Balles // Advances in Neural Information Processing Systems. — 2019. — Vol. 32. — P. 4156–4167.</mixed-citation>
			</ref>
			<ref id="B4">
				<label>4</label>
				<mixed-citation publication-type="confproc">Черноруцкий И.Г. Градиентные методы с экспоненциальной функцией релаксации / И.Г. Черноруцкий // Научно-технические ведомости СПбГПУ. Информатика. Телекоммуникации. Управление. — 2013. — № 5 (181). — С. 58–66.</mixed-citation>
			</ref>
			<ref id="B5">
				<label>5</label>
				<mixed-citation publication-type="confproc">Liu L. On the variance of the adaptive learning rate and beyond / L. Liu, H. Jiang, P. He [et al.] // Proceedings of the 8th International Conference on Learning Representations (ICLR). — 2020. — URL: https://arxiv.org/abs/1908.03265 (accessed: 26.03.2026).</mixed-citation>
			</ref>
			<ref id="B6">
				<label>6</label>
				<mixed-citation publication-type="confproc">Dangel F. Jamming in deep learning: a geometric perspective / F. Dangel, F. Kunstner, P. Hennig // arXiv. — 2021. — 2102.21276. — URL: https://arxiv.org/abs/2102.21276 (accessed: 26.03.2024).</mixed-citation>
			</ref>
			<ref id="B7">
				<label>7</label>
				<mixed-citation publication-type="confproc">Nocedal J. Numerical Optimization / J. Nocedal, S.J. Wright. — 2nd edition. — New York : Springer, 2006. — 664 p.</mixed-citation>
			</ref>
			<ref id="B8">
				<label>8</label>
				<mixed-citation publication-type="confproc">Martens J. Deep learning via Hessian-free optimization / J. Martens // Proceedings of the 27th International Conference on Machine Learning. — 2010. — P. 735–742. — URL: https://icml.cc/Conferences/2010/papers/458.pdf (accessed: 26.03.2026).</mixed-citation>
			</ref>
			<ref id="B9">
				<label>9</label>
				<mixed-citation publication-type="confproc">Hairer E. Solving Ordinary Differential Equations II: Stiff and Differential-Algebraic Problems / E. Hairer, G. Wanner. — 2nd edition. — Berlin : Springer, 1996. — 614 p. — DOI: 10.1007/978-3-642-05221-7.</mixed-citation>
			</ref>
			<ref id="B10">
				<label>10</label>
				<mixed-citation publication-type="confproc">Ракитский Ю.В. Численные методы решения жестких систем / Ю.В. Ракитский, С.М. Устинов, И.Г. Черноруцкий. — Москва : Наука, 1979. — 208 с.</mixed-citation>
			</ref>
			<ref id="B11">
				<label>11</label>
				<mixed-citation publication-type="confproc">Higham N.J. Functions of Matrices: Theory and Computation / N.J. Higham. — Philadelphia : SIAM, 2008. — 425 p. — DOI: 10.1137/1.9780898717778.</mixed-citation>
			</ref>
			<ref id="B12">
				<label>12</label>
				<mixed-citation publication-type="confproc">Goodfellow I. Deep Learning / I. Goodfellow, Y. Bengio, A. Courville. — Cambridge : MIT Press, 2016. — 800 p.</mixed-citation>
			</ref>
			<ref id="B13">
				<label>13</label>
				<mixed-citation publication-type="confproc">Ludwig O. The condition number as a scale-invariant proxy for information encoding in neural units / O. Ludwig // arXiv. — 2025. — URL: https://arxiv.org/html/2506.16289v1 (accessed: 26.04.2026).</mixed-citation>
			</ref>
			<ref id="B14">
				<label>14</label>
				<mixed-citation publication-type="confproc">Черноруцкий И.Г. Методы оптимизации. Компьютерные технологии / И.Г. Черноруцкий. — Санкт-Петербург : БХВ-Петербург, 2011. — 384 с.</mixed-citation>
			</ref>
			<ref id="B15">
				<label>15</label>
				<mixed-citation publication-type="confproc">Wolberg W.H. Breast Cancer Wisconsin (Diagnostic) Data Set / W.H. Wolberg, W.N. Street, O.L. Mangasarian // UCI Machine Learning Repository. — 1993. — URL: https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic) (accessed: 26.03.2026).</mixed-citation>
			</ref>
			<ref id="B16">
				<label>16</label>
				<mixed-citation publication-type="confproc">Arridge S. Solving inverse problems using data-driven models / S. Arridge, P. Maass, O. Öktem [et al.] // Acta Numerica. — 2019. — Vol. 28. — P. 1–174. — DOI: 10.1017/S096249291900004X.</mixed-citation>
			</ref>
			<ref id="B17">
				<label>17</label>
				<mixed-citation publication-type="confproc">Wang S. Understanding and mitigating gradient pathologies in physics-informed neural networks / S. Wang, Y. Teng, P. Perdikaris // SIAM Journal on Scientific Computing. — 2021. — Vol. 43. — № 5. — P. A3055–A3081. — DOI: 10.1137/20M1318043.</mixed-citation>
			</ref>
			<ref id="B18">
				<label>18</label>
				<mixed-citation publication-type="confproc">Yao Z. PyHessian: Neural networks through the lens of the Hessian / Z. Yao, A. Gholami, K. Keutzer [et al.] // 2020 IEEE International Conference on Big Data. — 2020. — P. 581–590. — DOI: 10.1109/BigData50022.2020.9378171.</mixed-citation>
			</ref>
			<ref id="B19">
				<label>19</label>
				<mixed-citation publication-type="confproc">Vo J. Efficient second-order neural network optimization via adaptive trust region methods / J. Vo // arXiv. — 2024. — URL: https://arxiv.org/abs/2410.02293 (accessed: 26.03.2026).</mixed-citation>
			</ref>
			<ref id="B20">
				<label>20</label>
				<mixed-citation publication-type="confproc">Bernacchia A. Global curvature for second-order optimization of neural networks / A. Bernacchia // Proceedings of the 42nd International Conference on Machine Learning. — 2025. — URL: https://icml.cc/virtual/2025/poster/44556 (accessed: 26.03.2024).</mixed-citation>
			</ref>
			<ref id="B21">
				<label>21</label>
				<mixed-citation publication-type="confproc">Abreu N. The potential of second-order optimization for LLMs: A study with full Gauss-Newton / N. Abreu, N. Vyas, S. Kakade [et al.] // arXiv. — 2025. — 2510.09378. — URL: https://arxiv.org/abs/2510.09378 (accessed: 26.03.2026).</mixed-citation>
			</ref>
			<ref id="B22">
				<label>22</label>
				<mixed-citation publication-type="confproc">Gomes D.M. Towards practical second-order optimizers in deep learning: Insights from Fisher information analysis / D.M. Gomes // arXiv. — 2025. — URL: https://arxiv.org/abs/2504.20096 (accessed: 26.03.2026).</mixed-citation>
			</ref>
		</ref-list>
	</back>
	<fundings/>
</article>