<?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE article PUBLIC "-//NLM/DTD JATS (Z39.96) Journal Publishing DTD v1.2 20120330//EN" "http://jats.nlm.nih.gov/publishing/1.2/JATS-journalpublishing1.dtd">
    <!--<?xml-stylesheet type="text/xsl" href="article.xsl">-->
<article xmlns:ns0="http://www.w3.org/1999/xlink" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.2" xml:lang="en">
	<front>
		<journal-meta>
			<journal-id journal-id-type="issn">2303-9868</journal-id>
			<journal-id journal-id-type="eissn">2227-6017</journal-id>
			<journal-title-group>
				<journal-title>Международный научно-исследовательский журнал</journal-title>
			</journal-title-group>
			<issn pub-type="epub">2303-9868</issn>
			<publisher>
				<publisher-name>ООО Цифра</publisher-name>
			</publisher>
		</journal-meta>
		<article-meta>
			<article-id pub-id-type="doi">10.60797/IRJ.2026.167.89</article-id>
			<article-categories>
				<subj-group>
					<subject>Brief communication</subject>
				</subj-group>
			</article-categories>
			<title-group>
				<article-title>Анализ влияния модификаций триплетной функции потерь на выявление признаков класса</article-title>
			</title-group>
			<contrib-group>
				<contrib contrib-type="author" corresp="yes">
					<contrib-id contrib-id-type="orcid">https://orcid.org/0009-0005-4377-7981</contrib-id>
					<contrib-id contrib-id-type="rinc">https://elibrary.ru/author_profile.asp?id=1159246</contrib-id>
					<name>
						<surname>Вольнова</surname>
						<given-names>Яна Сергеевна</given-names>
					</name>
					<email>ypetrova@bmstu.ru</email>
					<xref ref-type="aff" rid="aff-2">2</xref>
				</contrib>
				<contrib contrib-type="author">
					<name>
						<surname>Сущинский</surname>
						<given-names>Антон Павлович</given-names>
					</name>
					<email>anton@sns.ru</email>
					<xref ref-type="aff" rid="aff-1">1</xref>
				</contrib>
			</contrib-group>
			<aff id="aff-1">
				<label>1</label>
				<institution>Группа Компаний «СНС»</institution>
			</aff>
			<aff id="aff-2">
				<institution-wrap>
					<institution-id institution-id-type="ROR">https://ror.org/00pb8h375</institution-id>
					<institution content-type="education">Московский государственный технический университет имени Н. Э. Баумана</institution>
				</institution-wrap>
			</aff>
			<pub-date publication-format="electronic" date-type="pub" iso-8601-date="2026-05-18">
				<day>18</day>
				<month>05</month>
				<year>2026</year>
			</pub-date>
			<pub-date pub-type="collection">
				<year>2026</year>
			</pub-date>
			<volume>6</volume>
			<issue>167</issue>
			<fpage>1</fpage>
			<lpage>6</lpage>
			<history>
				<date date-type="received" iso-8601-date="2026-03-04">
					<day>04</day>
					<month>03</month>
					<year>2026</year>
				</date>
				<date date-type="accepted" iso-8601-date="2026-03-30">
					<day>30</day>
					<month>03</month>
					<year>2026</year>
				</date>
			</history>
			<permissions>
				<copyright-statement>Copyright: &amp;#x00A9; 2022 The Author(s)</copyright-statement>
				<copyright-year>2022</copyright-year>
				<license license-type="open-access" xlink:href="http://creativecommons.org/licenses/by/4.0/">
					<license-p>
						This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See 
						<uri xlink:href="http://creativecommons.org/licenses/by/4.0/">http://creativecommons.org/licenses/by/4.0/</uri>
					</license-p>
					.
				</license>
			</permissions>
			<self-uri xlink:href="https://research-journal.org/archive/5-167-2026-may/10.60797/IRJ.2026.167.89"/>
			<abstract>
				<p>Сверточные нейронные сети имеют склонность считать признаком класса фон, на котором обычно находятся его объекты, что является нежелательным поведением. Статья посвящена анализу различий сверточных нейронных сетей, которые обучены с помощью разных модицификаций триплетной функции потерь, с точки зрения выделяемых признаков классов. Для сравнения использованы оригинальная, фокальная и триплетная функция потерь с гибкой границей, в которой используются дополнительные метки. Различия в выделяемых признаках классов были проанализированы с помощью Grad-CAM, адаптированного для векторных представлений. Для экспериментов использовался датасет продуктов. Результаты показали, что наиболее корректно признаки объектов выделяет модель, обученная с помощью триплетной функции потерь с гибкой границей. Наибольший вклад в выделение корректных признаков вносит фокальный расчет расстояний. При внедрении фокального подсчета расстояний количество изображений, на которых корректно распознаны класс и признаки объекта, увеличивается на 26% относительно оригинальной триплетной функции потерь.</p>
			</abstract>
			<kwd-group>
				<kwd>триплетная функция потерь</kwd>
				<kwd> Grad-CAM</kwd>
				<kwd> признаки</kwd>
				<kwd> классификация</kwd>
				<kwd> векторное представление</kwd>
				<kwd> метрическое обучение</kwd>
				<kwd> объяснимость</kwd>
			</kwd-group>
		</article-meta>
	</front>
	<body>
		<sec>
			<title>HTML-content</title>
			<p>1. Введение</p>
			<p>В связи с расширением вариантов и сфер применения нейронных сетей возрастает потребность в повышении доверия к их решениям. Доверие тесно связано с возможностью объяснения полученного результата. В компьютерном зрении для интерпретации результата нейронных сетей используются тепловые карты. На них выделяются фрагменты изображения, содержащие признаки, которые внесли наибольший вклад в итоговое предсказание. Сопоставив такие фрагменты с полученным результатом, можно приблизиться к пониманию, с чем связаны ошибки модели и какие признаки она выявляет как свойственные классу, то есть влияющие на решение о классификации объекта. К примеру, авторы статей </p>
			<p>[1][2]</p>
			<p>В исследовании </p>
			<p>[3]</p>
			<p>2. Методы и принципы исследования</p>
			<p>Для выявления областей изображения, где были обнаружены признаки искомого класса, используются различные методы. Для трансформеров зрения — это методы, основанные на анализе результатов работы механизма внимания </p>
			<p>[4][5][6]</p>
			<p>Обычно интерпретация результатов классификации предполагает оценку влияния обнаруженных признаков на уверенность модели в принадлежности объекта классу. Чем больше значение, тем больше уверенность. Поэтому, чтобы понять, что повлияло на отнесение объекта к выбранному классу, достаточно разобраться, какие признаки во входных данных увеличивают значение уверенности. Такой подход возможен для моделей, обученных с помощью кросс-энтропии. Однако при использовании метрического обучения задача усложняется. Модель предсказывает не уверенность, а векторное представление (англ. embedding) для каждого объекта, соответственно необходимо адаптировать методы интерпретации результатов. Для Grad-CAM доработки предполагают вычисление косинусного сходства между векторным представлением текущего изображения объекта и некоторым эталонным или усредненным векторным представлением объектов исследуемого класса </p>
			<p>[7][8]</p>
			<p>В данной статье для визуализации областей изображения, на которых были обнаружены свойственные классу признаки, используются идеи из вышеуказанных подходов.</p>
			<p>1) для каждого класса подсчитывается эталонное векторное представление как арифметическое среднее представлений всех экземпляров этого класса в обучающем датасете;</p>
			<p>2) для тестового изображения вычисляется косинусное сходство между его векторным представлением и эталонным векторным представлением его истинного класса;</p>
			<p>3) для интерпретации полученного значения используется Grad-CAM, получающий в качестве входных данных выходы последнего сверточного слоя модели и значение косинусного сходства;</p>
			<p>4) результаты Grad-CAM используются для затемнения областей, которые не увеличивают косинусное сходство между векторами тестового изображения и эталона.</p>
			<p>[9]</p>
			<p>Модель была обучена с помощью оригинальной триплетной функции потерь, фокальной </p>
			<p>[10][3]</p>
			<p>Для обучения использован датасет SKU CLASSIFICATION </p>
			<p>[11]</p>
			<p>Далее для каждого изображения была проведена визуальная оценка областей, которые не были затемнены, а значит, с точки зрения модели, содержат признаки, важные для предсказания истинного класса. Для каждой пары «сложное изображение — модель» было отмечено:</p>
			<p>1) соответствует ли истинному предсказанный моделью класс;</p>
			<p>2) соответствует ли незатемненная область изображения реальному местоположению объекта целевого класса.</p>
			<p>В случае, если для пары выполнялись оба условия, принималось, что модель корректно выявила признаки объекта целевого класса на изображении. На рисунке 1 приведены слева направо:</p>
			<p>1) оригинальное изображение,</p>
			<p>2) пример корректно выделенных признаков и верно предсказанного класса,</p>
			<p>3) пример корректно выделенных признаков и неверно предсказанного класса,</p>
			<p>4) пример некорректно выделенных признаков, но верно предсказанного класса.</p>
			<fig id="F1">
				<label>Figure 1</label>
				<caption>
					<p>Примеры корректного и некорректного выделения признаков класса</p>
				</caption>
				<alt-text>Примеры корректного и некорректного выделения признаков класса</alt-text>
				<graphic ns0:href="/media/images/2026-03-04/6a523f5d-70a6-4dc5-80ff-0d644e017453.png"/>
			</fig>
			<fig id="F2">
				<label>Figure 2</label>
				<caption>
					<p>Примеры корректно выделенных признаков класса</p>
				</caption>
				<alt-text>Примеры корректно выделенных признаков класса</alt-text>
				<graphic ns0:href="/media/images/2026-03-04/3f0f81e3-3075-420d-80db-17fc5e8e2bb2.png"/>
			</fig>
			<fig id="F3">
				<label>Figure 3</label>
				<caption>
					<p>Примеры корректно и некорректно выделенных признаков</p>
				</caption>
				<alt-text>Примеры корректно и некорректно выделенных признаков</alt-text>
				<graphic ns0:href="/media/images/2026-03-04/9019c84e-8132-4d77-bd0d-728bbc435bf2.png"/>
			</fig>
			<fig id="F4">
				<label>Figure 4</label>
				<caption>
					<p>Примеры некорректно выделенных признаков</p>
				</caption>
				<alt-text>Примеры некорректно выделенных признаков</alt-text>
				<graphic ns0:href="/media/images/2026-03-04/697ddfd3-67fb-4096-83dc-28c8dd72875a.png"/>
			</fig>
			<p>3. Основные результаты</p>
			<p>Общее количество сложных изображений — 185.</p>
			<table-wrap id="T1">
				<label>Table 1</label>
				<caption>
					<p>Результаты обучения моделей с помощью триплетных функций потерь</p>
				</caption>
				<table>
					<tr>
						<td>​Функция потерь, с помощью которой обучена модель</td>
						<td>​macro F1 итоговой модели</td>
						<td>​Общее количество ошибок модели</td>
						<td>​Количество сложных изображений, на которых корректно распознаны класс и признаки объекта</td>
					</tr>
					<tr>
						<td>​Триплетная функция потерь</td>
						<td>​0,86</td>
						<td>​118</td>
						<td>50​</td>
					</tr>
					<tr>
						<td>​Фокальная триплетная функция потерь</td>
						<td>0,87</td>
						<td>​110</td>
						<td>​63</td>
					</tr>
					<tr>
						<td>​Триплетная функция потерь с гибкой границей</td>
						<td>​0,89</td>
						<td>​98</td>
						<td>​65</td>
					</tr>
				</table>
			</table-wrap>
			<p>Полученные в таблице 1 результаты показывают, что модель, обученная с помощью триплетной функции потерь с гибкой границей имеет наименьшее количество ошибок и наиболее высокую точность. Разница в общем количестве ошибок между моделями, обученными с помощью модифицированной и оригинальной триплетной функциями потерь составила 17%. При этом количество сложных изображений, на которых были корректно распознаны класс и признаки объекта, выросло на 30% относительно оригинальной триплетной функции потерь и на 3% относительно фокальной триплетной функции потерь. Доля корректно распознанных сложных изображений (как с точки зрения класса, так и с точки зрения его признаков) выросла с 27% для оригинальной триплетной функции потерь до 35% для функции потерь с гибкой границей.</p>
			<p>4. Обсуждение</p>
			<p>Полученные результаты показывают, что учет дополнительных меток класса в триплетной функции потерь с гибкой границей существенно влияет на увеличение итоговой точности и сокращение количества ошибок. При этом на выявление признаков класса оказывает наибольшоее влияние именно фокальный подсчет расстояний, введенный в фокальной триплетной функции потерь. Введение дополнительных меток в функции потерь с гибкой границей усиливает этот эффект, но незначительно. Наиболее высокую точность классификации и корректное выделение признаков класса удалось получить при обучении с помощью триплетной функции потерь с гибкой границей. Исследование опирается на Grad-CAM, поэтому приводимые выводы могут быть дополнены при использовании других методов интерпретации предсказаний сверточных нейронных сетей.</p>
			<p>5. Заключение</p>
			<p>В результате проведенного эксперимента по обучению моделей с разными модификациями триплетной функции потерь было выяснено, что на корректное выделение признаков оказывает существенное влияние фокальный подсчет расстояний. При внедрении фокального подсчета расстояний количество изображений, на которых корректно распознан класс и его признаки, увеличивается на 26% относительно оригинальной триплетной функции потерь. При этом добавление дополнительной информации о классах в триплетную функцию потерь с гибкой границей увеличивает точность итоговой модели и снижает общее количество ошибок (на 17% относительно оригинальной триплетной функции потерь), но не оказывает существенного влияния на выделение признаков с помощью Grad-CAM. Количество изображений, на которых корректно распознан класс его признаки, увеличилось на 3% в сравнении с моделью, обученной посредством фокальной триплетной функцией потерь.</p>
			<p>Дальнейшие исследования могут быть направлены на доработку триплетной функции потерь с гибкой границей с целью усиления влияния дополнительных меток на точность итоговой модели и интерпретируемость получаемых векторных представлений. Также на развитие самих методов интерпретации результатов метрических моделей, к примеру, использование преобразования изображения для выявления признаков, на которые опирается модель </p>
			<p>[12]</p>
		</sec>
		<sec sec-type="supplementary-material">
			<title>Additional File</title>
			<p>The additional file for this article can be found as follows:</p>
			<supplementary-material xmlns:xlink="http://www.w3.org/1999/xlink" id="S1" xlink:href="https://doi.org/10.5334/cpsy.78.s1">
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/24124.docx">24124.docx</inline-supplementary-material>]-->
				<!--[<inline-supplementary-material xlink:title="local_file" xlink:href="https://research-journal.org/media/articles/24124.pdf">24124.pdf</inline-supplementary-material>]-->
				<label>Online Supplementary Material</label>
				<caption>
					<p>
						Further description of analytic pipeline and patient demographic information. DOI:
						<italic>
							<uri>https://doi.org/10.60797/IRJ.2026.167.89</uri>
						</italic>
					</p>
				</caption>
			</supplementary-material>
		</sec>
	</body>
	<back>
		<ack>
			<title>Acknowledgements</title>
			<p/>
		</ack>
		<sec>
			<title>Competing Interests</title>
			<p/>
		</sec>
		<ref-list>
			<ref id="B1">
				<label>1</label>
				<mixed-citation publication-type="confproc">Moayeri M.. A comprehensive study of image classification model sensitivity to foregrounds, backgrounds, and visual attributes / M. Moayeri, P. Pope, Y. Balaji, S. Feizi // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition; — New Orleans: IEEE, 2022. — с. 19087–19097. [in English]</mixed-citation>
			</ref>
			<ref id="B2">
				<label>2</label>
				<mixed-citation publication-type="confproc">Xiao K. Noise or signal: The role of image backgrounds in object recognition / K. Xiao, L. Engstrom, A. Ilyas, A. Madry // arXiv preprint arXiv:2006.09994. — 2020 — URL: https://arxiv.org/abs/2006.09994 (дата обращения: 04.03.2026) DOI: 10.48550/arXiv.2006.09994. [in English]</mixed-citation>
			</ref>
			<ref id="B3">
				<label>3</label>
				<mixed-citation publication-type="confproc">Петрова Я.С. Методика обучения классификаторов изображений с использованием дополнительных меток / Я.С. Петрова // Моделирование, оптимизация и информационные технологии. — 2025. — 13 (2). — с. 1–13. DOI: 10.26102/2310-6018/2025.49.2.041.</mixed-citation>
			</ref>
			<ref id="B4">
				<label>4</label>
				<mixed-citation publication-type="confproc">Ayyar M.P. More to Attention: Statistical Filtering Enhances Explanations in Vision Transformers / M.P. Ayyar, J. Benois-Pineau, A. Zemmari // arXiv preprint arXiv:2510.06070. — 2025 — URL: https://arxiv.org/abs/2510.06070 (дата обращения: 04.03.2026) DOI: 10.48550/arXiv.2510.06070. [in English]</mixed-citation>
			</ref>
			<ref id="B5">
				<label>5</label>
				<mixed-citation publication-type="confproc">Chattopadhay A.. Grad-cam++: Generalized gradient-based visual explanations for deep convolutional networks / A. Chattopadhay, A. Sarkar, P. Howlader, V. Balasubramanian // 2018 IEEE winter conference on applications of computer vision (WACV); — New Orleans: IEEE, 2018. — с. 839–847. [in English]</mixed-citation>
			</ref>
			<ref id="B6">
				<label>6</label>
				<mixed-citation publication-type="confproc">Ntrougkas M.V.. T-TAME: trainable attention mechanism for explaining convolutional networks and vision transformers / M.V. Ntrougkas, N. Gkalelis, V. Mezaris // IEEE Access; — Вып. 12. — New Orleans: IEEE, 2024. — с. 76880–76900. [in English]</mixed-citation>
			</ref>
			<ref id="B7">
				<label>7</label>
				<mixed-citation publication-type="confproc">Chen L.. Adapting grad-cam for embedding networks / L. Chen, J. Chen, H. Hajimirsadeghi, G. Mori // Proceedings of the IEEE/CVF winter conference on applications of computer vision; — New Orleans: IEEE, 2020. — с. 2794–2803. [in English]</mixed-citation>
			</ref>
			<ref id="B8">
				<label>8</label>
				<mixed-citation publication-type="confproc">Zhu S.. Visual explanation for deep metric learning / S. Zhu, T. Yang, C. Chen // IEEE Transactions on Image Processing; — Вып. 30. — New Orleans: IEEE, 2021. — с. 7593–7607. [in English]</mixed-citation>
			</ref>
			<ref id="B9">
				<label>9</label>
				<mixed-citation publication-type="confproc">Loke J. Human Visual Cortex and Deep Convolutional Neural Network Care Deeply about Object Background / J. Loke, N. Seijdel, L. Snoek, L.K.A. Sörensen, R. van de Klundert, M. van der Meer, E. Quispel, N. Cappaert, H.S. Scholte // Journal of Cognitive Neuroscience. — 2024. — 36(3). — с. 551–566. [in English]</mixed-citation>
			</ref>
			<ref id="B10">
				<label>10</label>
				<mixed-citation publication-type="confproc">Zhang S. Person Re-Identification With Triplet Focal Loss / S. Zhang, Q. Zhang, X. Wei, Y. Zhang, Y. Xia // IEEE Access. — 2018. — 6. — с. 78092–78099. [in English]</mixed-citation>
			</ref>
			<ref id="B11">
				<label>11</label>
				<mixed-citation publication-type="confproc">SKUCLASSIFICATION Dataset // Roboflow Universe. — 2024 — URL: https://universe.roboflow.com/siva-4or6j/skuclassification (дата обращения: 04.03.2026) [in English]</mixed-citation>
			</ref>
			<ref id="B12">
				<label>12</label>
				<mixed-citation publication-type="confproc">Erukude S.T. Identifying bias in deep neural networks using image transforms / S.T. Erukude, A. Joshi, L. Shamir // Computers. — 2024. — 13(12). — с. 341. [in English]</mixed-citation>
			</ref>
		</ref-list>
	</back>
	<fundings/>
</article>