HTML-content

2303-9868

2227-6017

Международный научно-исследовательский журнал

2303-9868

ООО Цифра

10.60797/IRJ.2026.167.89

Brief communication

Анализ влияния модификаций триплетной функции потерь на выявление признаков класса

https://orcid.org/0009-0005-4377-7981

https://elibrary.ru/author_profile.asp?id=1159246

Вольнова

Яна Сергеевна

ypetrova@bmstu.ru 2 Сущинский

Антон Павлович

anton@sns.ru 1

1 Группа Компаний «СНС»

https://ror.org/00pb8h375

Московский государственный технический университет имени Н. Э. Баумана

18 05 2026

2026

6 167 1 6 04 03 2026 30 03 2026

2022

This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See http://creativecommons.org/licenses/by/4.0/ .

Сверточные нейронные сети имеют склонность считать признаком класса фон, на котором обычно находятся его объекты, что является нежелательным поведением. Статья посвящена анализу различий сверточных нейронных сетей, которые обучены с помощью разных модицификаций триплетной функции потерь, с точки зрения выделяемых признаков классов. Для сравнения использованы оригинальная, фокальная и триплетная функция потерь с гибкой границей, в которой используются дополнительные метки. Различия в выделяемых признаках классов были проанализированы с помощью Grad-CAM, адаптированного для векторных представлений. Для экспериментов использовался датасет продуктов. Результаты показали, что наиболее корректно признаки объектов выделяет модель, обученная с помощью триплетной функции потерь с гибкой границей. Наибольший вклад в выделение корректных признаков вносит фокальный расчет расстояний. При внедрении фокального подсчета расстояний количество изображений, на которых корректно распознаны класс и признаки объекта, увеличивается на 26% относительно оригинальной триплетной функции потерь.

триплетная функция потерь Grad-CAM признаки классификация векторное представление метрическое обучение объяснимость

HTML-content

1. Введение

В связи с расширением вариантов и сфер применения нейронных сетей возрастает потребность в повышении доверия к их решениям. Доверие тесно связано с возможностью объяснения полученного результата. В компьютерном зрении для интерпретации результата нейронных сетей используются тепловые карты. На них выделяются фрагменты изображения, содержащие признаки, которые внесли наибольший вклад в итоговое предсказание. Сопоставив такие фрагменты с полученным результатом, можно приблизиться к пониманию, с чем связаны ошибки модели и какие признаки она выявляет как свойственные классу, то есть влияющие на решение о классификации объекта. К примеру, авторы статей

[1][2]

В исследовании

[3]

2. Методы и принципы исследования

Для выявления областей изображения, где были обнаружены признаки искомого класса, используются различные методы. Для трансформеров зрения — это методы, основанные на анализе результатов работы механизма внимания

[4][5][6]

Обычно интерпретация результатов классификации предполагает оценку влияния обнаруженных признаков на уверенность модели в принадлежности объекта классу. Чем больше значение, тем больше уверенность. Поэтому, чтобы понять, что повлияло на отнесение объекта к выбранному классу, достаточно разобраться, какие признаки во входных данных увеличивают значение уверенности. Такой подход возможен для моделей, обученных с помощью кросс-энтропии. Однако при использовании метрического обучения задача усложняется. Модель предсказывает не уверенность, а векторное представление (англ. embedding) для каждого объекта, соответственно необходимо адаптировать методы интерпретации результатов. Для Grad-CAM доработки предполагают вычисление косинусного сходства между векторным представлением текущего изображения объекта и некоторым эталонным или усредненным векторным представлением объектов исследуемого класса

[7][8]

В данной статье для визуализации областей изображения, на которых были обнаружены свойственные классу признаки, используются идеи из вышеуказанных подходов.

1) для каждого класса подсчитывается эталонное векторное представление как арифметическое среднее представлений всех экземпляров этого класса в обучающем датасете;

2) для тестового изображения вычисляется косинусное сходство между его векторным представлением и эталонным векторным представлением его истинного класса;

3) для интерпретации полученного значения используется Grad-CAM, получающий в качестве входных данных выходы последнего сверточного слоя модели и значение косинусного сходства;

4) результаты Grad-CAM используются для затемнения областей, которые не увеличивают косинусное сходство между векторами тестового изображения и эталона.

[9]

Модель была обучена с помощью оригинальной триплетной функции потерь, фокальной

[10][3]

Для обучения использован датасет SKU CLASSIFICATION

[11]

Далее для каждого изображения была проведена визуальная оценка областей, которые не были затемнены, а значит, с точки зрения модели, содержат признаки, важные для предсказания истинного класса. Для каждой пары «сложное изображение — модель» было отмечено:

1) соответствует ли истинному предсказанный моделью класс;

2) соответствует ли незатемненная область изображения реальному местоположению объекта целевого класса.

В случае, если для пары выполнялись оба условия, принималось, что модель корректно выявила признаки объекта целевого класса на изображении. На рисунке 1 приведены слева направо:

1) оригинальное изображение,

2) пример корректно выделенных признаков и верно предсказанного класса,

3) пример корректно выделенных признаков и неверно предсказанного класса,

4) пример некорректно выделенных признаков, но верно предсказанного класса.

Figure 1

Примеры корректного и некорректного выделения признаков класса

Figure 2

Примеры корректно выделенных признаков класса

Figure 3

Примеры корректно и некорректно выделенных признаков

Figure 4

Примеры некорректно выделенных признаков

3. Основные результаты

Общее количество сложных изображений — 185.

Table 1

Результаты обучения моделей с помощью триплетных функций потерь

Функция потерь, с помощью которой обучена модель	macro F1 итоговой модели	Общее количество ошибок модели	Количество сложных изображений, на которых корректно распознаны класс и признаки объекта
Триплетная функция потерь	0,86	118	50
Фокальная триплетная функция потерь	0,87	110	63
Триплетная функция потерь с гибкой границей	0,89	98	65

Полученные в таблице 1 результаты показывают, что модель, обученная с помощью триплетной функции потерь с гибкой границей имеет наименьшее количество ошибок и наиболее высокую точность. Разница в общем количестве ошибок между моделями, обученными с помощью модифицированной и оригинальной триплетной функциями потерь составила 17%. При этом количество сложных изображений, на которых были корректно распознаны класс и признаки объекта, выросло на 30% относительно оригинальной триплетной функции потерь и на 3% относительно фокальной триплетной функции потерь. Доля корректно распознанных сложных изображений (как с точки зрения класса, так и с точки зрения его признаков) выросла с 27% для оригинальной триплетной функции потерь до 35% для функции потерь с гибкой границей.

4. Обсуждение

Полученные результаты показывают, что учет дополнительных меток класса в триплетной функции потерь с гибкой границей существенно влияет на увеличение итоговой точности и сокращение количества ошибок. При этом на выявление признаков класса оказывает наибольшоее влияние именно фокальный подсчет расстояний, введенный в фокальной триплетной функции потерь. Введение дополнительных меток в функции потерь с гибкой границей усиливает этот эффект, но незначительно. Наиболее высокую точность классификации и корректное выделение признаков класса удалось получить при обучении с помощью триплетной функции потерь с гибкой границей. Исследование опирается на Grad-CAM, поэтому приводимые выводы могут быть дополнены при использовании других методов интерпретации предсказаний сверточных нейронных сетей.

5. Заключение

В результате проведенного эксперимента по обучению моделей с разными модификациями триплетной функции потерь было выяснено, что на корректное выделение признаков оказывает существенное влияние фокальный подсчет расстояний. При внедрении фокального подсчета расстояний количество изображений, на которых корректно распознан класс и его признаки, увеличивается на 26% относительно оригинальной триплетной функции потерь. При этом добавление дополнительной информации о классах в триплетную функцию потерь с гибкой границей увеличивает точность итоговой модели и снижает общее количество ошибок (на 17% относительно оригинальной триплетной функции потерь), но не оказывает существенного влияния на выделение признаков с помощью Grad-CAM. Количество изображений, на которых корректно распознан класс его признаки, увеличилось на 3% в сравнении с моделью, обученной посредством фокальной триплетной функцией потерь.

Дальнейшие исследования могут быть направлены на доработку триплетной функции потерь с гибкой границей с целью усиления влияния дополнительных меток на точность итоговой модели и интерпретируемость получаемых векторных представлений. Также на развитие самих методов интерпретации результатов метрических моделей, к примеру, использование преобразования изображения для выявления признаков, на которые опирается модель

[12]

Additional File

The additional file for this article can be found as follows:

Online Supplementary Material

Further description of analytic pipeline and patient demographic information. DOI: https://doi.org/10.60797/IRJ.2026.167.89

Acknowledgements

Competing Interests

1 Moayeri M.. A comprehensive study of image classification model sensitivity to foregrounds, backgrounds, and visual attributes / M. Moayeri, P. Pope, Y. Balaji, S. Feizi // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition; — New Orleans: IEEE, 2022. — с. 19087–19097. [in English] 2 Xiao K. Noise or signal: The role of image backgrounds in object recognition / K. Xiao, L. Engstrom, A. Ilyas, A. Madry // arXiv preprint arXiv:2006.09994. — 2020 — URL: https://arxiv.org/abs/2006.09994 (дата обращения: 04.03.2026) DOI: 10.48550/arXiv.2006.09994. [in English] 3 Петрова Я.С. Методика обучения классификаторов изображений с использованием дополнительных меток / Я.С. Петрова // Моделирование, оптимизация и информационные технологии. — 2025. — 13 (2). — с. 1–13. DOI: 10.26102/2310-6018/2025.49.2.041. 4 Ayyar M.P. More to Attention: Statistical Filtering Enhances Explanations in Vision Transformers / M.P. Ayyar, J. Benois-Pineau, A. Zemmari // arXiv preprint arXiv:2510.06070. — 2025 — URL: https://arxiv.org/abs/2510.06070 (дата обращения: 04.03.2026) DOI: 10.48550/arXiv.2510.06070. [in English] 5 Chattopadhay A.. Grad-cam++: Generalized gradient-based visual explanations for deep convolutional networks / A. Chattopadhay, A. Sarkar, P. Howlader, V. Balasubramanian // 2018 IEEE winter conference on applications of computer vision (WACV); — New Orleans: IEEE, 2018. — с. 839–847. [in English] 6 Ntrougkas M.V.. T-TAME: trainable attention mechanism for explaining convolutional networks and vision transformers / M.V. Ntrougkas, N. Gkalelis, V. Mezaris // IEEE Access; — Вып. 12. — New Orleans: IEEE, 2024. — с. 76880–76900. [in English] 7 Chen L.. Adapting grad-cam for embedding networks / L. Chen, J. Chen, H. Hajimirsadeghi, G. Mori // Proceedings of the IEEE/CVF winter conference on applications of computer vision; — New Orleans: IEEE, 2020. — с. 2794–2803. [in English] 8 Zhu S.. Visual explanation for deep metric learning / S. Zhu, T. Yang, C. Chen // IEEE Transactions on Image Processing; — Вып. 30. — New Orleans: IEEE, 2021. — с. 7593–7607. [in English] 9 Loke J. Human Visual Cortex and Deep Convolutional Neural Network Care Deeply about Object Background / J. Loke, N. Seijdel, L. Snoek, L.K.A. Sörensen, R. van de Klundert, M. van der Meer, E. Quispel, N. Cappaert, H.S. Scholte // Journal of Cognitive Neuroscience. — 2024. — 36(3). — с. 551–566. [in English] 10 Zhang S. Person Re-Identification With Triplet Focal Loss / S. Zhang, Q. Zhang, X. Wei, Y. Zhang, Y. Xia // IEEE Access. — 2018. — 6. — с. 78092–78099. [in English] 11 SKUCLASSIFICATION Dataset // Roboflow Universe. — 2024 — URL: https://universe.roboflow.com/siva-4or6j/skuclassification (дата обращения: 04.03.2026) [in English] 12 Erukude S.T. Identifying bias in deep neural networks using image transforms / S.T. Erukude, A. Joshi, L. Shamir // Computers. — 2024. — 13(12). — с. 341. [in English]