Analysis of the influence of triplet loss function modifications on the class features detection

Research article
  • Вольнова Яна Сергеевна0009-0005-4377-7981Московский государственный технический университет имени Н. Э. Баумана, Москва, Российская Федерация
  • Сущинский Антон ПавловичГруппа Компаний «СНС», Москва, Российская Федерация
https://doi.org/10.60797/IRJ.2026.167.89
DOI:
https://doi.org/10.60797/IRJ.2026.167.89
EDN:
NOQTWI
Suggested:
04.03.2026
Accepted:
30.03.2026
Published:
18.05.2026
Issue: № 5 (167), 2026
Issue: № 5 (167), 2026
Rightholder: authors. License: Attribution 4.0 International (CC BY 4.0)
41
1
XML
PDF

Abstract

Convolutional neural networks tend to treat the class background — on which its objects are typically located — as a class feature, which is undesirable behaviour. The article analyses the differences between convolutional neural networks trained using various modifications of the triplet loss function, in terms of the class features they extract. For comparison, the original, focal and triplet loss functions with a flexible boundary, in which additional labels are used, were applied. Differences in the class features extracted were analysed using Grad-CAM, adapted for vector representations. A product dataset was used for the experiments. The results showed that the model trained using the triplet loss function with a flexible boundary identifies object features most accurately. Focal distance calculation makes the greatest contribution to the extraction of correct features. When focal distance calculation is implemented, the number of images in which the class and object features are correctly recognised increases by 26% compared to the original triplet loss function.

1. Введение

В связи с расширением вариантов и сфер применения нейронных сетей возрастает потребность в повышении доверия к их решениям. Доверие тесно связано с возможностью объяснения полученного результата. В компьютерном зрении для интерпретации результата нейронных сетей используются тепловые карты. На них выделяются фрагменты изображения, содержащие признаки, которые внесли наибольший вклад в итоговое предсказание. Сопоставив такие фрагменты с полученным результатом, можно приблизиться к пониманию, с чем связаны ошибки модели и какие признаки она выявляет как свойственные классу, то есть влияющие на решение о классификации объекта. К примеру, авторы статей

,
показали, что для сверточных нейронных сетей признаки фона могут превалировать над признаками основного объекта. Такие нейронные сети могут показывать высокую точность при обучении, но обладать низкой обобщающей способностью и в связи с этим плохо адаптироваться к изменяющимся реальным условиям, совершать грубые ошибки.

В исследовании

предлагается метод обучения с использованием модифицированной триплетной функции потерь с гибкой границей, который снижает количество грубых ошибок классификации за счет использования дополнительной информации о классах. Данные о классах в виде дополнительных меток используются для коррекции получаемых векторных представлений и должны влиять на то, какие признаки считаются важными. Такой подход может привлечь внимание модели к первичным признакам объекта, а не вторичным, таким как фон. Цель статьи — выявить, какая триплетная функция потерь позволяет получить модель, которая имеет более высокую точность и корректно выделяет признаки класса. Корректными признаками класса считаются первичные признаки принадлежащих ему объектов. Для достижения поставленной цели необходимо провести экспериментальный анализ различных модификаций триплетной функции потерь. Чтобы выяснить, какие признаки модели используют для предсказания, применяется метод интерпретации результатов на основе Grad-CAM.

2. Методы и принципы исследования

Для выявления областей изображения, где были обнаружены признаки искомого класса, используются различные методы. Для трансформеров зрения — это методы, основанные на анализе результатов работы механизма внимания

. Для сверточных нейронных сетей — это методы, анализирующие зависимость значений градиентов сверточных слоев от предсказания модели, такие как Grad-CAM и его разновидности
. Также существуют способы интерпретации, не зависящие от архитектуры — это отдельные обучаемые компоненты, встраиваемые в сеть, например T-TAME
. Их недостаток состоит в необходимости подбора параметров для конкретной нейросети в процессе обучения, что ограничивает возможности их применения. В данной статье рассматриваются сверточные нейронные сети, поэтому используется вариация Grad-CAM.

Обычно интерпретация результатов классификации предполагает оценку влияния обнаруженных признаков на уверенность модели в принадлежности объекта классу. Чем больше значение, тем больше уверенность. Поэтому, чтобы понять, что повлияло на отнесение объекта к выбранному классу, достаточно разобраться, какие признаки во входных данных увеличивают значение уверенности. Такой подход возможен для моделей, обученных с помощью кросс-энтропии. Однако при использовании метрического обучения задача усложняется. Модель предсказывает не уверенность, а векторное представление (англ. embedding) для каждого объекта, соответственно необходимо адаптировать методы интерпретации результатов. Для Grad-CAM доработки предполагают вычисление косинусного сходства между векторным представлением текущего изображения объекта и некоторым эталонным или усредненным векторным представлением объектов исследуемого класса

,
. Чем выше метрика косинусного сходства между этими векторными представлениями, тем больше уверенность, что объект принадлежит классу. Соответственно для интерпретации результата достаточно обнаружить, какие признаки входных данных увеличивают косинусное сходство.

В данной статье для визуализации областей изображения, на которых были обнаружены свойственные классу признаки, используются идеи из вышеуказанных подходов. Алгоритм:

1) для каждого класса подсчитывается эталонное векторное представление как арифметическое среднее представлений всех экземпляров этого класса в обучающем датасете;

2) для тестового изображения вычисляется косинусное сходство между его векторным представлением и эталонным векторным представлением его истинного класса;

3) для интерпретации полученного значения используется Grad-CAM, получающий в качестве входных данных выходы последнего сверточного слоя модели и значение косинусного сходства;

4) результаты Grad-CAM используются для затемнения областей, которые не увеличивают косинусное сходство между векторами тестового изображения и эталона.

Для экспериментов использовалась простая сверточная сеть с размером входа 128х128 пикселей, состоящая из 5 сверточных блоков (64, 64, 128, 256, 512 фильтров соответственно) и двух полносвязных слоев (256 и 128 нейронов соответственно). К последнему слою применена L2-нормализация для ограничения длины получаемых векторных представлений. Для предотвращения переобучения использовалась регуляризация Тихонова. Использование относительно неглубокой архитектуры поощряет модель использовать фон и прочие нерелевантные признаки для распознавания класса, так как авторы статьи

показали, что первые слои сверточных нейронных сетей в основном выявляют именно признаки фона. Классификация полученных векторных представлений производилась с помощью k ближайших соседей.

Модель была обучена с помощью оригинальной триплетной функции потерь, фокальной

и функции с гибкой границей
. Фокальная функция потерь выбрана как промежуточная, так как функция потерь с гибкой границей так же использует фокальный подсчет расстояний. Такой подход позволяет изолированно определить влияние использования дополнительной информации о классах и изменения в подсчете расстояний. Во всех случаях использовалась стратегия подбора полу-сложных триплетов.

Для обучения использован датасет SKU CLASSIFICATION

, так как он содержит дополнительные данные о классах, качественные разнообразные изображения, и для его визуального анализа достаточно обыденного знания.

Оценка результатов производилась по изображениям, на которых хотя бы одна из трех обученных моделей ошиблась. Такие изображения были приняты сложными. К сложным изображениям был применен вышеописанный алгоритм, использующий Grad-CAM. Его целью было получить карту областей изображения, на которых были обнаружены признаки, приближающие векторное представление к эталонному для истинного класса. Вне зависимости от того, к какому классу изображение было отнесено в итоге. В результате для всех изображений с ошибками были получены их версии с затемненными областями для каждой из моделей.

Далее для каждого изображения была проведена визуальная оценка областей, которые не были затемнены, а значит, с точки зрения модели, содержат признаки, важные для предсказания истинного класса. Для каждой пары «сложное изображение — модель» было отмечено:

1) соответствует ли истинному предсказанный моделью класс;

2) соответствует ли незатемненная область изображения реальному местоположению объекта целевого класса.

В случае, если для пары выполнялись оба условия, принималось, что модель корректно выявила признаки объекта целевого класса на изображении. На рисунке 1 приведены слева направо:

1) оригинальное изображение,

2) пример корректно выделенных признаков и верно предсказанного класса,

3) пример корректно выделенных признаков и неверно предсказанного класса,

4) пример некорректно выделенных признаков, но верно предсказанного класса.

Примеры корректного и некорректного выделения признаков класса

Рисунок 1 - Примеры корректного и некорректного выделения признаков класса

На рисунке 2 приведены оригинальное изображение и три примера корректного выделения признаков класса.
Примеры корректно выделенных признаков класса

Рисунок 2 - Примеры корректно выделенных признаков класса

На рисунке 3 приведены оригинальное изображение, пример корректного выделения признаков и двух некорректных.
Примеры корректно и некорректно выделенных признаков

Рисунок 3 - Примеры корректно и некорректно выделенных признаков

На рисунке 4 приведен пример, когда все модели некорректно выделили признаки класса.
Примеры некорректно выделенных признаков

Рисунок 4 - Примеры некорректно выделенных признаков

3. Основные результаты

Общее количество сложных изображений — 185.

Таблица 1 - Результаты обучения моделей с помощью триплетных функций потерь

​Функция потерь, с помощью которой обучена модель

​macro F1 итоговой модели

​Общее количество ошибок модели

​Количество сложных изображений, на которых корректно распознаны класс и признаки объекта

​Триплетная функция потерь

​0,86

​118

50​

​Фокальная триплетная функция потерь

0,87

​110

​63

​Триплетная функция потерь с гибкой границей

​0,89

​98

​65

Полученные в таблице 1 результаты показывают, что модель, обученная с помощью триплетной функции потерь с гибкой границей имеет наименьшее количество ошибок и наиболее высокую точность. Разница в общем количестве ошибок между моделями, обученными с помощью модифицированной и оригинальной триплетной функциями потерь составила 17%. При этом количество сложных изображений, на которых были корректно распознаны класс и признаки объекта, выросло на 30% относительно оригинальной триплетной функции потерь и на 3% относительно фокальной триплетной функции потерь. Доля корректно распознанных сложных изображений (как с точки зрения класса, так и с точки зрения его признаков) выросла с 27% для оригинальной триплетной функции потерь до 35% для функции потерь с гибкой границей.

4. Обсуждение

Полученные результаты показывают, что учет дополнительных меток класса в триплетной функции потерь с гибкой границей существенно влияет на увеличение итоговой точности и сокращение количества ошибок. При этом на выявление признаков класса оказывает наибольшоее влияние именно фокальный подсчет расстояний, введенный в фокальной триплетной функции потерь. Введение дополнительных меток в функции потерь с гибкой границей усиливает этот эффект, но незначительно. Наиболее высокую точность классификации и корректное выделение признаков класса удалось получить при обучении с помощью триплетной функции потерь с гибкой границей. Исследование опирается на Grad-CAM, поэтому приводимые выводы могут быть дополнены при использовании других методов интерпретации предсказаний сверточных нейронных сетей.

5. Заключение

В результате проведенного эксперимента по обучению моделей с разными модификациями триплетной функции потерь было выяснено, что на корректное выделение признаков оказывает существенное влияние фокальный подсчет расстояний. При внедрении фокального подсчета расстояний количество изображений, на которых корректно распознан класс и его признаки, увеличивается на 26% относительно оригинальной триплетной функции потерь. При этом добавление дополнительной информации о классах в триплетную функцию потерь с гибкой границей увеличивает точность итоговой модели и снижает общее количество ошибок (на 17% относительно оригинальной триплетной функции потерь), но не оказывает существенного влияния на выделение признаков с помощью Grad-CAM. Количество изображений, на которых корректно распознан класс его признаки, увеличилось на 3% в сравнении с моделью, обученной посредством фокальной триплетной функцией потерь.

Дальнейшие исследования могут быть направлены на доработку триплетной функции потерь с гибкой границей с целью усиления влияния дополнительных меток на точность итоговой модели и интерпретируемость получаемых векторных представлений. Также на развитие самих методов интерпретации результатов метрических моделей, к примеру, использование преобразования изображения для выявления признаков, на которые опирается модель

.

Article metrics

Views:41
Downloads:1
Views
Total:
Views:41