A SET OF OBJECTIVE QUALITY METRICS ORIENTED TO THE SPECIFICS OF HUMAN PERCEPTION OF THE VIDEO SIGNAL
A SET OF OBJECTIVE QUALITY METRICS ORIENTED TO THE SPECIFICS OF HUMAN PERCEPTION OF THE VIDEO SIGNAL
Abstract
Video file quality evaluation is a rather complex and complex task due to the large number of existing metrics and the presence of a number of video file parameters that are responsible for its quality. The necessity to verify the obtained results on the basis of subjective quality assessment of the same file adds additional complexity to the evaluation of video file quality using metrics.
In the course of this work, a set of metrics focused on video file parameters corresponding to the features of human vision was considered. Experimental comparison of the considered set of metrics including several stages of objective and subjective evaluation has been carried out. As a result of comparison, the resulting set of metrics for complex evaluation of a video file corresponding to subjective perception was determined.
1. Введение
Качество видео является важной характеристикой обработанного или передаваемого видеоконтента, которая позволяет оценить ухудшение его параметров по сравнению с эталонным видео. Оценку качества итогового видео можно провести с помощью двух видов метрик: объективной и субъективной .
Объективная метрика оценки качества является математической моделью, основанной на согласованных рекомендациях , которые описывают диапазон единиц измерения, определяющих уровень качества видео. В настоящее время разработано большое количество объективных метрик, которые являются алгоритмическими и позволяют оценивать определённые параметры видеофайлов , .
Субъективная оценка качества отражает восприятие видео человеком (зрителем) и основана на наборе субъективных параметров. В отличие от объективной метрики данный тип оценки зависим от наблюдателя (пол, возраст, профессия и т.д.) и от условий проведения (расстояние от монитора, ракурс и т.д.). Обозначенные условия проведения также описываются рекомендациями . Кроме этого, субъективная оценка является достаточно затратной с невозможностью повторения результата эксперимента и отсутствием количественной оценки , .
Примеры сравнения объективных метрик оценки качества видео с субъективной оценкой рассматривается в статьях разных авторов , , , авторы статей выполняют данное сравнение выбирая разный набор объективных метрик, не всегда обосновывая принцип выбора. Исходя из этого, задачей данной статьи является выбор и обоснование набора метрик оценки качества видео, работа которых основана на параметрах, приближенных к субъективному восприятию видео человеком – зрителем.
2. Постановка задачи
Зрение человека является комплексной оптической системой, в рамках которой происходит преобразование электромагнитного излучения светового диапазона в изображение. Первичная обработка сигнала происходит при помощи фоторецепторов (колбочек и палочек). Далее сигнал, преобразованный в нервный импульс, поступает к затылочной зоне головного мозга, где и формируется итоговое изображение. Благодаря высокой скорости обработки информации человеком (10 миллионов бит в секунду), «кадры» входного сигнала сливаются в мозгу в один непрерывный поток. При просмотре видео зрительная система человека фиксирует определенный набор параметров (яркость, контраст, цветность), соотношение данных параметров позволяет наблюдателю сформировать субъективное представление о качестве передаваемого видео .
При выборе объективных метрик для оценки качества следует учитывать следующие важные свойства человеческого зрения:
Чувствительность к изменению яркости изображения. Зрение человека способно адаптироваться к широкому диапазону яркостей, и в каждом диапазоне глаз человек способен различать определенные уровни этого параметра. Причем разрешающая способность зависит не от разности уровней яркости, а от отношения этой разности к среднему значению яркости, т. е. от контраста.
Частотная чувствительность человеческого зрения проявляется в том, что человек гораздо более восприимчив к низкочастотному, чем к высокочастотному шуму. Это связано с неравномерностью амплитудно-частотной характеристики системы зрения человека.
Особенностью цветового восприятия человека является то, что некоторые цвета могут сосуществовать в его восприятии (например, красноватый желтый ощущается как оранжевый), а другие – не могут (противоположные цвета).
Эффект маскирования в пространственной области заключается в увеличении порога обнаружения видеосигнала в присутствии другого сигнала, обладающего аналогичными характеристиками. Поэтому аддитивный шум гораздо заметнее на гладких участках изображения, чем на высокочастотных, то есть в последнем случае наблюдается маскирование. Наиболее сильно эффект маскирования проявляется, когда оба сигнала имеют одинаковую ориентацию и местоположение .
На основании вышесказанного можно сделать вывод, что для выбора метрик объективной оценки качества видео, соответствующих субъективному, визуальному восприятию человека, необходимо ориентироваться прежде всего на такие параметры как яркость, контраст, цветность, зашумленность.
Видеофайл представляет собой набор связанных кадров. Последовательное воспроизведение кадров происходит достаточно быстро с определенной частотой (30-60 кадров в секунду). В соответствии с принципом работы метрик, при оценке качества, анализ происходит не по целостному видеофайлу, а по каждому кадру в отдельности.
На сегодняшний день существует большое количество метрик объективной оценки качества видеофайла. Каждая из существующих метрик имеет свои параметры алгоритм и числовой диапазон оценивания , .
В результате первичного сравнения наиболее популярных метрик, описанного в статье из 22 рассмотренных метрик объективной оценки качества, были отобраны следующие:
SSIM – метрика, которая оценивает качество изображения по яркости, контраст и структуре. Выходные данной метрики находятся в диапазоне значений от 0 (наихудший результат) до 1 (наилучший результат) .
MSAD – метрика, которая оценивает цветовые компоненты в точках изображений. Выходные данные метрики находятся в диапазоне значений от 0 (наилучший результат) до 255 (наихудший результат) .
NQI – метрика, которая оценивает качество изображения по потере корреляции, искажении яркости и контрастности. Выходные данные метрики находятся в диапазоне значений от 0 (наихудший результат) до 1 (наилучший результат) .
MSE – метрика, которая оценивает среднеквадратичную ошибку. Выходные данные метрики находятся в диапазоне значений от 0 (наилучший результат) до 65025 (наихудший результат). Данная метрика является частью метрики PSNR .
VMAF – данная метрика является совокупностью набора метрик, которые оценивают точность кадровой информации, искажения и изменение движения кадра. Выходные данные метрики находятся в диапазоне значений от 0 (наихудший результат) до 100 (наилучший результат) .
DISTS – самая новая метрика, которая реализована при помощи сверточных нейронных сетей и сравнивает карты текстур и структур эталонного искаженного видео. Выходные данные метрики находятся в диапазоне значений от 0 (наилучший результат) до 1 (наихудший результат). Метрика, по утверждению разработчиков, является самой коррелируемой с человеческим восприятием и устраняет недостаток метрики LPIPS .
PSNR – Пиковое отношение сигнал/шум. PSNR определяет уровень искажений при сжатии и включает подсчет среднеквадратичной ошибки (MSE). Диапазон принимаемых значений от 0 до 100 .
Каждая из отобранных метрик относится к определенной классификационной группе и позволяет оценить один или несколько параметров качества видеофайла. Общий набор из девяти метрик позволяет провести комплексную оценку качества по целому ряду параметров, указанных выше. Однако, при выборе указанных метрик, перед авторами статьи не стояла задача отбора метрик, ориентированных на субъективное восприятие человека.
3. Основные результаты
Для дальнейшей работы с группой из девяти метрик был подготовлен набор из пяти видео, снятых на телефон Google Pixel 2XL, с разрешением 1920x1080 и частотой кадров 60 кадров/c. Общее количество рассмотренных кадров для одного видео составляет 500 ед. Параметры рассматриваемых видео представлены в таблице 1. Для последующего сравнения с эталонными видео, провелось искажение представленных параметров и формирование набора искаженных видео.
Таблица 1 - Параметры исследуемых видео
| Видео 1 | Видео 2 | Видео 3 | Видео 4 | Видео 5 |
Размер (мб) | 40,7 | 41,3 | 41,2 | 40,3 | 43,1 |
Продолжительность (секунды) | 10 | 10 | 10 | 10 | 10 |
Разрешение (пиксели) | 1920 x1080 | 1920 x1080 | 1920 x1080 | 1920 x1080 | 1920 x1080 |
Битрейт (кбит в сек) | 34058 | 34576 | 34509 | 33775 | 32830 |
Частота (кадров/c) | 60,03 | 60,03 | 60,03 | 60,03 | 60,00 |
Далее была проведена оценка видео с использованием метрик SSIM, MSAD, NQI, MSE, VMAF, PSNR. Результаты оценки, на примере видео 2, представлены в таблице 2.
Таблица 2 - Результат оценки качества
Изменение параметра (ед.) | SSIM (яркость) | MSAD (цветность) | NQI (контраст) | MSE (ошибка) | PSNR (потеря качества) | VMAF (шум) |
оригинал | 1 | 0 | 1 | 0 | 99,99 | 98,499 |
Оценка изменения параметра яркости | ||||||
-50 | 0,89003 | 11,16 | 0,54832 | 341,67 | 22,795 | 100 |
-25 | 0,95233 | 6,8785 | 0,64377 | 123,65 | 27,209 | 100 |
25 | 0,94733 | 8,1033 | 0,68905 | 166 | 25,93 | 69,291 |
50 | 0,88171 | 14,055 | 0,63331 | 509,26 | 21,061 | 51,629 |
Оценка изменения параметра контраста | ||||||
-50 | 0,94202 | 7,1115 | 0,63614 | 131,79 | 26,932 | 100 |
-25 | 0,97652 | 3,5948 | 0,69404 | 32,559 | 33,004 | 100 |
25 | 0,97194 | 3,6873 | 0,70454 | 33,54 | 32,875 | 64,51 |
50 | 0,92687 | 6,427 | 0,63244 | 100,46 | 28,112 | 44,872 |
Оценка изменения параметра цветности | ||||||
-50 | 0,92831 | 8,2649 | 0,34011 | 120,55 | 27,319 | 44,177 |
-25 | 0,92924 | 6,6983 | 0,5603 | 100,55 | 28,108 | 44,637 |
25 | 0,92395 | 7,6182 | 0,57012 | 111,24 | 27,669 | 44,928 |
50 | 0,92108 | 8,4969 | 0,52133 | 124,71 | 27,172 | 44,644 |
Оценка влияния шумов | ||||||
25 | 0,97982 | 0,8255 | 0,72217 | 1,7767 | 45,64 | 94,48 |
50 | 0,94729 | 1,1431 | 0,6691 | 3,7411 | 42,404 | 92,466 |
75 | 0,90142 | 1,4871 | 0,62933 | 7,0204 | 39,669 | 89,677 |
100 | 0,85167 | 1,8336 | 0,59602 | 11,475 | 37,535 | 86,383 |
Оценка влияния зернистости | ||||||
25 | 0,95374 | 1,4541 | 0,5097 | 5,5323 | 40,704 | 85,81 |
50 | 0,9136 | 1,9443 | 0,4263 | 10,842 | 37,783 | 76,803 |
75 | 0,86589 | 2,4502 | 0,37008 | 18,614 | 35,437 | 67,242 |
100 | 0,8208 | 2,9155 | 0,32509 | 28,275 | 33,624 | 58,258 |
Аналогичные таблицы результатов были получены для каждого из пяти исследуемых видео.
Поскольку все рассматриваемые метрики имеют собственные шкалы оценок качества, имеющие разный диапазон значений, следующим этапом после проведения непосредственного оценивания является приведение полученных результатов к единой качественной шкале, понятной пользователю, которая базируется на субъективной оценке, представленной в таблице 3.
Таблица 3 - Шкала перевода значений метрик
Цветовая идентификация | Субъективная идентификация | SSIM | MSAD | NQI | MSE | VMAF | PSNR |
RGB (217, 234, 211) | отличное | 0,93 и выше | 0 - 2,05 | 0,43 и выше | 0 - 15,5 | 90 и выше | 38 и выше |
RGB (255, 242, 204) | хорошее | 0,88-0,93 | 2,05 - 2,67 | 0,33 - 0,43 | 15,5 - 28,9 | 74-90 | 35-38 |
RGB (189, 214, 238) | среднее | 0,84-0,88 | 2,67 - 3,22 | 0,28 - 0,33 | 28,9 - 47,7 | 58-74 | 33-35 |
RGB (244, 204, 204) | низкое | 0,78-0,84 | 3,22 - 3,96 | 0,21 - 0,28 | 47,7 - 83,2 | 38-58 | 30-33 |
RGB (234, 153, 153) | плохое | 0,78 и ниже | 3,96 и выше | 0 - 0,21 | 83,2 и выше | 38 и ниже | 30 и ниже |
Результат перевода результатов оценки к единой качественной шкале показан в таблице 4.
Таблица 4 - Перевод результатов оценки
Изменение параметра (ед.) | ssim (яркость) | msad (цветность) | nqi (контраст) | mse (ошибка) | psnr (потеря качества) | vmaf (шум) |
оригинал | отличное | отличное | отличное | отличное | отличное | отличное |
Оценка изменения параметра яркости | ||||||
-50 | хорошее | плохое | отличное | плохое | плохое | отличное |
-25 | отличное | плохое | отличное | плохое | плохое | отличное |
25 | отличное | плохое | отличное | плохое | плохое | среднее |
50 | хорошее | плохое | отличное | плохое | плохое | низкое |
Оценка изменения параметра контраста | ||||||
-50 | хорошее | плохое | отличное | плохое | плохое | отличное |
-25 | отличное | низкое | отличное | среднее | среднее | отличное |
25 | отличное | низкое | отличное | среднее | низкое | среднее |
50 | хорошее | плохое | отличное | плохое | плохое | низкое |
Оценка изменения параметра цветности | ||||||
-50 | хорошее | плохое | хорошее | плохое | плохое | низкое |
-25 | хорошее | плохое | отличное | плохое | плохое | низкое |
25 | хорошее | плохое | отличное | плохое | плохое | низкое |
50 | хорошее | плохое | отличное | плохое | плохое | низкое |
Оценка влияния шумов | ||||||
25 | отличное | отличное | отличное | отличное | отличное | отличное |
50 | отличное | отличное | отличное | отличное | отличное | отличное |
75 | хорошее | отличное | отличное | отличное | отличное | хорошее |
100 | среднее | отличное | отличное | отличное | хорошее | хорошее |
Оценка влияния зернистости | ||||||
25 | отличное | отличное | отличное | отличное | отличное | хорошее |
50 | хорошее | отличное | хорошее | отличное | хорошее | хорошее |
75 | среднее | хорошее | хорошее | хорошее | хорошее | среднее |
100 | низкое | среднее | среднее | хорошее | среднее | среднее |
Для дальнейшего сравнения качества оценки метрик было необходимо провести субъективную оценку качества визуального ряда на определенном наборе кадров.
Субъективная оценка основывается на методе «Категориальная оценка ухудшения» (DCR), который относится к методам с одновременным предъявлением эталонного и искаженного изображения .
Были отобраны две независимые группы экспертов по 10 человек в каждой: 10 экспертов мужского пола и 10 – женского, в возрасте от 23 до 29 лет, имеющих разные профессии и виды деятельности.
Эксперимент проводился в темной комнате, расстояние от монитора до эксперта было фиксированным (50 см), время просмотра пары изображений составляло 10 секунд, время просмотра серого фона для сброса восприятия также составляло 10 секунд.
После просмотра изображений была проведена оценка ухудшения качества искаженного изображения по пятибалльной шкале качества от 1 до 5 (1 – искажения раздражают, 5 – искажения не заметны). При получении всех оценок был подсчитан средний балл мнений (MOS), полученные оценки отображены в таблице 5.
Таблица 5 - Результаты усредненных субъективных оценок
Критерий выборки | Пониженная на 50 ед. яркость | Пониженный на 50 ед. контраст | Пониженный на 25 ед. контраст | Повышенный на 25 ед. контраст | Повышенный на 50 ед. контраст | Пониженная на 50 ед. цветность | Добавленные шумы | Добавленная зернистость |
Пол (женский) | 2,7 | 2,3 | 2,9 | 3,6 | 3,1 | 2,7 | 4,2 | 3,4 |
Пол (мужской) | 3,6 | 3,5 | 4 | 4,4 | 3,8 | 3,5 | 4,9 | 3,4 |
Для оценки статистической значимости полученных результатов субъективной оценки двух независимых выборок использовалось t-распределение Стьюдента, т.к. количество экспертов невелико, и стандартное отклонение генеральной совокупности неизвестно. В качестве независимого критерия выборки выбирался пол эксперта.
В качестве нулевой гипотезы выбиралась гипотеза о равенстве средних значений оценок, двух совокупностей. Альтернативная гипотеза предполагает наличие значимых отличий между средними значениями оценок.
Результаты проведенной оценки приведены в таблице 6.
Таблица 6 - Результат оценки статистической значимости эксперимента
Критерий выборки | Число степеней свободы | Выборочное среднее | Стандартное отклонение | t-критерий (двусторонний) | Уровень значимости (р) |
Пол (женский) | 10 | 3,11 | 0,64 | 2,32 | 0,045 |
Пол (мужской) | 10 | 3,88 | 0,48 |
Уровень значимости проведенной статистической оценки p = 0,045, что ниже 0,05 и, что, в свою очередь, позволяет отклонить нулевую гипотезу и принять альтернативную о значимости различий между результатами двух групп.
Далее необходимо было сравнить результаты работы каждой из метрик с результатами субъективной оценки.
Первыми были рассмотрены результаты работы метрики VMAF. Анализ результатов оценки видеофайла с помощью метрики VMAF, приведенных в таблице 4 показал, что при предельных искажениях яркости и контраста данная метрика выдает некорректный результат.
Для подтверждения некорректной работы рассматриваемой метрики, было проведено субъективное сравнение кадров (см. табл. 5) при пониженных яркости и контрасте. Пример рассмотренных кадров представлен на рисунке 1.

Рисунок 1 - Сравнение кадров видео:
а – эталонное видео; б – видео, с пониженной на 50 единиц яркостью; в – видео, с пониженным на 50 единиц контрастом
Субъективная оценка искаженных кадров (б, в) в сравнении с эталонным кадром (а) позволяет сделать вывод, что качество искаженных кадров значительно ниже, чем качество эталонного. Однако объективная оценка с помощью метрики VMAF показывает результат, соответствующий оценке «отлично» (см. табл. 4). На основе полученных результатов можно сделать вывод, что показатели метрики VMAF являются необъективными для искажений по параметрам яркости и контраста, что делает применение данной метрики на указанных параметрах нецелесообразным.
Далее необходимо было рассмотреть результаты работы метрики MSE. Учитывая, что метрика MSE является частью метрики PSNR, можно предположить, что данные метрики должны давать сходные результаты, исходя из этого, необходимо обратиться к таблице 4. Полученные данные показывают, что рассматриваемые метрики, выдают одинаковый результат, на искажении всех параметров. Кроме того, результаты оценки текстуры и структуры с помощью данных метрик подтверждаются результатами субъективной оценки (см. табл. 5), проведенной на кадрах с добавленными шумами и зернистостью (см. рисунок 2).

Рисунок 2 - Сравнение кадров видео:
а – эталонное видео; б – видео, с добавленными шумами; в – видео, с добавленной зернистостью
Сравнение кадров видео с результатами таблиц позволяет сделать вывод, что оценки, полученные с помощью метрик MSE и PSNR, являются корректными и сходными, что дает возможность применять только одну из рассмотренных метрик при оценке таких искажений видео, как «зашумленность» и «зернистость». Из вышесказанного следует, что для дальнейшего исследования необходимо рассмотреть метрику PSNR.
На следующем этапе исследования были рассмотрены результаты работы метрики NQI. Анализ результатов оценки видеофайла с помощью метрики NQI показал, что данная метрика, практически не реагирует на изменения параметра «контраст». При любых изменениях данного параметра оценка метрики остается равной уровню «отлично», что существенно отличается от результатов субъективной оценки (см. табл. 5).
Кадры с измененными значениями параметра «контраст», предлагаемые для субъективной оценки представлены на рисунке 3.

Рисунок 3 - Сравнение кадров видео:
а – эталонное видео; б – видео, с пониженным на 50 единиц контрастом; в – видео, с пониженным на 25 единиц контрастом; г – видео, с повышенным на 25 единиц контрастом; д – видео, с повышенным на 50 единиц контрастом
Следующим этапом является сравнение работы метрик SSIM и MSAD. Сравнение проводилось по трем основным параметрам: яркость, контраст, цветность. Данные таблицы 4 показывают, что метрики MSAD и SSIM дают различные оценки на всех искажениях рассматриваемых параметров.
Для проверки работы метрик была проведена субъективная оценка (см. табл. 5). Кадры с измененными значениями контраста, яркости и цветности, предлагаемые для субъективной оценки представлены на рисунке 4.

Рисунок 4 - Сравнение кадров видео:
а – эталонное видео; б – видео, с пониженной на 50 единиц яркостью; в – видео, с пониженным на 50 единиц, контрастом; г – видео, с пониженной на 50 единиц, цветностью
В завершение исследования в результирующий набор была добавлена метрика DISTS. Данный выбор обосновывается тем, что DISTS единственная из представленных метрик, алгоритм действия которой использует сверточную нейронную сеть. Также данная метрика использует подход к оценке качества видео, основанный на имитации человеческого зрения .
В результате проведенного экспериментального отбора метрик оценки качества видео, получен следующий результирующий набор метрик: SSIM, PSNR, DISTS.
4. Заключение
Развитие мобильных устройств разного вида: телефон, планшет, ноутбук, приводит к росту популярности просмотра видеоконтента на экране данных устройств. Качество изображения на экране характеризует сохранность (целостность) оригинальных свойств передаваемого контента и является субъективной характеристикой, поскольку, в значительной степени, зависит от восприятия зрителя.
В ходе проведенного экспериментального исследования, был получен итоговый набор метрик, включающий в себя метрики SSIM, PSNR, DISTS. По мнению авторов статьи, именно данные объективные метрики могут позволить провести оценку качества видео, адекватную субъективному, визуальному восприятию зрителя, просматривающего видеоконтент на экране мобильного устройства, поскольку ориентированы на свойства человеческого зрения: яркость, контраст, цветность и зашумленность.
Для дальнейшего подтверждения, вывода, сделанного выше, предполагается проведение верификации обозначенного набора метрик с помощью субъективной оценки.