СПОСОБЫ ПАРАМЕТРИЗАЦИИ ДВИЖЕНИЯ В СИСТЕМАХ ОБРАБОТКИ МУЛЬТИМЕДИЙНЫХ ДАННЫХ
Вагнер А.В.1, Вагнер В.И.2, Тропченко А.А.3
1ORCID: 0000-0003-1757-3887, Студент, Университет ИТМО, 2ORCID: 0000-0001-5566-2421, Студент, Университет ИТМО, 3ORCID: 0000-0001-9812-7947, Доцент, Университет ИТМО
СПОСОБЫ ПАРАМЕТРИЗАЦИИ ДВИЖЕНИЯ В СИСТЕМАХ ОБРАБОТКИ МУЛЬТИМЕДИЙНЫХ ДАННЫХ
Аннотация
Предложены способы параметризации и классификации движения при анализе видеопоследовательностей на основе метода фазовой корреляции и анализе оптического потока. Описаны методы, с помощью которых можно параметризировать движение в кадре, определять направление движения объектов в сцене и определять используемые при съемке кинематографические приемы. Приведены результаты и анализ работы предложенных методов. Предложенные методы основаны на алгоритмах, которые можно найти в пакетах компьютерного зрения с открытым исходным кодом.
Ключевые слова: параметризация движения, оптический поток, компьютерное зрение, 4D.Vagner A.V.1, Vagner V.I.2, Tropchenko A.A.3
1ORCID: 0000-0003-1757-3887, Student, ITMO University, 2ORCID: 0000-0001-5566-2421, Student, ITMO University, 3ORCID: 0000-0001-9812-7947, Associate professor, ITMO University
MOTION PARAMETRIZATION METHODS IN MULTIMEDIA PROCESSING SYSTEMS
Abstract
The methods of parameterization and classification of motion for analysis of video sequences based on phase correlation method and analysis of optical flow are shown. Described the methods by which you can parameterize the movement in the frame, to determine the direction of movement of objects in the scene and determine the used cinematographic techniques. Shiwn results and analysis of the proposed methods. The proposed methods are based on algorithms that can be found in open source packages of computer vision.
Keywords: motion parameterization, optical flow, computer vision, 4D.В последнее время заметна растущая популярность систем виртуальной реальности и глубокого погружения. Однако зачастую единственным источником информации является видеопоследовательность. Поэтому очень остро встает потребность в извлечении дополнительной информации из видео. Важной составляющей этой информации может стать информация о глобальном движении, перемещении объектов и определение кинематографических приемов.
Параметризировать видеопоследовательность предлагается по следующей схеме (рис 1.).
Рис. 1 – Алгоритм обработки видеопоследовательности модулем параметризации
На первом этапе получения извлекаются очередные кадры, причем желательно иметь настройку, какие по счету кадры обрабатывать (все, каждый второй, третий и т.д.). При кадровой частоте 30 кадров/сек рекомендуется обрабатывать каждый 5-10 кадр, чтобы различие между кадрами было достаточным и не избыточным для следующих шагов обработки.
На этапе преобразования цветового пространства происходит вычисление яркостной компоненты (Y) изображения кадра, которая может быть получена из трехкомпонентного (RGB) изображения следующим образом:
На следующем этапе происходит вычисление суммы абсолютных разностей (SAD) выбранных на первом этапе последовательных кадров. Данная метрика очень полезна для определения смены сцен в видеопоследовательности.
Далее применяется метод фазовых корреляций, основанный на представлении модуля преобразования Фурье в логарифмически-полярных координатах, что позволяет извлечь рассогласование кадров по углу, смещению и масштабу.
Далее идет вычисление и фильтрация оптического потока. В библиотеках компьютерного зрения с открытым исходным кодом можно найти реализации следующих методов вычисления оптического потока:
- Блочный метод (BM)
- Быстрый блочный метод (Fast BM)
- Пирамидальный метод Лукаса-Канаде (Lucas-Kanade) [1]
- Метод Фернебака (Farneback) [2]
- Метод Брокса (Brox) [3]
Было проведены сравнения данных методов (рис. 2), по результатам которых можно сказать, что методы Lucas-Kanade, BM, FastBM дают неудовлетворительные результаты на мелкозернистых текстурах. Метод Farneback нечувствителен к изменениям таких текстур. Для дальнейшей обработки предпочтительным является метод Brox, т.к. найденный этим методом оптический поток не «зашумлен» ошибочными векторами, векторное поле является «сглаженным и равномерным» и данный метод чувствителен ко слабым изменениям в мелкозернистых текстурах. Для устранения возможных векторов-выбросов рекомендуется провести медианную фильтрацию векторного поля оптического потока по длине векторов.
Далее следует этап рассчета гистограмм векторов оптического потока. Полное поле векторов оптического потока имеет избыточную информацию, неудобную для анализа и хранения, поэтому было принято решение хранить информацию о векторном поле в массиве гистограмм.
Суть метода заключается в разбиении векторного поля на равные прямоугольные части и нахождении гистограмм количества векторов и их суммарной длины по диапазону направлений.
Рис. 2 – Сравнение результатов вычисления оптического потока. Исходные изображения(а). Результаты вычисления оптического потока методами: Lucas-Kanade(б), Fast BM(в), BM(г), Farneback(д), Brox(е)
Гистограммы состоят из столбцов, каждый из которых отражает количество или суммарную длину векторов, попавших в заданный диапазон значений направлений. Для удобства восприятия такие гистограммы показывают в виде векторов, исходящих из одной точки и имеющих направления, равные среднему значению диапазона направлений столбца и длины, пропорциональные столбцам.
Рис 3 – Пример представления гистограмм в виде векторов(б); поле, разбитое на 4 равные части(а)
Для более полного описания векторного поля на данном этапе рассчитывается пирамида гистограмм. Она представляет собой N массивов гистограмм, где N- количество уровней пирамиды. На каждом уровне векторное поле разбивается на n2 блоков, где n – номер уровня.
Гистограммы описывают общую картину движения в кадре, поэтому было принято решение использовать их для сравнения с гистограммами из заранее заданных наборов (шаблонов), для которых уже заданы направления изменения величин вертикального и горизонтального смещения.
Набор таких гистограмм был составлен для описания самых распространённых кинематографических приемов съемки, таких как наезд (Dolly) и отъезд (Track) камеры, вращение камеры вдоль горизонтальной оси (Panning left/right), вертикальной оси (Tilt up/down), вокруг продольной оси по и против часовой стрелки (Clockwise/Counter clockwise rotation).
Так как для пары кадров рассчитывается пирамида гистограмм, то в шаблонах можно задавать как один набор гистограмм (один уровень пирамиды), так и несколько (но для описания каждого из приведенных выше приемов использовалось только по одному набору гистограмм).
Рис 4 – Шаблоны для кинематографических приемов съемки: а) наезд, б) отъезд, в, г) вращение вдоль гор. Оси, д) вращ. По часовой стрелке, е) вращение против часовой стрелки, ж, з) вращение вдоль вертикальной оси
На следующем этапе происходит извлечение информации о движущихся объектах на основе оптического потока. Данный этап обработки состоит из нескольких последовательных шагов: пороговая фильтрация оптического потока, визуализация потока, выделение контуров, расчет параметров контуров. На первом шаге происходит пороговая фильтрация векторного поля по длине вектора.
На этапе визуализации оптического потока происходит представление векторного поля в цветовом пространстве[4]. Векторное поле представляется в виде цветного изображения, каждый пиксел которого обозначает вектор потока, где ориентация и величина вектора представлены в виде оттенка и насыщенности цвета пиксела
На следующем этапе происходит поиск контуров (например, детектор границ Кенни [5]). Во время расчета параметров контуров вычисляются наиболее важные характеристики, например, количество точек внутри контура, площадь, периметр, центр масс.
После обработки каждой пары кадров результаты метода фазовой корреляции, нахождения гистограмм, параметров контуров записываются в файл для последующей обработки.
Для оценки работы предложенного способа были проанализированы результаты обработки более 1500 пар кадров. При анализе результатов параметризации глобального движения методом фазовых корреляций были получены следующие результаты погрешностей (смещение находилось пределах 10% от размера исходного изображения, значение угла поворота может изменяться в пределах ±30°, масштаба – в пределах 20%.): погрешность смещения - 0,2%, погрешность угла поворота – 3,1%, погрешность величины масштабирования – 4,3%.
Таблица 1 - Оценка определения кинематографических приемов методом анализа гистограмм оптического потока
Использование пирамиды гистограмм оптического потока подходит для сопоставления с заранее заданными шаблонами (сопоставление проводилось путем вычисления коэффициента пересечения гистограмм (Таблица 1). А метод параметризации движения объектов показывает приемлемые результаты при отсутствии глобального движения в кадре или при движении объектов в противоположных направлениях глобальному движению.
Список литературы / References
- Jean-Yves Bouguet. Pyramidal Implementation of the Lucas Kanade Feature Tracker Description of the algorithm / J. Bouguet // Intel Corporation, Microprocessor Research Labs — 2000
- Gunnar Farneback. Two-Frame Motion Estimation Based on Polynomial Expansion / G. Farnebäck // 13th Scandinavian Conference — Sweden —2002 — p.363-370
- Thomas Brox, Andres Bruhn, Nils Papenberg. High Accuracy Optical Flow Estimation Based on a Theory for Warping / T. Brox, A. Bruhn, N. Papenberg // European Conference on Computer Vision (ECCV) — Czech Republic — 2004 —3024 — p.25-36
- Ce Liu, Jenny Yuen, Antonio Torralba. SIFT Flow: Dense Correspondence across Scenes and its Applications / Liu, J. Yuen, A. Torralba // IEEE Transactions on Pattern Analysis and Machine Intelligence — 2010 — Vol. 33(5) — p.4
- Canny, J. A Computational Approach to Edge Detection / J. Canny // IEEE Transactions on pattern analysis and machine intelligence — 1986 — 6 — p. 679.