AN ANALYSIS OF METHODS FOR CLUSTERING TIME SERIES OF ELECTRICITY CONSUMPTION

Research article
DOI:
https://doi.org/10.23670/IRJ.2024.141.37
Issue: № 3 (141), 2024
Suggested:
18.01.2024
Accepted:
12.03.2024
Published:
18.03.2024
109
4
XML
PDF

Abstract

The article examines the application of K-means and Soft DTW BaryCenter time series clustering methods to the analysis of behavioural electricity consumption. The main focus is on the importance of data pre-processing and preparation before clustering. The work also discusses various approaches to data conditioning.

A comparative analysis of K-means and Soft DTW BaryCenter clustering methods is carried out, their pros and cons are pointed out. Methods of clustering evaluation using metrics that reflect the compactness and separateness of clusters are presented. It is concluded that the choice of clustering method depends on the research task, as well as on the quality and volume of the original data.

1. Введение

Проблема кластеризации данных временных рядов в контексте потребления электроэнергии является весьма актуальной. С развитием интеллектуальных сетей возросли требования к краткосрочному прогнозированию спроса на электроэнергию. Точное прогнозирование потребления электроэнергии позволяет поставщикам энергии планировать свои производственные мощности и оптимизировать закупки электроэнергии на оптовом рынке электроэнергии и энергоснабжения.

Более глубокое понимание того, как потребители используют электроэнергию, может быть получено с помощью кластеризации временных рядов потребления электроэнергии. Это может помочь поставщикам электроэнергии лучше понимать потребности своих клиентов и повысить точность их прогнозирования. Неточное прогнозирование потребления электроэнергии может привести к недостаточному или чрезмерному количеству закупаемой электроэнергии и финансовым рискам для поставщика.

Метод K-means является популярным методом кластеризации из-за его простоты и эффективности

,
. Однако он чувствителен к выбросам в данных
. С другой стороны, метод Soft DTW BaryCenter обеспечивает более плавный эффект и может уменьшить влияние выбросов. Однако это может быть сложным с точки зрения вычислений, особенно при работе с большими наборами данных временных рядов
.

В литературе также обсуждается важность предварительной обработки данных и их подготовки перед кластеризацией. Это включает в себя удаление выбросов, стандартизацию и нормализацию данных, преобразование данных в числовые значения, выбор наиболее информативных функций и удаление ненужных данных

,
,
,
,
.

Наконец, в литературе обсуждается оценка качества кластеризации. Упоминается несколько методов, включая метод локтя, метод силуэта, индекс Данна и индекс Дэвиса-Булдина

,
. Авторы отмечают, что одной метрики часто недостаточно для адекватной оценки кластеризации, и также может потребоваться визуальный контроль
.

Цель исследования – проанализировать методы подготовки данных в контексте потребления электроэнергии для проведения качественной кластеризации и определить, какой метод кластеризации, K-means или Soft DTW-BaryCenter, является более подходящим в зависимости от качества и объема изучаемых данных.

2. Методы подготовки данных для кластеризации временных рядов электропотребления

Перед кластеризацией данных необходимо выполнить подготовку данных. В общем виде процесс подготовки данных состоит из нескольких шагов:

2.1. Удаление выбросов в наборе данных

Выбросом называют такой объект некоторого класса, значения признаков которого значительно отличаются от значений признаков другого класса

. Выбросы во временных рядах электропотребления могут быть вызваны различными факторами, такими как временные сбои в работе счетчика, нестабильность в электросети, повреждение счетчика или быть результатом ошибке в сборе данных. Выбросами в контексте электропотребления могут быть недели, в которых есть дни с необычно высоким или низким объемом электропотребления для этого дня недели. Такие выбросы можно определить с помощью инструментов визуализации данных или с помощью математических функций Z-score и IQR.

2.2. Обработка пропущенных значений

Целесообразным является сочетание метода Zet-алгоритма для восстановления групп пропущенных значений и метода сплайн-интерполяции для восстановления одиночных пропущенных значений

,
,
.

Для оценки точности восстановления пропущенных значений часто используется мера корня из среднеквадратичной ошибки (RMSE).

img,

где ℎ – количество пропущенных значений, 𝑡𝑖 и 𝑡'𝑖 — фактическое и восстановленное значения временного ряда соответственно

.

2.3. Нормализация данных

Нормализация данных – это процесс приведения данных к определенному диапазону значений, обычно от 0 до 1. Формула нормализации данных:

img

где хнорм – нормализованное значение, xmin – минимальное значение, xmax – максимальное значение, x – фактическое значение.

Нормализация данных полезна, когда данные имеют разные масштабы или когда требуется привести данные к определенному диапазону для работы с определенными алгоритмами.

Учитывая высокую дисперсию в данных, нормализация данных является неотъемлемо частью кластеризации и может сыграть важную роль в интерпретации результатов

.

3. Методы кластеризации временных рядов

Метод K-means является одним из наиболее популярных методов кластеризации из-за своей простоты реализации и эффективности

,
,
. Он используется для разделения набора данных на несколько кластеров, где каждый кластер представляет собой группу точек схожих между собой. Алгоритм начинается с инициализации k центроидов, затем точки данных присваиваются ближайшему центроиду, после чего центроиды пересчитываются на основе средних значений точек в каждом кластере. Этот процесс повторяется до сходимости.

Однако поскольку метод K-means относится к методам четкой кластеризации (каждая точка данных принадлежит только одному кластеру) выбросы в данных могут существенно повлиять на результаты кластеризации

.

Метод Soft DTW BaryCenter позволяет учитывать сходство между временными рядами, используя взвешенное среднее значение. Он позволяет временным рядам принадлежать к нескольким кластерам, поэтому имеет сглаживающий эффект и может уменьшить влияние выбросов в данных. Однако в отличие от метода K-means, метод Soft DTW BaryCenter может быть вычислительно сложным, особенно при работе с большими наборами временных рядов.

В работе

были использованы методы кластеризации K-means и Soft DTW BaryCenter, где после исследования K-means для улучшения результата был применен метод Soft DTW BaryCenter который поспособствовал наиболее точному описанию профилей электропотребления потребителей.

K-means может использовать различные методы инициализации центроидов, такие как случайная инициализация или K-means++. Авторы статьи

использовали метод K-means, где центроиды были инициализированы с использованием алгоритма K-means++. В K-means++ начальные центроиды выбираются с учетом расстояний между точками данных, чтобы они были равномерно распределены по всему набору данных. Это позволяет избежать проблемы с попаданием в локальные минимумы, которая может возникнуть при случайной инициализации центроидов в K-means.

Soft DTW BaryCenter не требует явной инициализации центроидов, так как он вычисляет взвешенное среднее значение на основе имеющихся временных рядов.

4. Методы оценки качества кластеризации

При оценке качества кластеризации мы также стараемся определить оптимальное число кластеров. Это важно для того, чтобы понять, насколько хорошо данные были разделены на группы и какое количество кластеров наиболее подходит для данного набора данных. Нужно учитывать, что при всем разнообразии потребителей меньшее количество кластеров облегчает интерпретацию, а потому предпочтительнее, чем большое количество кластеров.

Существует несколько подходов к определению оптимального числа кластеров, включая метод локтя, метод силуэта, метод индекса Данна и метод индекса Дэвиса-Болдина

. Эти методы стремятся к тому, чтобы кластеры были компактными и хорошо разделенными, с минимальной внутрикластерной дисперсией и максимальным межкластерным разделением и таким образом позволяют оценить, какое количество кластеров наилучшим образом представляет структуру данных. Согласно выводам авторов
, наиболее часто используемым подходом является индекс Дэвиса-Болдина и метод силуэта. Также авторы работы
подчеркивают, что одной метрики недостаточно для адекватной оценки кластеризации. Иногда значения метрик противоречат друг другу, и тогда приходится полагаться на оценку с помощью визуального осмотра, но и она может быть предвзятой из-за интерпретации визуального представления
,
.

5. Заключение

Новизна исследования заключается в сравнительном анализе методов кластеризации временных рядов K-means и Soft DTW BaryCenter в контексте данных о потреблении электроэнергии. Результаты исследования подчеркивают важность предварительной обработки и подготовки исходных данных при проведении кластеризации. В статье сравниваются методы кластеризации K-means и Soft DTW BaryCenter, рассматриваются преимущества и недостатки каждого из них. В случае частых и небольших выбросов в данных применение метода Soft DTW BaryCenter более целесообразно, чем применение метода K-means из-за более высокой чувствительности к выбросам метода K-means. Также установлено, что Soft DTW BaryCenter является более вычислительно сложным при работе с большими наборами временных рядов. Установлено, что метод кластеризации по временным рядам показывает более высокую эффективность, чем метод, основанный на общем объеме электроэнергии. Таким образом следует заключить, что выбор одного из этих методов для кластеризации временных рядов определяется качеством и объемом исходных данных. Выявлено, что наиболее часто используемыми метриками оценки кластеризации являются индекс Дэвиса-Болдина и метод силуэта по причине простоты их интерпретации. Результаты этого исследования согласуются с результатами других исследований в этой области. Например, работа

также подчеркивает эффективность кластеризации временных рядов для понимания спроса на электроэнергию. Аналогичным образом, исследования
и
также подчеркивают важность предварительной обработки и подготовки данных при кластеризации.

Однако в этом исследовании представлено более подробное сравнение методов K-means и Soft DTW BaryCenter с обсуждением их преимуществ и недостатков в контексте данных о потреблении электроэнергии.

Article metrics

Views:109
Downloads:4
Views
Total:
Views:109