The power of the Charlier criterion for detecting outliers in construction work measurements
The power of the Charlier criterion for detecting outliers in construction work measurements
Abstract
At the first stage of statistical processing of measurement results, the first step is to identify outliers, which are mainly caused by errors, incorrect actions of operators. Having detected outliers, it is necessary to exclude them from the sample and not to take them into account in further processing. To detect outliers, a number of criteria have been developed, the effectiveness of which depends on the sample size. Among them, the Charlier criterion stands out for its simplicity and ease of use, which, judging by reference data, can be used for small and large numbers of measurements. However, recently in the open press there have appeared works that do not recommend using the Charlier criterion in samples of any size. Therefore, the aim was to analyse the power of the Charlier criterion in samples of different sizes. For this purpose, a theoretical experiment was carried out, which allows to model the measurements, completely ignoring the experimental data, and to obtain a reference sample, the data of which have a strictly normal distribution. As a result of this research, it was found that the Charlier criterion can be used to detect emissions in samples of more than 20 observations. In small sample sizes (n ≤ 20), it can be recommended for joint use with the Romanovsky and Dixon criteria to detect outliers in the range of xnorm> 3, i.e., only for detecting errors of the second kind.
1. Введение
В строительной отрасли при выполнении различных работ осуществляется множество разнообразных измерений, направленных на контроль качества строительных процессов, характеристик качества строительных материалов, конструкций и изделий. Внедрение новых технологий, строительных материалов и изделий требует значительного повышения точности проводимых измерений и повышенных требований к обработке получаемых результатов. В этой связи большое значение имеет своевременное выявление грубых погрешностей или так называемых выбросов в данных, полученных при измерениях , . Выбросы – это те значения измеряемой величины в ряду измерений, которые резко отличаются от других результатов этого ряда . Они, как правило, возникают из -за ошибок, неправильных действий оператора при сборе данных. Выбросы существенно искажают среднее значение, вследствие его большой чувствительности к экстремальным значениям. Это может привести к неточному представлению данных и неверным выводам.
Избежать появление промахов в процессе измерений можно в результате четкой организации измерений, качественной подготовкой операторов, настройки и своевременной поверки средств измерений. Однако, все это не гарантирует на 100 % отсутствие выбросов. Таким образом, основной задачей статистической обработки полученных результатов измерений является выявление и исключение выбросов из серии измерений.
Для выявления грубых погрешностей разработано достаточно большое количество критериев, позволяющих производить отсев аномальных измерений из серии проведенных измерений искомой величины. Эффективность таких критериев зависит от объема выборки , .
Грубые погрешности выявляют в самом начале статистической обработки измерений, на первом этапе. В зависимости от количества измерений используют такие статистические критерии как критерий Граббса , , Диксона , , Шовене , , Ирвина и ряд других критериев, каждый из которых имеет свои достоинства и недостатки.
Мощность таких критериев и их сравнительный анализ достаточно хорошо описаны в открытой печати, например, в работе . Однако, анализ современной литературы показал, что в открытых источниках имеется противоречивая информация о критерии Шарлье. В работе вообще не рекомендуется использовать критерий Шарлье при любом количестве измерений.
В связи с этим возникла необходимость проверки эффективности критерия Шарлье в выборках большого и малого объема, что и является целью данной работы.
2. Методы и принципы исследования
Проверка мощности критерия осуществлялась на основе методики, изложенной в работе , заключающейся в проведении теоретического эксперимента, который позволяет смоделировать измерения, игнорируя экспериментальные данные. Данное обстоятельство обусловлено тем, что при проверке мощности критерия на основании совокупности экспериментальных данных, распределение которой будет практически всегда отличаться от строго нормального, невозможно определить «эталон», по сравнению с которым будет приниматься решение об успешных единичных проверках.
Эксперимент проводился на выборках с количеством измерений 5, 10, 20, 30, 40.
Суть методики заключается в следующем.

Рисунок 1 - Гистограмма генеральной совокупности
Далее из созданной «эталонной» генеральной совокупности извлекаются выборки определенного объема. При проведении теоретического эксперимента для извлечения выборок использовался online-генератор случайных чисел. Для каждого исследуемого объема выборок использовалось по 50 выборочных совокупностей. При этом изначально каждая случайная выборка была свободна от выбросов. Затем производится постепенное увеличение максимального значения в каждой выборке и одновременно выполняется проверка этого значения на выброс по критерию Шарлье. Для удобства проверки очередного значения измеряемой величины на промах методикой предусмотрено формирование нормированного отклонения xнорм = (xmax - mx)/ σ, т.е. если xнорм ≥ 3, то xmax будут являться промахами.
Условие xнорм = 3 будет являться граничным при единичной проверке мощности критерия Шарлье при выявлении выброса. Это значит, что, если при xнорм ≥ 3, критерий обнаружил промах, а при xнорм < 3 проверяемое значение не является промахом, то единичная проверка является успешной.
И наоборот, если при h ≥ 3 критерий Шарлье не обнаружит выброс, то единичная проверка не будет считаться успешной, а будет трактоваться, как ошибка второго рода, при этом количество успешных проверок будет являться характеристикой мощности критерия. Если проверяемое значение xmax < 3, то критерий определяет xmaxкак промах и это уже будет ошибкой первого рода.
3. Результаты и обсуждение
При определении мощности критерия Шарлье был проведен статистический эксперимент, который заключался в моделировании измерений, не используя экспериментальные данные. Исследовались выборки объема при n = 5; 10; 20, 30, 40.
В соответствии с методикой в начале была сформирована генеральная совокупность, состоящая из 1000 элементов со строго нормальным распределением (рис. 1). При этом математическое ожидание mx = 25, а стандартное отклонение σ = 1.
Далее на следующем этапе методики из генеральной совокупности извлекались выборки объемом n = 5. Извлечение производилось случайным образом с помощью online-генератора случайных чисел. Количество выборок определялось из условия обеспечения достаточной точности результатов дальнейших вычислений. В данной работе использовалось по пятьдесят выборочных совокупностей для каждого исследуемого объема выборки. Выборки производились в диапазоне (mx - 2σ, mx + 2σ), в котором находится более 95% значений генеральной совокупности. Максимальное значение выборки xmax принималось равным 27 (нормированное отклонение xнорм = 2) и проверялось на промах по критерию Шарлье. Выбросом в этом случае считается то значение измеряемой величины, для которого выполняется следующее неравенство
где, xк – проверяемое значение, – среднее арифметическое значение измеряемой величины, Sx – стандартное отклонение.
При нормированном отклонении h = 2 в пятидесяти выборках при проверке выбросов не было обнаружено, все единичные проверки были успешными при всех уровнях значимости. Таким образом, мощность критерия
где F(xнором) – количество успешных единичных проверок, N(xнорм) – общее количество единичных проверок.
Затем xmax увеличивалось до 27,2, в этом случае нормированное отклонение xнорм равнялось 2,2. После извлечения случайным образом выборки из генеральной совокупности производилась проверка максимального значения xmax = 27,2 на выброс, которая показала отсутствие промаха. Таким же образом проводились аналогичные проверки на выбросы в оставшихся сорока девяти выборках, извлекаемых также случайным образом из генеральной совокупности. После того как были проведены все единичные проверки на промах при нормированном отклонении xнорм = 2,2, подсчитывалось количество успешных проверок и определялась мощность критерия по формуле (1), которая составила 30%.
Аналогичным образом проводились проверки на выброс максимальных значений xmax, равных 27,4; 27,8; 27,9 т. е. при нормированных отклонениях xнорм, равных соответственно 2,4; 2,8; 2,9. Для максимальных значений, равных двадцати восьми и более, т. е. при xнорм ≥ 3, шаг изменения был увеличен до 1.
Для каждого значения нормированного отклонения xнорм подсчитывалось общее количество N (xнорм) единичных проверок и количество F (xнорм) удачных единичных проверок и определялась мощность критерия.
В таблицу 1 занесены полученные значения мощности критерия Шарлье P(xнорм) в зависимости от величины нормированного отклонения xнорм и объема выборки, а также данные, полученные из открытых источников , , которые использовались для сравнительного анализа.
Таблица 1 - Мощности критериев для выборок различного объема и разных значений нормированного отклонения
Критерий
| Объем выборки n = 5 | ||||||||||
Нормированное отклонение xнорм | |||||||||||
2,2 | 2,5 | 2,8 | 2,99 | 3 | 3,2 | 3,4 | 3,6 | 3,8 | 4 | 5 | |
Значения мощности в процентах | |||||||||||
Критерий Диксона 0,99 | - | 90 | 88 | 80 | 20 | 20 | 26 | 30 | 30 | 30 | 44 |
Критерий Диксона 0,95 | - | 74 | 70 | 68 | 32 | 36 | 40 | 44 | 50 | 52 | 78 |
Критерий Романовского 0,95 | 70 | 62,5 | 55 | 52,5 | 47,5 | 55 | 85 | 100 | 100 | 100 | 100 |
Критерий Романовского 0,99 | 80 | 72,5 | 60 | 57,5 | 42,5 | 50 | 80 | 100 | 100 | 100 | 100 |
Критерий Шарлье | 30 | 27,5 | 10 | 2,5 | 97,5 | 97,5 | 100 | 100 | 100 | 100 | 100 |
| Объем выборки n = 10 | ||||||||||
Критерий Диксона 0,99 | - | 90 | 84 | 74 | 26 | 40 | 42 | 52 | 54 | 64 | 84 |
Критерий Диксона 0,95 | - | 58 | 40 | 32 | 68 | 74 | 78 | 86 | 90 | 96 | 100 |
Критерий Романовского 0,95 | 82,5 | 77,5 | 60 | 55,5 | 44,5 | 65 | 92,5 | 100 | 100 | 100 | 100 |
Критерий Романовского 0,99 | 95 | 87,5 | 72,5 | 65 | 35 | 55 | 85 | 100 | 100 | 100 | 100 |
Критерий Шарлье | 40 | 30 | 15 | 5 | 95 | 97,5 | 100 | 100 | 100 | 100 | 100 |
Объем выборки n = 15 | |||||||||||
Критерий Диксона 0,99 | - | 82 | 70 | 64 | 36 | 44 | 50 | 58 | 66 | 72 | 94 |
Критерий Диксона 0,95 | - | 56 | 38 | 34 | 66 | 74 | 82 | 86 | 94 | 94 | 100 |
При графической интерпретации полученных результатов статистического эксперимента принимался во внимание тот факт, что точка xнорм = 3 при графическом изображении зависимостей P(xнорм ) является точкой разрыва. В этом случае точка xнорм = 3 для диапазона xнорм < 3 рассматривалась как 2,99.
Анализируя полученные результаты теоретического эксперимента, было произведено сравнение мощности критерия Шарлье с данными работ , , где приведена информация об эффективности критериев Диксона и Романовского, которые широко используются при выявлении выбросов.

Рисунок 2 - Зависимость мощности критерия Шарлье от нормированного отклонения при n = 5

Рисунок 3 - Зависимость мощности критерия Шарлье от числа измерений n при нормированном отклонении xнорм = 2,5
В области xнорм < 3 эффективность критерия Шарлье в выборках малого объема n = 5, 10, 20 не велика и составляет 30-40%, что значительно ниже мощности критериев Романовского и Диксона.
Таким образом, анализ полученных результатов теоретического эксперимента показывает, что критерий Шарлье обладает достаточной мощностью при выявлении выбросов только в выборках объемом более 20. А в выборках малого объема он надежен только при нормированном значении xнорм > 3, т.е. позволяет эффективно выявлять ошибки второго рода.
4. Заключение
Проведенные исследования, выполненные в рамках теоретического эксперимента, позволили установить, что критерий Шарлье надежен во всех диапазонах нормированных значений в выборках с числом измерений, больше 20. При числе измерений 20 и менее данный критерий эффективен при выявлении ошибок второго рода, т.е. при нормированных значениях xнорм > 3, а при xнорм < 3 его мощность невысока и составляет 30-40%. В этом случае вероятность признания промахом наблюдения, которое промахом не является, очень высока, что не позволяет рекомендовать его к использованию на практике для выявления выбросов в данном диапазоне.
Таким образом, критерий Шарлье может быть использован при выявлении выбросов в выборках объемом более 20 наблюдений. В выборках малого объема (n≤ 20) он может быть рекомендован к совместному использованию с критериями Романовского и Диксона для выявления выбросов в диапазоне xнорм > 3, т.е. только для обнаружения ошибок второго рода.