О ДИФФЕРЕНЦИАЦИИ ЗАБОЛЕВАНИЙ, ДИАГНОСТИРУЕМЫХ НА ОСНОВЕ ТОМОГРАММ ЛЕГКИХ, С ПОМОЩЬЮ КЛАСТЕРНОГО АНАЛИЗА

Научная статья
DOI:
https://doi.org/10.18454/IRJ.2016.54.006
Выпуск: № 12 (54), 2016
Опубликована:
2016/12/19
PDF

Козлов Д.Ю.

ORCID: 0000-0002-7016-5623, Кандидат физико-математических наук, доцент, Алтайский государственный университет, г. Барнаул

О ДИФФЕРЕНЦИАЦИИ ЗАБОЛЕВАНИЙ, ДИАГНОСТИРУЕМЫХ НА ОСНОВЕ ТОМОГРАММ ЛЕГКИХ, С ПОМОЩЬЮ КЛАСТЕРНОГО АНАЛИЗА

Аннотация

Рассмотрена возможность применения кластерного анализа для дифференциации патологий (рак и туберкулез), приводящих к возникновению шаровидных образований в легких. В качестве диагностических признаков использовались параметры, определенные на основе обработки изображений рентгеновской компьютерной томографии. Сравнивались результаты применения двух методов кластерного анализа: k-means и иерархической кластеризации. Критерием качества работы метода кластерного анализа служило сопоставление результатов кластеризации с верифицированными диагнозами. Установлено, что метод «полной связи» (иерархическая кластеризация) более надежно, чем метод k-means выделяет верный диагноз.

Ключевые слова: шаровидные образования в лёгких, фрактальная размерность, кластерный анализ.

Kozlov D.Yu.

ORCID: 0000-0002-7016-5623, PhD in Physics and Mathematics, Associate professor, Altai State University in Barnaul

USING CLUSTER ANALYSIS TO DIFFERENTIATE THE DISEASES DIAGNOSED ON THE TOMOGRAMS OF THE LUNGS

Abstract

The possibility of using cluster analysis to differentiate pathologies (cancer and tuberculosis), leading to the appearance of spherical formations in the lungs. As the diagnostic features used parameters are defined on the basis of imaging X-ray computed tomography. We compared the results of two methods of cluster analysis: k-means and hierarchical clustering. The criterion of the quality of the method of cluster analysis is to compare the clustering results to verify the diagnosis. It was established that the complete-linkage method (hierarchical clustering) is more reliable than the k-means method allocates the correct diagnosis.

Keywords: spherical formation in the lungs, fractal dimension, cluster analysis.

В работах [1-5] исследовались шаровидные образования в легких по данным компьютерной томографии. Как правило, рак, инфильтративный туберкулез и пневмония являются причиной таких образований. Не всегда даже опытный врач-рентгенолог может судить о виде нозологии на основе исследуемого томографического изображения, особенно же сложно дифференцировать рак и туберкулез. Поэтому возникла задача выбора объективных числовых параметров, позволяющих различить эти два заболевания.

Работа была организована следующим образом. На томограмме, сохраненной в DICOM-формате, врач-рентгенолог выделял «область интереса». Затем строился файл, содержащий значения денситометрического показателя Хаундсфилда каждого пиксела этой области. Таким образом, была сформирована база файлов из 2490 изображений для пациентов с уже ранее верифицированными диагнозами, среди которых оказалось 1850 случаев рака и 640 случаев инфильтративного туберкулеза. Для полученных данных, параметрами, предположительно дифференцирующими исследуемые нозологии, были выбраны среднее значение H и среднеквадратичное отклонение σ денситометрического показателя Хаундсфилда для области интереса, фрактальная размерность D области интереса, а также величина B, названная «уклон», которая определялась как вторая производная логарифма меры по логарифму масштаба этой области [5, С. 44].

Необходимо понять, действительно ли полученные параметры могут служить для дифференциации нозологий по отдельности, либо совместно. В работе [5, С. 46] утверждается, что статистически различны средние значения показателя Хаундсфилда H и фрактальной размерности D для рака и туберкулеза, а средние значения совокупностей среднеквадратичного отклонения денситометрического показателя Хаундсфилда σ и функции «уклон» B статистически не различимы, и, соответственно, не могут считаться существенными диагностическими признаками. В данной работе сделана попытка использовать все четыре эти величины как входные параметры кластерного анализа для такой дифференциации заболеваний.

Кластерный анализ широко применяется для разделения объектов на сравнительно однородные совокупности по данным характеризующих их выборок [6, С. 159] и может быть использован в самых разных отраслях [6-8]. В нашем случае кластерный анализ облегчался тем обстоятельством, что мы заведомо знали, что данные необходимо разбить именно на две группы по числу нозологий.

Сначала было решено выделить две искомые группы при помощи метода кластеризации k-means (k-средних), в котором минимизируется суммарное квадратичное отклонение точек кластеров от центроидов этих кластеров [6, С. 172]. Недостатком метода k-means является то, что он может сходиться не глобальному, а локальному минимуму суммарного квадратичного отклонения, так как оптимальный выбор исходных центроидов кластеров неизвестен и происходит случайным образом, в результате чего могут формироваться разные кластеры от одного запуска метода к другому [9, С. 12]. Поэтому в данной работе метод k-means запускался многократно, а полученный итог есть результат усреднения по большому числу запусков.

Поскольку в работе [5, С. 46] установлено, что среднее значение денситометрического показателя Хаундсфилда H и фрактальная размерность области интереса D – значимые диагностические признаки, то было решено, что и для кластерного анализа это важные входные параметры. Учитывая это, была проведена кластеризация по следующим наборам параметров: (H, D), (H, D, B), (H, D, σ) и (H, D, B, σ). Однако итог кластерного анализа методом k-means оказался не слишком удовлетворительным:

  1. для набора (H, D), т.е. только среднее значение денситометрического показателя Хаундсфилда H и фрактальная размерность области интереса D, из 2490 наблюдений лишь в 1032 случаях (или в 41%) результат кластеризации совпал с верифицированным диагнозом.
  2. для набора (H, D, B), т.е. только среднее значение денситометрического показателя Хаундсфилда H, фрактальная размерность области интереса D и величина B («уклон»), получился аналогичный предыдущему результат – из 2490 наблюдений лишь в 1032 случаях (или в 41%) результат кластеризации совпал с верифицированным диагнозом.
  3. для набора (H, D, σ), т.е. фрактальная размерность области интереса D, среднее (H) и среднеквадратичное (σ) значения денситометрического показателя Хаундсфилда, – из 2490 наблюдений лишь в 1456 случаях (или в 58%) результат кластеризации совпал с верифицированным диагнозом.
  4. для полного набора параметров (H, D, B, σ), т.е. фрактальная размерность области интереса D, «уклон» B, среднее (H) и среднеквадратичное (σ) значения денситометрического показателя Хаундсфилда, получился аналогичный предыдущему результат – из 2490 наблюдений лишь в 1456 случаях (или в 58%) результат кластеризации совпал с верифицированным диагнозом.

Далее была проведена иерархическая кластеризация [6, С. 168], [7, С. 103]. В этом методе строится дендрограмма, т.е. граф без циклов, построенный по матрице подобия (в нашем случае – метод полной связи или метод «дальнего соседа»). К сожалению, при большом объеме входных данных, как в нашем случае, дендрограмма не отличается наглядностью, поэтому здесь не приводится, однако можно сказать, что задача упрощалась тем, что нам было необходимо получить два кластера по числу исследуемых нозологий. Итог иерархического кластерного анализа оказался таков:

  1. для набора (H, D), т.е. только среднее значение денситометрического показателя Хаундсфилда H и фрактальная размерность области интереса D, из 2490 наблюдений лишь в 1075 случаях (или в 43%) результат кластеризации совпал с верифицированным диагнозом.
  2. для набора (H, D, B), т.е. только среднее значение денситометрического показателя Хаундсфилда H, фрактальная размерность области интереса D и величина B («уклон») – из 2490 наблюдений в 1357случаях (или в 54%) результат кластеризации совпал с верифицированным диагнозом.
  3. для набора (H, D, σ), т.е. фрактальная размерность области интереса D, среднее (H) и среднеквадратичное (σ) значения денситометрического показателя Хаундсфилда, – из 2490 наблюдений в 1823 случаях (или в 73%) результат кластеризации совпал с верифицированным диагнозом.
  4. для полного набора параметров (H, D, B, σ), т.е. фрактальная размерность области интереса D, «уклон» B, среднее (H) и среднеквадратичное (σ) значения денситометрического показателя Хаундсфилда, – из 2490 наблюдений в 1618 случаях (или в 65%) результат кластеризации совпал с верифицированным диагнозом.
Выводы

Полученные результаты свидетельствуют, что для разделения наиболее трудно дифференцируемых нозологий, приводящих к образованию шаровидных образований в легких, могут быть использованы фрактальная размерность области интереса, функция «уклон», среднее и среднеквадратичное значения денситометрического показателя Хаундсфилда для области интереса. Иерархическая кластеризация надежней, чем метод k-means, выделяет верный диагноз. С точки зрения совпадения с верифицированным диагнозом величина среднеквадратичного значения денситометрического показателя Хаундсфилда улучшила корректность работы кластерного анализа до 73%.

Список литературы / References

  1. Леонов С.Л. Анализ погрешностей данных при мультиспиральной компьютерной томографии шаровидных образований легких / С.Л. Леонов, Я.Н. Шойхет, В.К. Коновалов и др. // Проблемы клинической медицины. — 2011. — № 3-4 (25). С. 16-19.
  2. Шайдук А.М. Проблема стандартизации масштаба при вычислении фрактальной размерности медицинских изображений / А.М. Шайдук, С.А. Останин, В.К. Коновалов и др. // Известия Алтайского государственного университета. 2012. № 1-1 (73). С. 233-235.
  3. Коновалов В.К. Метод количественной оценки структуры шаровидных образований легких при мультиспиральной компьютерной томографии / В.К. Коновалов, Я.Н. Шойхет, В.В. Федоров и др. // Проблемы клинической медицины. 2012. № 1-4 (26-29). С. 95-101.
  4. Останин С.А. Энтропийный метод оценки сложности контура медицинских изображений / С.А. Останин, А.М. Шайдук, Д.Ю. Козлов и др. // Известия Алтайского государственного университета. 2013. № 1-2 (77). С. 177-180.
  5. Молодкин И.В. Статистический анализ влияния типа патологии на количественные характеристики медицинских изображений / И.В. Молодкин, С.Л. Леонов, А.М. Шайдук и др. // Медицинская физика. 2014. № 3 (63). С. 43-47.
  6. Барсегян А.А. Анализ данных и процессов: учеб. пособие / А.А. Барсегян, М.С. Куприянов, И.И. Холод и др. — 3-е изд., перераб. и доп. — СПб.: БХВ-Петербург, 2009. — 512 с.
  7. Многомерный статистический анализ в экономических задачах: компьютерное моделирование в SPSS: Учебное пособие / Под ред. И.В. Орловой. - М.: Вузовский учебник, 2009. – 309 с.
  8. Лесовых С.В. Методика определения интегрального показателя уровня регионального развития / С.В. Лесовых, Н.В. Тужикова, А.Ю. Юдинцев и др. // Тенденции науки и образования в современном мире. 2016. № 16-1. С. 39-43.
  9. Бериков В.С. Современные тенденции в кластерном анализе / В.С. Бериков, Г.С. Лбов // Всероссийский конкурсный отбор обзорно-аналитических статей по приоритетному направлению «Информационно-телекоммуникационные системы», 2008. — 26 с.

Список литературы на английском языке / References in English

  1. Leonov S.L. Analiz pogreshnostej dannyh pri mul'tispiral'noj komp'juternoj tomografii sharovidnyh obrazovanij legkih [Analysis of Data Errors in the Multispiral Computed Tomography of the Spherical Formation of Lungs]/ S.L. Leonov, Ya.N. Shoikhet, V.K. Konovalov and others // Problemy klinicheskoj mediciny [Problems of Clinical Medicine]. — 2011. — № 3-4 (25). P. 16-19. [in Russian]
  2. Shayduk A.M. Problema standartizacii masshtaba pri vychislenii fraktal'noj razmernosti medicinskih izobrazhenij [Problems of Standardization Scale in Calculating Fractal Dimension of Medical Images]/ A.M. Shayduk , S.A. Ostanin, V.K. Konovalov and others // Izvestija Altajskogo gosudarstvennogo universiteta [Izvestiya of Altai State University]. № 1-1 (73). P. 233-235. [in Russian]
  3. Konovalov V.K. Metod kolichestvennoj ocenki struktury sharovidnyh obrazovanij legkih pri mul'tispiral'noj komp'juternoj tomografii [Method of Quantitative Estimation of Structure of Spherical Formation of Lungs in Multispiral Computed Tomography]/ V.K. Konovalov, Ya.N. Shoikhet, V.V. Fedorov and others // Problemy klinicheskoj mediciny [Problems of Clinical Medicine]. № 1-4 (26-29). P. 95-101. [in Russian]
  4. Ostanin S.A. Jentropijnyj metod ocenki slozhnosti kontura medicinskih izobrazhenij [Entropy Method for Estimating the Complexity of Edge Medical Images] / S.A. Ostanin, A.M. Shayduk, D.Yu. Kozlov and others // Izvestija Altajskogo gosudarstvennogo universiteta [Izvestiya of Altai State University]. № 1-2 (77). P. 177-180. [in Russian]
  5. Molodkin I.V. Statisticheskij analiz vlijanija tipa patologii na kolichestvennye harakteristiki medicinskih izobrazhenij [Statistical Analysis of the Influence of the Type of Pathology at the Quantitative Characteristics of Medical Images]/ I.V. Molodkin, S.L. Leonov, A.M. Shayduk and others // Medicinskaja fizika [Medical Physics]. № 3 (63). P. 43-47. [in Russian]
  6. Barsegjan A.A. Analiz dannyh i processov: ucheb. posobie [Analysis of the Data and Processes: Tutorial] / A.A. Barsegjan, M.S. Kuprijanov, I.I. Holod and others — 3d edition. — SPb.: BHV-Peterburg, 2009. — 512 [in Russian]
  7. Mnogomernyj statisticheskij analiz v jekonomicheskih zadachah: komp'juternoe modelirovanie v SPSS: Uchebnoe posobie [Multidimensional Statistical Analysis of Economic Problems: Computer Modeling in the SPSS: Tutorial] / edited byV. Orlovoj. - M.: Vuzovskij uchebnik, 2009. – 309 p. [in Russian]
  8. Lesovyh S.V. Metodika opredelenija integral'nogo pokazatelja urovnja regional'nogo razvitija [Methods of Determining of the Integral Index of Regional Development] / S.V. Lesovyh, N.V. Tuzhikova, A.Yu. Judincev and others // Tendencii nauki i obrazovanija v sovremennom mire [Tendencies of Science and Education in the World Today]. № 16-1. P. 39-43. [in Russian]
  9. Berikov V.S. Sovremennye tendencii v klasternom analize [Current Trends in Cluster Analysis] / V.S. Berikov, G.S. Lbov // Vserossijskij konkursnyj otbor obzorno-analiticheskih statej po prioritetnomu napravleniju «Informacionno-telekommunikacionnye sistemy» [All-Russian Contest Selection Overview and Analytical Articles on Priority "Information and Telecommunication Systems"], 2008. — 26 [in Russian]