Методология анализа микроэлементного состава растений на основе иерархической кластеризации
Методология анализа микроэлементного состава растений на основе иерархической кластеризации
Аннотация
Микроэлементный состав растений является важным фактором, определяющим их биологическую активность, фармакологические свойства и токсикологическую безопасность. Несмотря на широкое применение элементного анализа в фармакогностических исследованиях, интерпретация получаемых данных часто основывается на описательных и корреляционных подходах, не учитывающих многомерную и регулируемую природу микроэлементного обмена растений. В работе проведён критический анализ существующих методов интерпретации микроэлементного состава лекарственного растительного сырья и обосновано применение иерархического кластерного анализа как системного подхода. Рассмотрены вопросы нормирования данных, выбора метрики сходства, интерпретации центров кластеров и учёта индивидуальной изменчивости. Показано, что кластерный анализ обеспечивает статистически устойчивую и биологически интерпретируемую классификацию микроэлементных профилей и может использоваться для задач идентификации и стандартизации лекарственного растительного сырья.
1. Введение
Микроэлементы, являясь простетическими группами ферментов, компонентами электрон-транспортных цепей и активными центрами фотосинтезирующих молекул, играют ключевую роль в жизнедеятельности растений. Они участвуют в регуляции ферментативных процессов, формировании активных метаболитов — биологически активных соединений (БАС), а также в обеспечении роста, развития и адаптации растений к воздействию факторов окружающей среды , . Именно совокупность БАС в значительной степени определяет фармакологические свойства и токсикологическую безопасность лекарственных растительных препаратов .
Микроэлементный состав всё чаще включается в комплексную характеристику лекарственного растительного сырья (ЛРС) наряду с морфолого-анатомическими, органолептическими и химическими показателями, что отражает переход к системным подходам в оценке качества растительного сырья .
Наряду с этим микроэлементы являются одним из факторов, определяющих токсикологическую безопасность ЛРС. Ряд элементов при превышении допустимых концентраций способен вызывать хронические интоксикации, повреждение органов и систем, а при длительном поступлении — канцерогенные эффекты , .
Несмотря на накопление значительного массива экспериментальных данных, интерпретация результатов микроэлементного анализа до настоящего времени остаётся неоднородной и часто опирается на упрощённые или концептуально устаревшие подходы.
Целью настоящей работы является критический анализ существующих методов интерпретации микроэлементного состава растений и обоснование применения иерархического кластерного анализа как системного метода, адекватного для решения задач фармакогнозии.
2. Основные результаты и обсуждение
В настоящее время можно выделить несколько подходов к анализу результатов элементного анализа лекарственных растений. Одним из наиболее распространённых подходов является интерпретация лекарственных растений как концентраторов отдельных микроэлементов. Подобный подход широко представлен в фармакогностической литературе, однако он вступает в противоречие с современными представлениями о физиологии минерального питания растений .
Многочисленные исследования показывают, что микроэлементный состав растений характеризуется выраженной онтогенетической изменчивостью . Так, для растений рода Pulmonaria показано, что содержание железа и ряда других микроэлементов существенно варьирует в течение вегетационного периода, достигая максимальных значений на ранних этапах развития и снижаясь к фазе плодоношения, с последующим увеличением к концу вегетации . Подобная динамика делает некорректным представление о растении как о концентраторах микроэлементов без учёта фазы развития и условий произрастания.
Кроме того, сама идея пассивного накопления микроэлементов противоречит данным физиологии растений, согласно которым поступление, транспорт и внутриклеточное распределение элементов находятся под жёстким контролем регуляторных механизмов и не сводятся к простой концентрации элементов из почвы . Следовательно, использование концепции «концентраторов» в задачах фармакогнозии является методологически необоснованным.
Другим широко используемым подходом является ранжирование микроэлементов по их содержанию. Экспериментальные данные при этом представляются в виде рядов элементов, упорядоченных по возрастанию или убыванию содержания , . Несмотря на простоту, данный подход носит исключительно описательный характер и не позволяет выявлять структурные особенности микроэлементного состава или сравнивать различные объекты по совокупности признаков.
Информативность ранжирования элементов крайне ограничена, поскольку оно не отражает многомерную организацию элементного профиля и не позволяет выявлять закономерности, связанные с биологической спецификой объекта исследования. Упорядочивание элементов по величине концентрации не даёт возможности количественно сравнивать микроэлементные профили различных растений или партий сырья и практически неприменимо для задач идентификации и стандартизации ЛРС.
К этой же группе условно относятся коэффициенты биологического накопления, рассчитываемые как отношение содержания элемента в растении к его концентрации в почве , . Несмотря на широкое использование в фитогеохимии, данный показатель является методологически несостоятельным для фармакогностических исследований. Отсутствие устойчивых зависимостей между содержанием микроэлементов в почве и растении, а также активная регуляция их поглощения приводят к тому, что коэффициенты биологического накопления не отражают ни биологической специфики растения, ни его фармакогностической значимости.
Третий подход к интерпретации микроэлементного состава растений основан на применении корреляционного анализа, при котором рассчитываются зависимости между концентрациями отдельных микроэлементов либо между микроэлементными профилями различных объектов. Корреляционный анализ широко используется для поиска статистических взаимосвязей между параметрами , однако его применение в задачах интерпретации микроэлементного состава растений сопровождается рядом принципиальных методологических ограничений .
С математической точки зрения коэффициент корреляции представляет собой нормированную ковариацию двух случайных величин и отражает исключительно линейный характер их взаимосвязи. При этом корреляционный анализ не учитывает нелинейные, пороговые и компенсаторные эффекты, характерные для биологических систем, в том числе для процессов минерального питания и микроэлементного гомеостаза растений .
Дополнительным ограничением является экспоненциальный рост числа парных сравнений при увеличении числа анализируемых элементов. При анализе микроэлементного состава, включающего десятки элементов, число корреляционных пар исчисляется сотнями, что резко снижает статистическую надёжность выводов и увеличивает вероятность ложноположительных результатов.
Корректное применение корреляционного анализа предполагает возможность управляемого изменения одной из переменных при фиксированных значениях остальных факторов. В случае исследования микроэлементного состава растений, произрастающих в природных условиях, данное требование не выполняется, поскольку элементный профиль формируется под воздействием множества одновременно действующих и взаимосвязанных факторов . В результате выявленные корреляции отражают не причинно-следственные связи, а случайные или контекстно обусловленные соотношения.
Часто корреляционный анализ дополняется визуализацией данных в виде линейных, радиальных или лепестковых диаграмм, построенных в координатах «концентрация элемента — его порядковый номер» . Использование порядковых номеров элементов в качестве координаты является математически некорректным, поскольку порядковый номер не является количественной переменной и не несёт метрической нагрузки. За исключением наглядного представления экспериментальных данных, подобные диаграммы не обладают самостоятельным аналитическим значением, поскольку отсутствуют количественные методы сравнения таких графических представлений. Любые выводы, основанные на визуальном сопоставлении диаграмм, носят субъективный характер и не могут быть использованы в системе стандартизации и контроля качества ЛРС.
Широко применяемое логарифмирование концентраций микроэлементов, направленное на уменьшение диапазона значений, не устраняет фундаментальных методологических ограничений анализа. Как показано в работах по хемометрике и многомерной классификации, нелинейные преобразования, включая логарифмирование, изменяют геометрию пространства признаков и могут искажать относительный вклад переменных при расчёте расстояний и формировании кластерной структуры данных
Наиболее адекватным способом анализа многомерных данных по микроэлементному составу растений является системный подход с использованием иерархического кластерного анализа . Данный метод позволяет выявлять структурные закономерности элементного состава и классифицировать объекты по степени сходства их многомерных профилей без априорных предположений о характере взаимосвязей между отдельными элементами.
Микроэлементный состав растения представляет собой совокупность количественных показателей — концентраций отдельных элементов. Каждая концентрация является непрерывной переменной и в этой связи микроэлементный профиль растения может быть представлен в виде вектора в n-мерном пространстве признаков , :
где xij — концентрация j-го микроэлемента в i-м образце (растительном объекте).
Такое векторное представление является общепринятым в многомерной статистике и не требует априорных предположений о функциональных связях между отдельными компонентами вектора, рассматривая объект как точку в пространстве признаков , . В этом случае микроэлементный состав растения интерпретируется как интегральная характеристика, сформированная под действием совокупности биологических, геохимических и аналитических факторов.
Микроэлементный состав растений характеризуется широким диапазоном концентраций: от макро- и микроэлементов до ультрамикроэлементов, различающихся на несколько порядков величины. Использование исходных значений концентраций допустимо лишь в случаях, когда диапазоны значений элементов сопоставимы или когда доминирование отдельных элементов является биологически значимым признаком , . Однако в большинстве фармакогностических исследований подобные предположения не имеют достаточного обоснования.
В этой связи нормирование данных является принципиально важным этапом кластерного анализа, поскольку выбор способа масштабирования непосредственно определяет геометрию пространства признаков и, как следствие, структуру формируемых кластеров.
В отличие от нелинейных преобразований, таких как логарифмирование, линейные преобразования не искажают геометрию пространства признаков и не нарушают интерпретируемость расстояний . Наиболее универсальным и методологически оправданным подходом является z-нормирование , :
где μj и σj — среднее значение и стандартное отклонение j-го элемента.
Z-нормирование приводит все координаты пространства признаков к сопоставимому масштабу и устраняет доминирование элементов с большими абсолютными концентрациями, сохраняя при этом структуру относительной вариабельности микроэлементного профиля.
Для кластерного анализа микроэлементных профилей лекарственных растений наиболее обоснованным является использование нормированных концентраций микроэлементов в сочетании с евклидовой метрикой и методом Уорда , , . Такой подход сохраняет многомерную структуру данных, минимизирует влияние масштабных эффектов и обеспечивает биологически интерпретируемое кластерное разделение. Сходство или различие между двумя микроэлементными профилями объектов i и k в n-мерном пространстве нормированных признаков количественно оценивается с помощью евклидова расстояния dik:
Евклидово расстояние обладает ясной геометрической интерпретацией как длина отрезка между двумя точками в n-мерном пространстве признаков. Вклад каждого микроэлемента в итоговое расстояние пропорционален квадрату разности его нормированных концентраций, что позволяет учитывать совокупный эффект различий по всем элементам, а не по отдельным парам , .
Иерархическая кластеризация осуществляется по агломеративному принципу, при котором каждый объект на начальном этапе рассматривается как отдельный кластер. Далее кластеры последовательно объединяются на основе некоего детерминированного критерия. Наиболее обоснованным для анализа микроэлементных профилей растений является метод Уорда, основанный на минимизации внутрикластерной дисперсии .
где μС — центр кластера с M – числом объектов, включенных в кластер:
Центр кластера — это точка в n-мерном пространстве признаков, представляющая данный кластер как единое целое и минимизирующая суммарное расстояние (или дисперсию) до всех объектов кластера в выбранной метрике.
На каждом шаге алгоритма объединяются такие два кластера Ca и Cb, для которых при слиянии минимально увеличивается суммарная внутрикластерная дисперсия:
Метод Уорда, таким образом, формирует кластеры, максимально однородные по микроэлементному составу
, , , что принципиально важно для задач идентификации, диагностики примесей и стандартизации лекарственного растительного сырья , .Важным преимуществом кластерного подхода является возможность прямого учёта индивидуальной изменчивости микроэлементного состава. Внутрикластерная дисперсия отражает естественную вариабельность образцов одного типа (вид, партия сырья, условия заготовки), тогда как межкластерные расстояния характеризуют степень различия между группами.
Формально различие кластеров можно оценивать через соотношение межкластерной и внутрикластерной дисперсий:
где d — расстояние между кластерами, а WSSa и WSSb — внутрикластерные дисперсии. Значения R>1 свидетельствуют о том, что различие между кластерами превышает уровень индивидуальной изменчивости внутри них и имеет биологическую и фармакогностическую значимость.
Каждая координата центра кластера является средним значением, а следовательно обладает собственной статистической неопределённостью. Если погрешность определения концентрации j-го микроэлемента в отдельном образце равна σj то стандартная ошибка координаты центра кластера определяется как :
Таким образом, с ростом объёма выборки центры кластеров становятся статистически устойчивыми интегральными характеристиками групп объектов, что позволяет использовать их для количественного сравнения микроэлементных профилей лекарственного растительного сырья в рамках евклидовой метрики и иерархической кластеризации , , .
В рассматриваемых исследованиях микроэлементный профиль растения описывается в пространстве размерности n, при этом индивидуальная вариабельность концентраций отдельных элементов, обусловленная как биологическими факторами, так и аналитической погрешностью, составляет ε . Каждый кластер может быть представлен своим центром — вектором средних концентраций микроэлементов. Индивидуальная изменчивость формирует вокруг центра кластера область неопределённости, отражающую естественные флуктуации микроэлементного состава внутри группы.
При изотропной индивидуальной изменчивости, характерной для многокомпонентных микроэлементных профилей, вклад вариаций по отдельным координатам в относительном выражении не суммируется линейно с ростом размерности пространства. В результате характерный относительный масштаб внутрикластерной вариабельности определяется величиной порядка относительной изменчивости отдельных координат и не превышает величину ε — относительной изменчивости концентраций элементов. Аналогично и Евклидово расстояние между центрами двух кластеров также обладает относительной погрешностью порядка ε. Следовательно, если относительное расстояние между центрами кластеров превышает величину индивидуальной изменчивости, различие между ними выходит за пределы внутрикластерных флуктуаций и не может быть объяснено случайной вариабельностью микроэлементного состава.
В рамках предлагаемого методологического подхода различимость кластеров предлагается оценивать на основе соотношения межкластерных расстояний и уровня индивидуальной изменчивости микроэлементного состава. При относительной индивидуальной вариабельности концентраций микроэлементов порядка ε кластеры могут рассматриваться как различимые, если относительное евклидово расстояние между их центрами превышает указанную величину. Данный критерий носит методологический характер и направлен на согласование результатов кластерного анализа с биологически обусловленной вариабельностью микроэлементного профиля растений, что особенно важно для фармакогностических и фитохимических исследований.
Результаты иерархической кластеризации микроэлементных профилей визуализируются в виде дендрограмм, отражающих последовательность агломерации объектов и степень их сходства. Дендрограмма представляет собой графическое отображение процесса объединения кластеров в соответствии с выбранной метрикой расстояния и методом агломерации.
В фармакогностических исследованиях дендрограммы позволяют выявлять группы образцов с близкими микроэлементными профилями, которые могут интерпретироваться как отражение видовой специфичности, условий произрастания, особенностей заготовки или наличия примесей , . В отличие от визуальных диаграмм концентраций, дендрограмма имеет строгую математическую основу и допускает количественную интерпретацию расстояний между объектами и кластерами.
Важно подчеркнуть, что дендрограмма не является самостоятельным методом анализа, а представляет собой способ визуализации результатов кластеризации. Интерпретация дендрограммы должна опираться на количественные характеристики кластеров — координаты их центров, внутрикластерные дисперсии и межкластерные расстояния. Попытки использовать форму дендрограммы без анализа этих параметров приводят к субъективным и методологически необоснованным выводам.
При использовании метода Уорда высота слияния кластеров на дендрограмме соответствует увеличению суммарной внутрикластерной дисперсии. Резкие скачки высоты агломерации указывают на объединение существенно различающихся кластеров и могут служить дополнительным ориентиром при выборе уровня отсечения дендрограммы. Однако окончательное решение о числе кластеров должно приниматься на основе соотношения межкластерных расстояний и уровня индивидуальной изменчивости, а не только визуальных критериев.
3. Заключение
Применение иерархического кластерного анализа в фармакогностических исследованиях позволяет рассматривать микроэлементный состав лекарственного растительного сырья как интегральную характеристику, сформированную под воздействием совокупности биологических и экологических факторов. Такой подход принципиально отличается от анализа отдельных элементов и обеспечивает системную оценку объекта исследования.
Кластерный анализ позволяет решать ряд практических задач, включая идентификацию и подтверждение подлинности ЛРС, выявление примесей и атипичных образцов, а также оценку однородности партий ЛРС. Показано, что микроэлементные профили, обработанные методами иерархической кластеризации, обладают достаточной воспроизводимостью и чувствительностью для диагностики отклонений от эталонных характеристик.
Использование центров кластеров в качестве интегральных характеристик позволяет перейти от сравнения отдельных измерений к сопоставлению устойчивых статистических объектов. Это особенно важно в условиях выраженной индивидуальной изменчивости микроэлементного состава, характерной для растительного сырья. В отличие от одиночных значений концентраций, центры кластеров обладают меньшей статистической неопределённостью и более высокой интерпретируемостью.
Таким образом, иерархический кластерный анализ может рассматриваться как методологическая основа для разработки новых подходов к стандартизации ЛРС, дополняющих и расширяющих традиционные фармакопейные критерии качества.
