Методы машинного обучения в прогнозировании урожайности сельхозкультур

Научная статья
DOI:
https://doi.org/10.60797/IRJ.2025.162.119
Выпуск: № 12 (162), 2025
Предложена:
18.09.2025
Принята:
28.11.2025
Опубликована:
17.12.2025
74
1
XML
PDF

Аннотация

В статье выполнена систематизация и дана критическая оценка современных методов машинного обучения для прогнозирования урожайности сельскохозяйственных культур на основе агрометеорологических и дистанционных данных с акцентом на регионы Северного Кавказа. В рамках обзора проанализированы классы моделей (регрессионные, ансамблевые деревья, градиентный бустинг, глубокие нейронные сети CNN/LSTM/ConvLSTM), источники данных (метеостанции, реанализы, почвенно-агрохимические обследования, индексы растительности NDVI/EVI, орографические предикторы) и протоколы валидации.

Показано, что комплексирование наземных и спутниковых признаков, фазовая агрегация метеопараметров и пространственная стратификация существенно повышают точность прогнозов относительно классических регрессионных подходов, а методы XAI (SHAP/LIME) повышают доверие к результатам за счёт объяснимости. Для Северного Кавказа ключевыми предикторами выступают распределение осадков по критическим фазам, температурные аномалии, запасы продуктивной влаги и орография; целесообразны кластерные схемы по агроклиматическим зонам и интеграция вероятностных сезонных прогнозов погоды. Обсуждаются ограничения такие как качество данных, переобучение, переносимость в условиях климатических трендов и направления дальнейшего развития.

1. Введение

Колебания урожайности сельскохозяйственных культур в регионах с контрастными метеоусловиями и сложной орографией, таких как Северный Кавказ, определяются комплексным влиянием теплового режима, влагообеспеченности, солнечной радиации и применяемых агротехнологий

. Для аграрного сектора точные прогнозы урожайности имеют стратегическое значение: они позволяют планировать распределение ресурсов, оптимизировать систему удобрений и орошения, снижать риски для фермеров и агрохолдингов, а также поддерживать продовольственную безопасность региона и страны в целом.

Традиционные методы агрометеорологических прогнозов включают многомерные регрессионные модели и процессные модели роста растений (CERES-Maize, CERES-Wheat, Sirius, DSSAT/CSM). Эти подходы заложили методологическую основу, однако ограничены предположением линейности зависимостей, высокой требовательностью к параметризации и слабой переносимостью между агроклиматическими зонами

,
. В условиях климатического дрейфа и учащения экстремальных явлений (засухи, периоды аномальной жары, неравномерное распределение осадков) данные ограничения становятся особенно критичными.

Развитие технологий дистанционного зондирования Земли (MODIS, Sentinel, «Электро»), появление специализированных сервисов («Вега») и доступность многоспектральных и реанализных данных создали возможность формирования обширных массивов гетерогенных предикторов. Одновременно прогресс в методах машинного обучения (Random Forest, градиентный бустинг) и глубоких нейронных сетях (CNN, LSTM, ConvLSTM) позволил извлекать сложные нелинейные зависимости, учитывать пространственно-временную динамику и адаптировать модели к локальным условиям

,
,
. Важным этапом стало внедрение методов объяснимого ИИ (SHAP, LIME), которые обеспечивают интерпретацию прогнозов и повышают доверие к результатам.

Актуальность использования машинного обучения обусловлена современными тенденциями: растущей неопределённостью климатических условий и высокой межгодовой изменчивостью урожайности

. На Северном Кавказе соседствуют засушливые степные зоны и увлажнённые предгорья, что требует моделей, учитывающих пространственную неоднородность агроландшафтов и чувствительность к критическим фазам вегетации. Традиционные статистические и процессные модели оказываются недостаточными, тогда как современные подходы машинного обучения позволяют интегрировать метеорологические, почвенные и спутниковые данные, строить адаптивные региональные прогнозы и формировать вероятностные сценарии урожайности
,
. Это делает задачу развития и внедрения методов машинного обучения ключевой как для научного сообщества, так и для практики агропромышленного комплекса региона.

2. Методы и принципы исследования

Базовой физической метрикой сезонного развития сельскохозяйственных культур является сумма активных температур (Growing Degree Days, GDD):

(1)

а для культур, чувствительных к длине светового дня (например, озимой пшеницы) — фототермическое время:

(2)

где функция f учитывает длину светового дня

,
,
.

В процессных моделях прирост биомассы часто формализуют через использование солнечной радиации:

(3)

где RUE — коэффициент использования радиации, PAR — фотосинтетически активная радиация, k — коэффициент экстинкции, LAI — листовой индекс

.

В области статистики и машинного обучения переход от линейных моделей:

(4)

к ансамблевым методам и глубоким нейросетям значительно улучшил возможность учета нелинейных зависимостей

,
:

Случайный лес (Random Forest):

(5)

где Tm(X)отдельное дерево решений, M — количество деревьев в ансамбле,

Градиентный бустинг (Gradient Boosting):

(6)

где Fm(x) — модель на шаге m, hm(x) — слабый ученик (обычно дерево решений), ν — темп обучения (learning rate).

Эти два подхода представляют разные философии построения ансамблей

:

Случайный лес использует бэггинг (bootstrap aggregating) — параллельное построение независимых деревьев на различных подвыборках данных с последующим усреднением их предсказаний. Это уменьшает дисперсию модели и повышает устойчивость к переобучению.

Градиентный бустинг использует последовательное обучение — каждое новое дерево строится для исправления ошибок предыдущих деревьев. Параметр ν (обычно 0,01-0,1) контролирует скорость обучения и предотвращает переобучение.

Использование нейронных сетей, в частности рекуррентные сети (Recurrent Neural Network, RNN), сети с долговременной и кратковременной памятью (Long Short-Term Memory, LSTM), сети содержащие рекуррентный блок с вентилем (Gated Recurrent Unit, GRU), сверточные нейронные сети (Convolutional Neural Networks, CNN), пространственно-временные ансамбли на основе сверточной сети с долгосрочной и краткосрочной памятью (Convolutional LSTM, ConvLSTM) позволяют учитывать сезонную динамику метеорологических данных и вегетационных индексов

,
,
.

2.1. Используемые данные и предикторы

Метеопараметры. Суточные и декадные значения Tmin, Tmax, вид и интенсивность осадков, суммы активных температур (GDD), суммы осадков по фазам развития растений (кущение, выход в трубку, колошение, налив), индексы засушливости (гидротермический коэффициент Селянинова (ГТК), эвапорометрический коэффициент (Кэ) А.А. Скворцова, «коэффициент соответствия тепла и влаги» Д.И. Абрамовича, гидротермический показатель В.Г. Нестерова, коэффициентов увлажнения Н.В. Бова, Е.С. Улановой и др.), продолжительность засушливых и жарких периодов.

Почвенно-агрохимические данные. Содержание гумуса, pH, содержание азота, фосфора и калия (N-P-K), гранулометрический состав, влагоемкость. Их анализ предшествует внесению удобрений и выбору способов проведения орошения.

Данные дистанционного зондирования. Вегетационные индексы NDVI/EVI — их максимальные значения и интеграл за сезон, скорость нарастания биомассы, фотосинтетический потенциал; текстурные признаки со спутниковых снимков; орографические предикторы, например, высота, уклон, экспозиция и др.

,
,
.

Основные ограничения связаны с неполнотой и неоднородностью исторических данных (особенно 90-х годов), риском переобучения на малых выборках, климатическим дрейфом и проблемами совместимости разнородных источников информации

,
. Для их преодоления необходимы регуляризация, строгие протоколы валидации и локальная адаптация моделей.

Предобработка и агрегация данных включала:

– очистку от выбросов и заполнение пропусков;

– агрегацию погодных признаков по фазам развития растений;

– расчет скользящих статистик на окнах 7–30 суток для экстремальных значений;

– нормализацию или бинаризацию категориальных факторов (предшествующая культура, мероприятия по защите растений), сезонные фенологические метрики (даты начала и конца сезона вегетации, амплитуда, площадь под кривой).

Модели и методы:

1) фенологические модели. Формулы GDD/PTT и фотосинтетического прироста биомассы ΔW;

2) базовые модели. Множественная регрессия и регуляризованные обобщенные линейные модели LASSO/ElasticNet;

3) ансамблевые методы и бустинг. Random Forest; XGBoost/LightGBM/CatBoost градиентный бустинг, с функцией потерь L = ∑ℓ(yi, F(xi)) + Ω(F) и регуляризацией Ω

,
;

4) глубокие нейросети. MLP для табличных данных; LSTM/GRU для временных рядов погоды и вегетационных индексов; CNN/ConvLSTM для пространственно-временных данных

,
;

5) интерпретация моделей (XAI). SHAP-анализ для объяснения вклада признаков

;

6) гибридные подходы. Комбинация процессных моделей DSSAT/Sirius с корректорами систематических ошибок машинного обучения; ансамбли "бустинг + LSTM"

,
;

7) целевая переменная. Урожайность (т/га) по культурам и административным районам/хозяйствам;

8) метрики оценки: R², RMSE, MAE, MAPE;

9) валидация. Сквозная проверка по годам Leave-One-Year-Out (LOYO), пространственно-стратифицированная кросс-валидация, тестирование на экстремальные годы (засухи, сильная жара)

;

10) учет особенностей региона. Разделение Северного Кавказа на подзоны (засушливые степи востока, предгорные степи, увлажненные предгорья и долины) с обучением отдельных моделей для каждой зоны или введением индикаторов зоны. Учитывая особенности Северо-Кавказского региона с его разнообразием микроклиматов и рисками (жара, засуха, град) необходимо сочетать биофизические модели с методами машинного обучения с учетом пространственной стратификации.

3. Основные результаты

Проведённый сравнительный анализ показал преимущество ансамблевых методов и гибридных подходов над линейными базовыми моделями. Включение нелинейных зависимостей позволило снизить RMSE на 15–35% и увеличить коэффициент детерминации R² до диапазона 0,75–0,90 в зависимости от культуры, горизонта прогноза и набора признаков. Особенно устойчивым оказалось использование вегетационных индексов NDVI/EVI и фенологических метрик: добавление этих предикторов к метеопараметрам (в моделях XGBoost и CatBoost) повышало точность прогноза на 0,05–0,15 по R².

Динамические архитектуры (LSTM, GRU) показали преимущество на среднесрочных горизонтах прогноза (T2–T3), благодаря учёту временной структуры погодных рядов и фаз вегетации. Пространственно-временные модели ConvLSTM дополнительно учитывали градиенты увлажнения и орографические факторы. Они показали лучшую адаптацию в условиях Северного Кавказа при учёте орографических и почвенных инвариантов (высота над уровнем моря, уклон, типы почв, влагоёмкость, ёмкость катионного обмена), а также при использовании калиброванных и стабильных индексов ДЗЗ (NDVI/EVI).

Объединение статичных (почвенно-агрохимических, орографических) и динамических (погода, индексы вегетации) предикторов сформировало основу устойчивой фичеризации.

SHAP-анализ подтвердил биофизическую обоснованность признаков: для озимой пшеницы и кукурузы систематически выделялись суммы осадков по фазам развития, амплитуда NDVI и количество жарких дней (T_max > 30 °C) в период май–июль. В целом, в интерпретации моделей регулярно фигурировали 5–7 ключевых предикторов, среди которых осадки, температурные экстремумы и запасы влаги весной входили в число наиболее значимых. Для повышения объяснимости и практического применения результатов работы нейросетевых моделей проводилась интеграция методов объяснимого ИИ (XAI), что значительно повышает доверие к результатам, позволяя связывать прогнозы с конкретными агрометеорологическими условиями, создавая отчеты вида: «снижение урожайности связано с дефицитом осадков в период дата1–дата2, повышенным числом жарких дней и низкими запасами влаги весной».

Использование единой модели для всего региона оказалось менее эффективно, чем кластеризация по агроклиматическим подзонам (по показателям ГТК, высоте, распределению осадков). Такой подход снижал RMSE на 7–12% и повышал устойчивость прогноза в экстремальные годы (засуха, жара).

Комбинированные модели, совмещающие DSSAT/Sirius и машинное обучение, обеспечивают физически обоснованную динамику роста культур с одновременной коррекцией систематических ошибок. Такой подход позволил сохранять интерпретируемость модели и использовать сценарии погодных изменений для вероятностной оценки урожайности.

Гибридизация снимает часть ограничений «черного ящика»: биофизическая динамика задает рамки экстраполяции при климатических дрейфах, а машинное обучение позволяет скорректировать статистические смещения, опираясь на фактические наблюдения. Особенно продуктивным этот подход оказывается в условиях дефицита длинных репрезентативных рядов и при наличии выраженных трендов.

Основные сложности создавали переобучение на малых и неоднородных выборках, утечка целевой переменной при извлечении признаков, климатический дрейф и несовместимость пространственных масштабов (поле — район — спутниковый пиксель). Для их минимизации в какой-то мере эффективными оказались: сквозная и пространственно-стратифицированная валидация, присваивание версий разнородным данным, мониторинг дрейфа, перекалибровка, регуляризация и методы доменной адаптации, согласование пространственного разрешения через разбиение на тайловые агрегаты.

4. Обсуждение

Для практического получения адаптируемых моделей и их внедрения в региональные структуры агропромышленного комплекса целесообразно использовать «минимальный жизнеспособный контур», включающий:

– модуль сбора и очистки метеорологических и спутниковых данных;

– библиотеку фазовых и экстремальных признаков (осадки, жара, засушливость, NDVI/EVI);

– ансамблевый бустинг как основной предиктор и LSTM/ConvLSTM для сезонных траекторий;

– XAI-слой (SHAP) с отчётами;

– двойной вывод (точечный прогноз и вероятностные квантили);

– регулярную перекалибровку и стресс-тестирование на экстремальных годах.

Для Северного Кавказа показала эффективность параллельная модельная настройка по подзонам (степи, предгорья, увлажнённые долины) с последующей «мягкой» ансамблизацией.

5. Заключение

Современные методы машинного обучения, в частности градиентный бустинг и гибридные подходы с глубоким обучением, демонстрируют высокую эффективность в прогнозировании урожайности сельскохозяйственных культур. Интеграция наземных и спутниковых данных позволяет существенно повысить точность и заблаговременность прогнозов, при этом сохраняя их интерпретируемость.

Региональная специфика Северного Кавказа требует особого подхода к построению прогнозных моделей. Наилучшие результаты достигаются при реализации следующих методологических принципов:

1. Комплексный анализ метеоданных с учетом фазовой агрегации показателей и экстремальных значений.

2. Пространственная дифференциация территорий по агроклиматическим зонам.

3. Мониторинг вегетации через анализ сезонной динамики индексов NDVI/EVI с учетом орографических факторов.

4. Объяснимый искусственный интеллект на базе современных методов интерпретации моделей (SHAP, LIME).

5. Интегративный подход к прогнозированию с учетом вероятностных сезонных прогнозов погоды.

Выполненный обзор и тесты подтверждают, что интеграция машинного обучения с дистанционным зондированием и агрометеорологическими предикторами формирует на текущем этапе наиболее успешную комбинацию для оперативных и предсезонных оценок урожайности. По сравнению с традиционными регрессионными подходами ансамблевые методы (XGBoost/LightGBM/CatBoost) и гибриды с глубокими нейронными сетями (LSTM/ConvLSTM) устойчиво снижают RMSE на 15–35% и поднимают R² до 0,75–0,90, особенно при корректной фазовой агрегации погоды и использовании фенологических метрик NDVI/EVI. Для Северного Кавказа наибольший вклад вносят суммы осадков в критические фазы, число жарких дней, весенние запасы влаги и орография; это согласуется с агрономической теорией и подтверждается XAI-разбором вкладов признаков (SHAP), повышающим доверие пользователей.

Таким образом, сочетание бустингов и гибридных нейронных сетей с физически обоснованной фичеризацией и XAI-интерпретацией позволяет уже сегодня получить устойчивые, полезные для принятия решений прогнозы урожайности. Выигрыш максимален при фазовой агрегации погодных факторов, учёте экстремумов, использовании NDVI/EVI и орографических предикторов, кластерной стратификации и вероятностном выводе. Эти принципы обеспечивают баланс точности, объяснимости и переносимости — ключевых требований к прикладным агропроизводственным решениям в условиях климатической изменчивости региона.

Перспективные направления для дальнейших исследований, согласно обзору, связаны с развитием пространственно-временных моделей (например, ансамбли на основе ConvLSTM), внедрением федеративного обучения для работы с данными конкретных хозяйств без их централизации, а также унификацией прочих региональных данных с применением робастных методов валидации. Реализация этих подходов будет способствовать созданию устойчивых и эффективных систем поддержки принятия решений в агропромышленном комплексе.

Метрика статьи

Просмотров:74
Скачиваний:1
Просмотры
Всего:
Просмотров:74