Machine learning methods in crop yield forecasting

Research article
DOI:
https://doi.org/10.60797/IRJ.2025.162.119
Issue: № 12 (162), 2025
Suggested:
18.09.2025
Accepted:
28.11.2025
Published:
17.12.2025
16
0
XML
PDF

Abstract

The article systematises and critically evaluates modern machine learning methods for predicting crop yields based on agrometeorological and remote sensing data, with a focus on the North Caucasus region. The review analyses model classes (regression, ensemble trees, gradient boosting, deep neural networks CNN/LSTM/ConvLSTM), data sources (weather stations, reanalyses, soil and agrochemical surveys, NDVI/EVI vegetation indices, orographic predictors) and validation protocols.

It has been shown that the combination of ground-based and satellite features, phase aggregation of meteorological parameters, and spatial stratification significantly improve the accuracy of forecasts compared to classical regression approaches, while XAI methods (SHAP/LIME) increase confidence in the results due to their explainability. For the North Caucasus, the key predictors are precipitation distribution across critical phases, temperature anomalies, productive moisture reserves, and orography; cluster schemes by agroclimatic zones and the integration of probabilistic seasonal weather forecasts are advisable. Limitations such as data quality, retraining, transferability in the context of climate trends, and directions for further development are discussed.

1. Введение

Колебания урожайности сельскохозяйственных культур в регионах с контрастными метеоусловиями и сложной орографией, таких как Северный Кавказ, определяются комплексным влиянием теплового режима, влагообеспеченности, солнечной радиации и применяемых агротехнологий

. Для аграрного сектора точные прогнозы урожайности имеют стратегическое значение: они позволяют планировать распределение ресурсов, оптимизировать систему удобрений и орошения, снижать риски для фермеров и агрохолдингов, а также поддерживать продовольственную безопасность региона и страны в целом.

Традиционные методы агрометеорологических прогнозов включают многомерные регрессионные модели и процессные модели роста растений (CERES-Maize, CERES-Wheat, Sirius, DSSAT/CSM). Эти подходы заложили методологическую основу, однако ограничены предположением линейности зависимостей, высокой требовательностью к параметризации и слабой переносимостью между агроклиматическими зонами

,
. В условиях климатического дрейфа и учащения экстремальных явлений (засухи, периоды аномальной жары, неравномерное распределение осадков) данные ограничения становятся особенно критичными.

Развитие технологий дистанционного зондирования Земли (MODIS, Sentinel, «Электро»), появление специализированных сервисов («Вега») и доступность многоспектральных и реанализных данных создали возможность формирования обширных массивов гетерогенных предикторов. Одновременно прогресс в методах машинного обучения (Random Forest, градиентный бустинг) и глубоких нейронных сетях (CNN, LSTM, ConvLSTM) позволил извлекать сложные нелинейные зависимости, учитывать пространственно-временную динамику и адаптировать модели к локальным условиям

,
,
. Важным этапом стало внедрение методов объяснимого ИИ (SHAP, LIME), которые обеспечивают интерпретацию прогнозов и повышают доверие к результатам.

Актуальность использования машинного обучения обусловлена современными тенденциями: растущей неопределённостью климатических условий и высокой межгодовой изменчивостью урожайности

. На Северном Кавказе соседствуют засушливые степные зоны и увлажнённые предгорья, что требует моделей, учитывающих пространственную неоднородность агроландшафтов и чувствительность к критическим фазам вегетации. Традиционные статистические и процессные модели оказываются недостаточными, тогда как современные подходы машинного обучения позволяют интегрировать метеорологические, почвенные и спутниковые данные, строить адаптивные региональные прогнозы и формировать вероятностные сценарии урожайности
,
. Это делает задачу развития и внедрения методов машинного обучения ключевой как для научного сообщества, так и для практики агропромышленного комплекса региона.

2. Методы и принципы исследования

Базовой физической метрикой сезонного развития сельскохозяйственных культур является сумма активных температур (Growing Degree Days, GDD):

(1)

а для культур, чувствительных к длине светового дня (например, озимой пшеницы) — фототермическое время:

(2)

где функция f учитывает длину светового дня

,
,
.

В процессных моделях прирост биомассы часто формализуют через использование солнечной радиации:

(3)

где RUE — коэффициент использования радиации, PAR — фотосинтетически активная радиация, k — коэффициент экстинкции, LAI — листовой индекс

.

В области статистики и машинного обучения переход от линейных моделей:

(4)

к ансамблевым методам и глубоким нейросетям значительно улучшил возможность учета нелинейных зависимостей

,
:

Случайный лес (Random Forest):

(5)

где Tm(X)отдельное дерево решений, M — количество деревьев в ансамбле,

Градиентный бустинг (Gradient Boosting):

(6)

где Fm(x) — модель на шаге m, hm(x) — слабый ученик (обычно дерево решений), ν — темп обучения (learning rate).

Эти два подхода представляют разные философии построения ансамблей

:

Случайный лес использует бэггинг (bootstrap aggregating) — параллельное построение независимых деревьев на различных подвыборках данных с последующим усреднением их предсказаний. Это уменьшает дисперсию модели и повышает устойчивость к переобучению.

Градиентный бустинг использует последовательное обучение — каждое новое дерево строится для исправления ошибок предыдущих деревьев. Параметр ν (обычно 0,01-0,1) контролирует скорость обучения и предотвращает переобучение.

Использование нейронных сетей, в частности рекуррентные сети (Recurrent Neural Network, RNN), сети с долговременной и кратковременной памятью (Long Short-Term Memory, LSTM), сети содержащие рекуррентный блок с вентилем (Gated Recurrent Unit, GRU), сверточные нейронные сети (Convolutional Neural Networks, CNN), пространственно-временные ансамбли на основе сверточной сети с долгосрочной и краткосрочной памятью (Convolutional LSTM, ConvLSTM) позволяют учитывать сезонную динамику метеорологических данных и вегетационных индексов

,
,
.

2.1. Используемые данные и предикторы

Метеопараметры. Суточные и декадные значения Tmin, Tmax, вид и интенсивность осадков, суммы активных температур (GDD), суммы осадков по фазам развития растений (кущение, выход в трубку, колошение, налив), индексы засушливости (гидротермический коэффициент Селянинова (ГТК), эвапорометрический коэффициент (Кэ) А.А. Скворцова, «коэффициент соответствия тепла и влаги» Д.И. Абрамовича, гидротермический показатель В.Г. Нестерова, коэффициентов увлажнения Н.В. Бова, Е.С. Улановой и др.), продолжительность засушливых и жарких периодов.

Почвенно-агрохимические данные. Содержание гумуса, pH, содержание азота, фосфора и калия (N-P-K), гранулометрический состав, влагоемкость. Их анализ предшествует внесению удобрений и выбору способов проведения орошения.

Данные дистанционного зондирования. Вегетационные индексы NDVI/EVI — их максимальные значения и интеграл за сезон, скорость нарастания биомассы, фотосинтетический потенциал; текстурные признаки со спутниковых снимков; орографические предикторы, например, высота, уклон, экспозиция и др.

,
,
.

Основные ограничения связаны с неполнотой и неоднородностью исторических данных (особенно 90-х годов), риском переобучения на малых выборках, климатическим дрейфом и проблемами совместимости разнородных источников информации

,
. Для их преодоления необходимы регуляризация, строгие протоколы валидации и локальная адаптация моделей.

Предобработка и агрегация данных включала:

– очистку от выбросов и заполнение пропусков;

– агрегацию погодных признаков по фазам развития растений;

– расчет скользящих статистик на окнах 7–30 суток для экстремальных значений;

– нормализацию или бинаризацию категориальных факторов (предшествующая культура, мероприятия по защите растений), сезонные фенологические метрики (даты начала и конца сезона вегетации, амплитуда, площадь под кривой).

Модели и методы:

1) фенологические модели. Формулы GDD/PTT и фотосинтетического прироста биомассы ΔW;

2) базовые модели. Множественная регрессия и регуляризованные обобщенные линейные модели LASSO/ElasticNet;

3) ансамблевые методы и бустинг. Random Forest; XGBoost/LightGBM/CatBoost градиентный бустинг, с функцией потерь L = ∑ℓ(yi, F(xi)) + Ω(F) и регуляризацией Ω

,
;

4) глубокие нейросети. MLP для табличных данных; LSTM/GRU для временных рядов погоды и вегетационных индексов; CNN/ConvLSTM для пространственно-временных данных

,
;

5) интерпретация моделей (XAI). SHAP-анализ для объяснения вклада признаков

;

6) гибридные подходы. Комбинация процессных моделей DSSAT/Sirius с корректорами систематических ошибок машинного обучения; ансамбли "бустинг + LSTM"

,
;

7) целевая переменная. Урожайность (т/га) по культурам и административным районам/хозяйствам;

8) метрики оценки: R², RMSE, MAE, MAPE;

9) валидация. Сквозная проверка по годам Leave-One-Year-Out (LOYO), пространственно-стратифицированная кросс-валидация, тестирование на экстремальные годы (засухи, сильная жара)

;

10) учет особенностей региона. Разделение Северного Кавказа на подзоны (засушливые степи востока, предгорные степи, увлажненные предгорья и долины) с обучением отдельных моделей для каждой зоны или введением индикаторов зоны. Учитывая особенности Северо-Кавказского региона с его разнообразием микроклиматов и рисками (жара, засуха, град) необходимо сочетать биофизические модели с методами машинного обучения с учетом пространственной стратификации.

3. Основные результаты

Проведённый сравнительный анализ показал преимущество ансамблевых методов и гибридных подходов над линейными базовыми моделями. Включение нелинейных зависимостей позволило снизить RMSE на 15–35% и увеличить коэффициент детерминации R² до диапазона 0,75–0,90 в зависимости от культуры, горизонта прогноза и набора признаков. Особенно устойчивым оказалось использование вегетационных индексов NDVI/EVI и фенологических метрик: добавление этих предикторов к метеопараметрам (в моделях XGBoost и CatBoost) повышало точность прогноза на 0,05–0,15 по R².

Динамические архитектуры (LSTM, GRU) показали преимущество на среднесрочных горизонтах прогноза (T2–T3), благодаря учёту временной структуры погодных рядов и фаз вегетации. Пространственно-временные модели ConvLSTM дополнительно учитывали градиенты увлажнения и орографические факторы. Они показали лучшую адаптацию в условиях Северного Кавказа при учёте орографических и почвенных инвариантов (высота над уровнем моря, уклон, типы почв, влагоёмкость, ёмкость катионного обмена), а также при использовании калиброванных и стабильных индексов ДЗЗ (NDVI/EVI).

Объединение статичных (почвенно-агрохимических, орографических) и динамических (погода, индексы вегетации) предикторов сформировало основу устойчивой фичеризации.

SHAP-анализ подтвердил биофизическую обоснованность признаков: для озимой пшеницы и кукурузы систематически выделялись суммы осадков по фазам развития, амплитуда NDVI и количество жарких дней (T_max > 30 °C) в период май–июль. В целом, в интерпретации моделей регулярно фигурировали 5–7 ключевых предикторов, среди которых осадки, температурные экстремумы и запасы влаги весной входили в число наиболее значимых. Для повышения объяснимости и практического применения результатов работы нейросетевых моделей проводилась интеграция методов объяснимого ИИ (XAI), что значительно повышает доверие к результатам, позволяя связывать прогнозы с конкретными агрометеорологическими условиями, создавая отчеты вида: «снижение урожайности связано с дефицитом осадков в период дата1–дата2, повышенным числом жарких дней и низкими запасами влаги весной».

Использование единой модели для всего региона оказалось менее эффективно, чем кластеризация по агроклиматическим подзонам (по показателям ГТК, высоте, распределению осадков). Такой подход снижал RMSE на 7–12% и повышал устойчивость прогноза в экстремальные годы (засуха, жара).

Комбинированные модели, совмещающие DSSAT/Sirius и машинное обучение, обеспечивают физически обоснованную динамику роста культур с одновременной коррекцией систематических ошибок. Такой подход позволил сохранять интерпретируемость модели и использовать сценарии погодных изменений для вероятностной оценки урожайности.

Гибридизация снимает часть ограничений «черного ящика»: биофизическая динамика задает рамки экстраполяции при климатических дрейфах, а машинное обучение позволяет скорректировать статистические смещения, опираясь на фактические наблюдения. Особенно продуктивным этот подход оказывается в условиях дефицита длинных репрезентативных рядов и при наличии выраженных трендов.

Основные сложности создавали переобучение на малых и неоднородных выборках, утечка целевой переменной при извлечении признаков, климатический дрейф и несовместимость пространственных масштабов (поле — район — спутниковый пиксель). Для их минимизации в какой-то мере эффективными оказались: сквозная и пространственно-стратифицированная валидация, присваивание версий разнородным данным, мониторинг дрейфа, перекалибровка, регуляризация и методы доменной адаптации, согласование пространственного разрешения через разбиение на тайловые агрегаты.

4. Обсуждение

Для практического получения адаптируемых моделей и их внедрения в региональные структуры агропромышленного комплекса целесообразно использовать «минимальный жизнеспособный контур», включающий:

– модуль сбора и очистки метеорологических и спутниковых данных;

– библиотеку фазовых и экстремальных признаков (осадки, жара, засушливость, NDVI/EVI);

– ансамблевый бустинг как основной предиктор и LSTM/ConvLSTM для сезонных траекторий;

– XAI-слой (SHAP) с отчётами;

– двойной вывод (точечный прогноз и вероятностные квантили);

– регулярную перекалибровку и стресс-тестирование на экстремальных годах.

Для Северного Кавказа показала эффективность параллельная модельная настройка по подзонам (степи, предгорья, увлажнённые долины) с последующей «мягкой» ансамблизацией.

5. Заключение

Современные методы машинного обучения, в частности градиентный бустинг и гибридные подходы с глубоким обучением, демонстрируют высокую эффективность в прогнозировании урожайности сельскохозяйственных культур. Интеграция наземных и спутниковых данных позволяет существенно повысить точность и заблаговременность прогнозов, при этом сохраняя их интерпретируемость.

Региональная специфика Северного Кавказа требует особого подхода к построению прогнозных моделей. Наилучшие результаты достигаются при реализации следующих методологических принципов:

1. Комплексный анализ метеоданных с учетом фазовой агрегации показателей и экстремальных значений.

2. Пространственная дифференциация территорий по агроклиматическим зонам.

3. Мониторинг вегетации через анализ сезонной динамики индексов NDVI/EVI с учетом орографических факторов.

4. Объяснимый искусственный интеллект на базе современных методов интерпретации моделей (SHAP, LIME).

5. Интегративный подход к прогнозированию с учетом вероятностных сезонных прогнозов погоды.

Выполненный обзор и тесты подтверждают, что интеграция машинного обучения с дистанционным зондированием и агрометеорологическими предикторами формирует на текущем этапе наиболее успешную комбинацию для оперативных и предсезонных оценок урожайности. По сравнению с традиционными регрессионными подходами ансамблевые методы (XGBoost/LightGBM/CatBoost) и гибриды с глубокими нейронными сетями (LSTM/ConvLSTM) устойчиво снижают RMSE на 15–35% и поднимают R² до 0,75–0,90, особенно при корректной фазовой агрегации погоды и использовании фенологических метрик NDVI/EVI. Для Северного Кавказа наибольший вклад вносят суммы осадков в критические фазы, число жарких дней, весенние запасы влаги и орография; это согласуется с агрономической теорией и подтверждается XAI-разбором вкладов признаков (SHAP), повышающим доверие пользователей.

Таким образом, сочетание бустингов и гибридных нейронных сетей с физически обоснованной фичеризацией и XAI-интерпретацией позволяет уже сегодня получить устойчивые, полезные для принятия решений прогнозы урожайности. Выигрыш максимален при фазовой агрегации погодных факторов, учёте экстремумов, использовании NDVI/EVI и орографических предикторов, кластерной стратификации и вероятностном выводе. Эти принципы обеспечивают баланс точности, объяснимости и переносимости — ключевых требований к прикладным агропроизводственным решениям в условиях климатической изменчивости региона.

Перспективные направления для дальнейших исследований, согласно обзору, связаны с развитием пространственно-временных моделей (например, ансамбли на основе ConvLSTM), внедрением федеративного обучения для работы с данными конкретных хозяйств без их централизации, а также унификацией прочих региональных данных с применением робастных методов валидации. Реализация этих подходов будет способствовать созданию устойчивых и эффективных систем поддержки принятия решений в агропромышленном комплексе.

Article metrics

Views:16
Downloads:0
Views
Total:
Views:16