MODELLING AND FORECASTING THE EFFECTIVENESS OF THE EDUCATIONAL PROCESS AT UNIVERSITIES
MODELLING AND FORECASTING THE EFFECTIVENESS OF THE EDUCATIONAL PROCESS AT UNIVERSITIES
Abstract
The system of higher education is dynamically developing every year, which leads to natural competition of universities with each other. One of the components of university activity evaluation is the assessment of the quality of education provided. High indicators, getting into authoritative ratings, directly depend on the number of graduates and the quality of their professionalism.
The work will review the mathematical model of improving the efficiency of the educational process in the implementation of elective disciplines on the example of real data. In the course of the study, the probability of students graduating from university is determined, and a comparative analysis of the application of machine learning models in the forecasting process is carried out.
The article also presents the results of numerical simulations obtained using the Python programming language and additional data analysis libraries.
1. Введение
Относительно большое количество студентов не получают диплом об образовании в процессе обучения в вузе
. Это касается не только студентов Российской Федерации, но и стран Европы и США. Причин этому явлению несколько. Самой основной и распространённой является академическая неуспеваемость студентов, которая может возникнуть не только по причине отсутствия знаний по какому-либо предмету, но и из-за систематических нарушений учебной дисциплины. Еще одним фактором являются жизненные обстоятельства, которые включают в себя изменение места жительства, социального статуса, семейного положения и т. д.Система высшего образования в целом ориентирована на обеспечение высокого образовательного стандарта. Для достижения этой цели необходим строгий административный подход. Разработка образовательных программ, набор абитуриентов, кадровое и материально-техническое обеспечение, финансы и т. д. Однако именно успешная обучаемость студентов является основным показателем эффективности работы высших учебных заведений. Именно она служит главным критерием для оценки качества учебного процесса. В связи с этим одной из важных проблем является анализ причин, влияющих на отчисление, а также прогнозирование успешного окончания вуза
.С целью расширения научного кругозора, улучшения качества прикладных знаний студентов, во многих вузах реализуются дополнительные факультативные дисциплины по выбору. Данная форма занятий является относительно гибкой как с точки зрения методики, так с точки зрения и содержания. Это может быть классическое занятие, например, лекция или семинар, а может и свободная дискуссия. Выборность реализуется в начале каждого семестра и осуществляется по установленным университетом правилам. Однако существует такая проблема, как неоптимальное использование выделенных бюджетных средств вуза на реализацию спецкурсов, так как определенное количество студентов, изъявивших желание посещать курс, так его и не оканчивают. Причины этого могут быть различны. Важно отметить, что в предложенной модели факультатив представляет собой особый вид занятий (с применением различных педагогических технологий).
На данный момент существует достаточное количество моделей, описывающих те или иные процессы обучения, эффективности, оптимизации и т.д. С изменением образовательной среды менялись и актуальные методы автоматизированного анализа данных в образовательных системах. Так, в работах
, , , представлены математические модели и методы моделирования показателей эффективности деятельности вуза. В научных трудах , рассматривались сущности прогнозирования результатов обучения, основанные на корреляционном, регрессионном, кластерном и факторном анализах. Кроме этого, с помощью автоматизированного системно-когнитивного анализа и его программного инструментария – интеллектуальной системы «Эйдос» в монографии была изучена зависимость учебных достижений студентов университета от их занятий в учебном подразделении в период обучения в средней школе и от результатов ЕГЭ. Данный метод является достаточно обоснованным и хорошо изученным в основе которого эффективная модель, относящаяся к нечетким декларативным гибридным моделям.В новых исследованиях широко используются методы EPM (Education Process Mining) и машинного обучения (Machine Learning – ML) с целью анализа образовательных данных
.2. Постановка задачи
В связи с вышеизложенным была создана математическая модель прогнозирования эффективности образовательного процесса в вузе с учетом применения дополнительных образовательных технологий.
Для достижения поставленной цели необходимо решить следующие задачи:
– создание оптимизационной модели на основе машинного обучения для прогнозирования вероятностей окончания университета по заранее выбранным метрикам качества;
– сравнительный анализ уравнений регрессии (логистическая, гребневая, Лассо);
– численное моделирование алгоритма с оптимальным уравнением регрессии при использовании языка Python;
– вывод об оптимальности использования регрессионных соотношений с точки зрения точности прогноза.
3. Основные результаты
Пусть в университете обучается
Введём понятие рейтинга вуза, под которым будем понимать оценку деятельности образовательного учреждения на основании различных учебных активностей и мероприятий. Понятно, что общий (интегральный) рейтинг – линейная комбинация частных (
В данной работе рассмотрим частный рейтинг вуза на основании организации факультативных дисциплин. Пусть он будет вычисляться как произведение количества студентов
На реализацию одной дополнительной дисциплины университет выделяет
Примем во внимание тот факт, что число мест на каждом курсе ограничено, то есть мощность множества студентов на факультативе не превосходит наперед заданного числа:
В данной постановке существует два сценария:
– любой студент может записаться на дополнительный понравившийся курс;
– выбор курса предоставляется лицам с вероятностью окончания университета не менее 0,5.
Для проверки эффективности и адекватности модели были проведены вычисления, в ходе которых была рассмотрена группа из 100 студентов, охватывающая 63 различных факультатива. Количество участников на каждом курсе не превышало 30. Стоимости курсов
Получены значения функционала равны
при произвольной вероятности
при вероятности участия на курсе только тех студентов, у кого
На основании полученных результатов можно сделать вывод о целесообразности записи на факультативы только студентов с относительно высоким уровнем обученности.
Далее в исследовании прогнозируется вероятность окончания высшего учебного заведения на реальном открытом наборе данных, предоставленным отделом академических услуг Политехнического университета Порталегре
. Здесь учитывается фактор дополнительных образовательных технологий, в том числе и в форме дополнительных занятий со студентами с применением различных методик.4. Описание исследуемых данных
Набор данных включает в себя демографические, социально-экономические и макроэкономические сведения, известные на момент зачисления студентов, а также текущие результаты окончания первого и второго семестров, собранные за период с 2008 по 2019 учебный год. Данные представлены в виде табличного текстового файла CSV, содержащего 3630 строк по 35 столбцов в каждой.
В выборке известны апостериорные вероятности статуса студента, принимающие два возможных значения

Рисунок 1 - График распределения студентов
5. Отбор факторов (образовательных технологий) и методы построения множественной регрессии
Для успешного прогнозирования вероятностей необходимо установить функциональную связь между зависимыми переменными
В данном случае рассматриваются три часто используемые модели машинного обучения: логистическую, гребневую и Лассо регрессию. В дальнейшем необходимо провести сравнительных анализ их применения к выбранным данным.
1) В логистической регрессии рассматривается модель следующего вида:
где
В качестве метода поиска экстремума применяется градиентный спуск, в котором пересчитываются веса по формуле
2) В гребневой регрессии рассматривается линейная зависимость
где
3) В регрессии Лассо используется другое ограничение на коэффициенты
Для сравнения и оценки качества применимы следующие метрики:
– среднеквадратическая ошибка
– средняя абсолютная ошибка
– коэффициент детерминации
Для реализации численного моделирования использовался язык программирования Python в совокупности с библиотекой машинного обучения Scikit-learn. Выборка данных была предварительно разделена на обучающую и тестовую в соотношении 7:3. В результате проведения экспериментов были получены результаты, представленные в таблице 1. Наилучшие показатели в рамках текущей постановки задачи продемонстрировала логистическая регрессия.
Кривая обучения модели в зависимости от объёма обучающего набора данных представлена на рисунке 2.
Таблица 1 - Результаты численного моделирования множественной регрессии
Оценка | Модель | ||
Логистическая регрессия | Гребневая регрессия | Лассо регрессия | |
RMSE | 0,2486 | 0,2777 | 0,2957 |
MAE | 0,1301 | 0,2002 | 0,2179 |
R2 | 0,6407 | 0,6776 | 0,6344 |

Рисунок 2 - График обучения модели логистической регрессии
0,0127 – 0,0118 0,0097 0,0526 – 0,0036 – 0,2874
– 0,0351 – 1,3053 2,1876 – 0,3922 0,8138 – 0,0362
0,1512 – 0,1962 – 0,2975 – 0,0040 0,6590– 0,1134
0,0969 – 0,2003 – 0,6431 – 0,0303 0,9486 0,1063
0,2569 – 0,0763 0,0101 – 0,0087]
Существенность полученных коэффициентов определяется отношением
При уровне значимости
6. Практический аспект
Модель прогнозирования эффективности образовательного процесса может быть использована для определения того, какие методы и подходы в образовании наиболее эффективны в процессе достижения желаемых целей. Например, она может помочь школам и университетам определить, какие курсы и программы наиболее успешны, а также какие учебные материалы и методы преподавания наиболее эффективны.
Представленная модель может быть использована для прогнозирования будущих результатов обучения студентов, на основе их текущих оценок В этом случае преподавателям и администрации образовательных учреждений можно будет определить, какие студенты нуждаются в дополнительной поддержке и помощи, чтобы достичь успеха в учебе.
Кроме того, появляется возможность анализа данных об успеваемости и приоритетных направления для студентов (на основе выборности дополнительных дисциплин). Это дает возможность образовательным учреждениям разрабатывать более эффективные стратегии обучения и улучшать качество образования.
В целом модель прогнозирования эффективности образовательного процесса является востребованным инструментом для улучшения качества образования и достижения лучших результатов в учебе.
7. Заключение
В ходе качественного анализа сравнения моделей машинного обучения для отсеивания студентов был реализован алгоритм логистической регрессии, показавший хорошие результаты на практике. Предложенный подход универсален и может использоваться в любом учреждении высшего или специального профессионального образования. Применение модели поможет выявить основные причины отчисления обучающихся и скорректировать работу вуза в дальнейшем. Разработанная модель послужила методической основой для реализации общеуниверситетских факультативных дисциплин, где возможность записи на курс будет вычисляться на основе полученных вероятностей. Результаты данного исследования имеют практическую значимость для лиц, принимающих управленческие решения о формировании стратегии развития и конкурентоспособности высших учебных заведений в условиях ограниченного бюджета.
Тем не менее выбранный подход не является совершенным. В дальнейшем планируется улучшение используемой модели с учетом методики выбора дополнительных занятий, а также применением дополнительных технологий. Модель не рассчитана на прогноз относительно основных дисциплин, что также будет учитываться в дальнейшей работе над ней.
Программный код опубликован в Интернет-репозитории .
