MODELLING AND FORECASTING THE EFFECTIVENESS OF THE EDUCATIONAL PROCESS AT UNIVERSITIES

Research article
DOI:
https://doi.org/10.23670/IRJ.2023.137.15
Issue: № 11 (137), 2023
Suggested:
04.07.2023
Accepted:
09.10.2023
Published:
17.11.2023
328
4
XML
PDF

Abstract

The system of higher education is dynamically developing every year, which leads to natural competition of universities with each other. One of the components of university activity evaluation is the assessment of the quality of education provided. High indicators, getting into authoritative ratings, directly depend on the number of graduates and the quality of their professionalism.

The work will review the mathematical model of improving the efficiency of the educational process in the implementation of elective disciplines on the example of real data. In the course of the study, the probability of students graduating from university is determined, and a comparative analysis of the application of machine learning models in the forecasting process is carried out.

The article also presents the results of numerical simulations obtained using the Python programming language and additional data analysis libraries.

1. Введение

Относительно большое количество студентов не получают диплом об образовании в процессе обучения в вузе

. Это касается не только студентов Российской Федерации, но и стран Европы и США. Причин этому явлению несколько. Самой основной и распространённой является академическая неуспеваемость студентов, которая может возникнуть не только по причине отсутствия знаний по какому-либо предмету, но и из-за систематических нарушений учебной дисциплины. Еще одним фактором являются жизненные обстоятельства, которые включают в себя изменение места жительства, социального статуса, семейного положения и т. д.

Система высшего образования в целом ориентирована на обеспечение высокого образовательного стандарта. Для достижения этой цели необходим строгий административный подход. Разработка образовательных программ, набор абитуриентов, кадровое и материально-техническое обеспечение, финансы и т. д. Однако именно успешная обучаемость студентов является основным показателем эффективности работы высших учебных заведений. Именно она служит главным критерием для оценки качества учебного процесса. В связи с этим одной из важных проблем является анализ причин, влияющих на отчисление, а также прогнозирование успешного окончания вуза 

.

С целью расширения научного кругозора, улучшения качества прикладных знаний студентов, во многих вузах реализуются дополнительные факультативные дисциплины по выбору. Данная форма занятий является относительно гибкой как с точки зрения методики, так с точки зрения и содержания. Это может быть классическое занятие, например, лекция или семинар, а может и свободная дискуссия. Выборность реализуется в начале каждого семестра и осуществляется по установленным университетом правилам. Однако существует такая проблема, как неоптимальное использование выделенных бюджетных средств вуза на реализацию спецкурсов, так как определенное количество студентов, изъявивших желание посещать курс, так его и не оканчивают. Причины этого могут быть различны. Важно отметить, что в предложенной модели факультатив представляет собой особый вид занятий (с применением различных педагогических технологий).

На данный момент существует достаточное количество моделей, описывающих те или иные процессы обучения, эффективности, оптимизации и т.д. С изменением образовательной среды менялись и актуальные методы автоматизированного анализа данных в образовательных системах. Так, в работах

,
,
,
представлены математические модели и методы моделирования показателей эффективности деятельности вуза. В научных трудах
,
рассматривались сущности прогнозирования результатов обучения, основанные на корреляционном, регрессионном, кластерном и факторном анализах. Кроме этого, с помощью автоматизированного системно-когнитивного анализа и его программного инструментария – интеллектуальной системы «Эйдос» в монографии
была изучена зависимость учебных достижений студентов университета от их занятий в учебном подразделении в период обучения в средней школе и от результатов ЕГЭ. Данный метод является достаточно обоснованным и хорошо изученным в основе которого эффективная модель, относящаяся к нечетким декларативным гибридным моделям.

В новых исследованиях широко используются методы EPM (Education Process Mining) и машинного обучения (Machine Learning – ML) с целью анализа образовательных данных

.

2. Постановка задачи

В связи с вышеизложенным была создана математическая модель прогнозирования эффективности образовательного процесса в вузе с учетом применения дополнительных образовательных технологий.

Для достижения поставленной цели необходимо решить следующие задачи:

– создание оптимизационной модели на основе машинного обучения для прогнозирования вероятностей окончания университета по заранее выбранным метрикам качества;

– сравнительный анализ уравнений регрессии (логистическая, гребневая, Лассо);

– численное моделирование алгоритма с оптимальным уравнением регрессии при использовании языка Python;

– вывод об оптимальности использования регрессионных соотношений с точки зрения точности прогноза.

3. Основные результаты

Пусть в университете обучается img студентов. Обозначим за img множество тех студентов, кто принял решение записаться на дополнительные дисциплины: img. Количество записавшихся на дополнительные дисциплины студентов будет равно мощности множества img, то есть img

Введём понятие рейтинга вуза, под которым будем понимать оценку деятельности образовательного учреждения на основании различных учебных активностей и мероприятий. Понятно, что общий (интегральный) рейтинг – линейная комбинация частных (img), взятых с априори заданными весовыми коэффициентами.

В данной работе рассмотрим частный рейтинг вуза на основании организации факультативных дисциплин. Пусть он будет вычисляться как произведение количества студентов img и вероятностей их выпуска img:

img

На реализацию одной дополнительной дисциплины университет выделяет img рублей. Под img понимается количество затраченных средств на использование образовательных технологий для j-го студента (в предложенной постановке это факультативные занятия). Тогда основной целью для вуза будет повышение вероятности выпуска студентов при минимизации затрат на обеспечение. Постановка задачи принимает вид линейного программирования при ограничениях:

img

Примем во внимание тот факт, что число мест на каждом курсе ограничено, то есть мощность множества студентов на факультативе не превосходит наперед заданного числа: img.

В данной постановке существует два сценария:

– любой студент может записаться на дополнительный понравившийся курс;

– выбор курса предоставляется лицам с вероятностью окончания университета не менее 0,5.

Для проверки эффективности и адекватности модели были проведены вычисления, в ходе которых была рассмотрена группа из 100 студентов, охватывающая 63 различных факультатива. Количество участников на каждом курсе не превышало 30. Стоимости курсов img варьировались в пределах 2000-2500 евро, стоимость обеспечения техникой img в пределах 15-150 евро соответственно.

Получены значения функционала равны

img

при произвольной вероятности img окончания университета и

img

при вероятности участия на курсе только тех студентов, у кого img.

На основании полученных результатов можно сделать вывод о целесообразности записи на факультативы только студентов с относительно высоким уровнем обученности.

Далее в исследовании прогнозируется вероятность окончания высшего учебного заведения на реальном открытом наборе данных, предоставленным отделом академических услуг Политехнического университета Порталегре 

. Здесь учитывается фактор дополнительных образовательных технологий, в том числе и в форме дополнительных занятий со студентами с применением различных методик.

4. Описание исследуемых данных

Набор данных включает в себя демографические, социально-экономические и макроэкономические сведения, известные на момент зачисления студентов, а также текущие результаты окончания первого и второго семестров, собранные за период с 2008 по 2019 учебный год. Данные представлены в виде табличного текстового файла CSV, содержащего 3630 строк по 35 столбцов в каждой.

В выборке известны апостериорные вероятности статуса студента, принимающие два возможных значения img. Анализируя исходные данные установлено, что 1421 учащихся были отчислены, а 2209 продолжили своё обучение (см. рисунок 1).

График распределения студентов

Рисунок 1 - График распределения студентов

5. Отбор факторов (образовательных технологий) и методы построения множественной регрессии

Для успешного прогнозирования вероятностей необходимо установить функциональную связь между зависимыми переменными img – вероятностями окончить университет, для которых применяется соответствующая образовательная технология, и группой независимых переменных img – количествами студентов, для которых применяется соответствующая образовательная технология, с учётом ошибки модели img – случайной величины, характеризующей отклонения результативного признака от теоретического, найденного по уравнению регрессии:

img

В данном случае рассматриваются три часто используемые модели машинного обучения: логистическую, гребневую и Лассо регрессию. В дальнейшем необходимо провести сравнительных анализ их применения к выбранным данным.

1) В логистической регрессии рассматривается модель следующего вида:

img

где img – сигмоидная функция. Для определения коэффициентов регрессии используется метод максимального правдоподобия. Тогда функция минимизации принимает следующий вид:

img

В качестве метода поиска экстремума применяется градиентный спуск, в котором пересчитываются веса по формуле  img, где img – шаг градиента.

2) В гребневой регрессии рассматривается линейная зависимость img. При этом накладываются ограничения на величину коэффициентов img : img. Минимизирующий функционал img с учётом ограничений принимает вид:

img

где img – неотрицательный параметр. Решением в этом случае будет вектор img, где img – диагональная матрица, называемая гребнем.

3) В регрессии Лассо используется другое ограничение на коэффициенты img: img. Положительным моментом использования img нормы является не только осуществление регуляризации, но и приравнивание некоторых коэффициентов img к нулю при достаточно большом значении img. Минимизирующий функционал такой же, как и в гребневой регрессии.

Для сравнения и оценки качества применимы следующие метрики:

– среднеквадратическая ошибка

img

– средняя абсолютная ошибка

img

– коэффициент детерминации img

img

Для реализации численного моделирования использовался язык программирования Python в совокупности с библиотекой машинного обучения Scikit-learn. Выборка данных была предварительно разделена на обучающую и тестовую в соотношении 7:3. В результате проведения экспериментов были получены результаты, представленные в таблице 1. Наилучшие показатели в рамках текущей постановки задачи продемонстрировала логистическая регрессия.

Кривая обучения модели в зависимости от объёма обучающего набора данных представлена на рисунке 2.

Таблица 1 - Результаты численного моделирования множественной регрессии

Оценка

Модель

Логистическая регрессия

Гребневая регрессия

Лассо регрессия

RMSE

0,2486

0,2777

0,2957

MAE

0,1301

0,2002

0,2179

R2

0,6407

0,6776

0,6344

График обучения модели логистической регрессии

Рисунок 2 - График обучения модели логистической регрессии

В ходе обучения сформировался следующий вектор весовых коэффициентов:

img = [0,2974 – 0,0336 – 0,0278 – 0,1090 – 0,3350 0,0197

0,0127 – 0,0118 0,0097 0,0526 – 0,0036 – 0,2874

– 0,0351 – 1,3053 2,1876 – 0,3922 0,8138 – 0,0362

0,1512 – 0,1962 – 0,2975 – 0,0040 0,6590– 0,1134

0,0969 – 0,2003 – 0,6431 – 0,0303 0,9486 0,1063

0,2569 – 0,0763 0,0101 – 0,0087]

Существенность полученных коэффициентов определяется отношением img, где img – коэффициент множественной регрессии; img – среднее квадратическое отклонение этого коэффициента. Если img, взятого по таблицам t-распределения Стьюдента, то с заданной вероятностью не отвергается гипотеза, что соответствующий коэффициент регрессии  в генеральной совокупности приравнивается к нулю. При этом i-й фактор в таком случае признаётся несущественным для построения регрессионного уравнения. Если при проведении исследования оказывается, что вычисленные значения img для нескольких факторов не превышают img, то факторы исключаются поочередно, начиная с наименьшего по абсолютной величине img. Процесс исключения происходит до тех пор, пока не будет выполняться соотношение img.

При уровне значимости img было установлено, что вектор весовых коэффициентов можно сократить до 9 факторов, вместо предполагаемых 34 с незначительной потерей качества img, с заметным упрощением модели, а также уменьшением мультиколлинеарности в наборе данных между сильно коррелированными признаками.

6. Практический аспект

Модель прогнозирования эффективности образовательного процесса может быть использована для определения того, какие методы и подходы в образовании наиболее эффективны в процессе достижения желаемых целей. Например, она может помочь школам и университетам определить, какие курсы и программы наиболее успешны, а также какие учебные материалы и методы преподавания наиболее эффективны.

Представленная модель может быть использована для прогнозирования будущих результатов обучения студентов, на основе их текущих оценок В этом случае преподавателям и администрации образовательных учреждений можно будет определить, какие студенты нуждаются в дополнительной поддержке и помощи, чтобы достичь успеха в учебе.

Кроме того, появляется возможность анализа данных об успеваемости и приоритетных направления для студентов (на основе выборности дополнительных дисциплин). Это дает возможность образовательным учреждениям разрабатывать более эффективные стратегии обучения и улучшать качество образования.

В целом модель прогнозирования эффективности образовательного процесса является востребованным инструментом для улучшения качества образования и достижения лучших результатов в учебе.

7. Заключение

В ходе качественного анализа сравнения моделей машинного обучения для отсеивания студентов был реализован алгоритм логистической регрессии, показавший хорошие результаты на практике. Предложенный подход универсален и может использоваться в любом учреждении высшего или специального профессионального образования. Применение модели поможет выявить основные причины отчисления обучающихся и скорректировать работу вуза в дальнейшем. Разработанная модель послужила методической основой для реализации общеуниверситетских факультативных дисциплин, где возможность записи на курс будет вычисляться на основе полученных вероятностей. Результаты данного исследования имеют практическую значимость для лиц, принимающих управленческие решения о формировании стратегии развития и конкурентоспособности высших учебных заведений в условиях ограниченного бюджета.

Тем не менее выбранный подход не является совершенным. В дальнейшем планируется улучшение используемой модели с учетом методики выбора дополнительных занятий, а также применением дополнительных технологий. Модель не рассчитана на прогноз относительно основных дисциплин, что также будет учитываться в дальнейшей работе над ней.

Программный код опубликован в Интернет-репозитории

.

Article metrics

Views:328
Downloads:4
Views
Total:
Views:328