ПОСТРОЕНИЕ МНОГОФАКТОРНОЙ МОДЕЛИ УСПЕВАЕМОСТИ СТУДЕНТА
ПОСТРОЕНИЕ МНОГОФАКТОРНОЙ МОДЕЛИ УСПЕВАЕМОСТИ СТУДЕНТА
Научная статья
Галимова Н. С.1, *, Загитова Л. Р.2
1, 2 Альметьевский государственный нефтяной институт, г. Альметьевск, Россия
* Корреспондирующий автор (kastiel_O[at]mail.ru)
АннотацияЦелью исследования является оценка результатов ЕГЭ как показателя уровня знаний абитуриентов, а также выявление факторов, проецирующих успеваемость первокурсников вуза. В исследовании были использованы методы подбора обьясняющих переменных: исключение квазинеизменных переменных,метод анализа матрицы коэффициентов корреляции, процедура исключения a posteriori; тест Чоу для ввода фиктивных переменных. Основным информационным источником для проведения исследования стали данные внутривузовской информационной системы «ИСУ АГНИ».
Основными результатами исследования являются следующие:
- выявлен тип связи успеваемости студентов с факторами;
- определено оптимальное множество объясняющих переменных для прогнозирования успеваемости студентов;
- с помощью теста Чоу было выяснено, что качество частных моделей регрессии превосходит качество общей модели регрессии.
Ключевые слова: эконометрические модели, фиктивные переменные, подбор обьясняющих переменных
CONSTRUCTION OF A MULTI-FACTOR MODEL OF THE STUDENTS’ ACADEMIC PERFORMANCE
Research article
Galimova N. S.1, *, Zagitova L. R.2
1, 2 Almetyevsk State Oil Institute, Almetyevsk, Russia
* Corresponding author (kastiel_O[at]mail.ru)
AbstractThe aim of the study is to evaluate the results of the national college entrance exam as an indicator of the level of knowledge of applicants, as well as to identify factors that project the performance of freshmen at universities. The study used the methods of selection of explanatory variables: the exclusion of quasi-constant variables, the method of analysis of the matrix of correlation coefficients, the procedure for eliminating a posteriori, Chow test for entering simulation variables. The main information source for the study was the data of the intra-university Information System of Almetyevsk State Oil Institute.
The main results of the study are as follows:
- The type of relationship between student performance and factors is identified;
- The best set of explanatory variables for predicting student performance is determined;
- With the help of the Chow test, it was found that the quality of private regression models exceeds the quality of the general regression model.
Keywords: econometric models, simulated variables, selection of explanatory variables.
Введение
Ни для кого не секрет, что в российские вузы школьники поступают по результатам единого государственного экзамена. Однако, не все ребята с высокими «стартовыми» баллами ЕГЭ держат данную планку по успеваемости в вузе. Данная практика определила актуальность исследования. Накопленный опыт позволяет использовать статистические данные для проверки наличия связи результатов ЕГЭ и последующей успеваемостью в вузе [7]. Также выделены дополнительные факторы, которые могут потенциально оказать влияние на успеваемость студентов помимо результатов ЕГЭ, а именно: средний балл по аттестату, сразу ли после окончания суза абитуриент поступает в вуз, живет ли студент в общежитии, приезжий ли студент или местный.
Регрессионный анализ
Для исследования связи между результатами ЕГЭ и успеваемостью студентов первого курса был использован массив данных, включающий обезличенную информацию о студентах, обучавшихся на очном отделении за период зимней сессии 2018-2019 уч.г. по 3 факультетам: Нефтегазовый (НГФ), Энергомеханический (ЭМФ), Экономический (экономика)
Согласно рисунку 1 [6, c.192], на котором представлено распределение успеваемости, студенты, поступившие с баллами более 200, были отчислены в конце первого семестра наравне с теми, кто имел балл 160 и ниже. Также же не трудно заметить широкий разброс баллов успеваемости при равных результатах ЕГЭ, к примеру, при 180: от 400 до 600! Однако, высокобальники (с баллами более 210) показывают однозначно высокие показатели успеваемости.
Рис.1 – Распределение успеваемости студентов 1-го курса
Рассчитаем разные модели, по каждой из двух x-переменных: «Баллы по ЕГЭ» и «Средний балл аттестата», чтобы понять, какая числовая переменная лучше описывает изменение у-переменной «Успеваемость» [8]. Расчеты проведены с помощью MS Exsel [3, c.85].
Таблица 1 - Результаты вычислений параметров линейной функции
Параметр | по переменной «Баллы по ЕГЭ» | по переменной «Средний балл аттестата» |
Линейная модель | ||
Значение коэффициента а | 2,237056 | 0,149332 |
Значение коэффициента b | 0,009617 | 0,865286 |
Коэффициент детерминации R² | 0,312048 | 0,382615 |
Экспоненциальная кривая | ||
Значение коэффициента ln(a) | - | -0,03032 |
Значение коэффициента b | - | 0,945854 |
Коэффициент детерминации R² | - | 0,379052 |
Гиперболическая кривая | ||
Значение коэффициента а | - | 7,7389723 |
Значение коэффициента b | - | -16,50151 |
Коэффициент детерминации R² | - | 0,369173 |
По результатам расчета линейной модели, переменная «Средний балл аттестата» имеет больший вклад в целевую переменную (b~0,87), чем переменная «Баллы ЕГЭ» (b ~ 0,09617). Поэтому следующие расчеты по остальным видам моделей проведены только по переменной «Средний балл аттестата». В каждой из моделей ошибка не превышает 20%, следовательно, стоит выбрать ту модель, у которой коэффициент детерминации наибольший: r²~0,38 при линейной модели.
Однако, принимать решение о том, является ли переменная «Баллы ЕГЭ» постоянной и нужно ли ее оставлять в качестве фактора в модели, стоит после применения методов подбора оптимального количества обьясняющих переменных. И так как значение коэффициента детерминации должно быть близко к 1, чтобы модель считалась хорошей, значит, нужно улучшить обьясняемость целевой переменной [9.c.54].
Подбор обьясняющих переменных
Объясняющие переменные подбираются с помощью статистических методов.
Первый метод - исключение квазинеизменных переменных. Чтобы считать переменную обьясняемой, необходимо, чтобы она была вариабельна. Измерить размах переменной позволяет коэффициент вариации. И далее при заданном критическом значении коэффициента вариации v*, например v*=0,1, переменные удовлетворяющие условию: vi≤v* признаются квазинеизменными и исключаются из множества потенциальных объясняющих переменных. Эти переменные не несут значимой информации.
Рассчитаем среднее значение, стандартное отклонение для коэффициента вариации по нашим данным [4,c.108].
Таблица 2– Расчёт коэффициента вариации по потенциальным переменным
Показатель | Среднее значение | стандартное отклонение | Коэффициент вариации |
1 | 2 | 3 | 4 |
Формула в MS Exsel | СРЗНАЧ() | СТАНДОТКЛОН() | п.3/п.4 |
По переменной «Баллы ЕГЭ» | 192,948 | 30,08 | 0,155925 |
По переменной «Средний балл аттестата» | 4,3 | 0,37 | 0,081246 |
После проведенных расчетов коэффициенты корреляции между переменной У и переменными Х1 и Х2 равны:
Таким образом, мы получили вектор коэффициентов корреляции между объясняемой переменной и потенциальными объясняющими переменными в виде:
Коэффициент корреляции пар переменных Х1 и Х2 равен:
Матрица коэффициентов корреляции между потенциальными объясняющими переменными представляется в следующем виде (с учетом свойства симметричности коэффициентов):
В множестве потенциальных обьясняющих переменных R0= нет элементов, меньше r*=0,063, следовательно, модель успеваемости студентов можно представить в виде у=α0+ α1Х1+Х2+ε.
Третий метод - процедура исключения a posteriori.
Процедура исключения a posteriori состоит из следующих этапов:
- Строится модель, содержащая все объясняющие переменные.
- Для каждой потенциальной объясняющей переменной рассчитывается значение статистики:
- Наименьшее из значений Ii, т.e. Ih=min сравнивается с критическим значением I*, выбранным из таблиц t-теста Стьюдента для принятого уровня значимости γ и для (n-m-1) степеней свободы. Если Ih≤I*, то следует исключить из модели потенциальную объясняющую переменную Ih, повторно оценить модель со всеми оставшимися потенциальными объясняющими переменными и вернуться к этапу 2. Если же Ih>I*, то необходимо принять модель со всеми присутствующими в ней объясняющими переменными [2, c.154].
Ih=min =8.687 > I*, следовательно, принимаем модель со всеми присутствующими переменными.
Таким образом, проведя подбор объясняющих переменных:
- методом исключения квазинеизменных;
-методом анализа матрицы коэффициентов корреляции;
-процедурой исключения a posteriori
пришли к результату, что модель успеваемости студентов принимается с двумя обьясняющими переменными: «Баллы ЕГЭ» и «Средний балл аттестата».
Построим линейную модель с помощью функции MS Excel ЛИНЕЙН.
Таблица 3 – Результаты линейной модели успеваемости студентов
Параметр | Значение |
Значение а | 0,247 |
Значение b1 | 0,62179 |
Значение b2 | 0,0052 |
Коэффициент детерминации R² | 0,445 |
Коэффициент аппроксимации | 7,59 |
Итак, уравнение имеет вид: y=0.247+0,6218Х1+0,0052Х2 , где Х1 – Средний балл аттестата, Х2- Баллы ЕГЭ. Ошибка аппроксимации в пределах нормы, коэффициент детерминации вырос при добавлении второй переменной, однако, объяснимость успеваемости студентов стоит попробовать еще повысить, попытаясь ввести фиктивные переменные и проверить их целесообразность с помощью теста Чоу.
Если до сих пор мы использовали непрерывные переменные, которые могут принимать любые значения, то вводимые переменные –фиктивные или искусственные - дискретны. Необходимость ввода таких переменных определяется с помощью теста Чоу [1, c.263].
Для улучшения модели успеваемости студентов планируется ввести следующие фиктивные переменные [10]:
- форма финансирования обучения
Х3 - окончание среднего профессионального учреждения Х4 - поступление в вуз в год окончания ссуза Х5 - территориальное происхождение студента Х6 - пол студента Х7- направление, на котором учится студент
Х8
Рассчитаем суммы квадратов остатков для общей модели регрессии: для этого применим функцию ЛИНЕЙН(), по Y – успеваемость студента, по Х – Средний балл аттестата и Баллы ЕГЭ. Для данной модели ESS(UN)=100.0321.
Теперь рассчитаем суммы квадратов остатков для частных выборок (табл.4).
Таблица 4 – Данные для расчета
№ п/п | Переменная | сумма квадратов остатков | ESS(PR1)+ ESS(PR2)< ESS(UN) | Fнабл | |
ESS(PR1) | ESS(PR2) | ||||
1 | форма финансирования обучения | 27,31 | 71,07 | 98,38<100,0321 | 3,74 |
2 | окончание среднего профессионального учреждения | 98,67 | 0,54 | 99,21<100,0321 | 1,84 |
3 | поступление в вуз в год окончания ссуза | 9,25 | 89,18 | 98,43<100,0321 | 3,599 |
4 | территориальное происхождение студента | 82,69 | 15,32 | 98,01<100,0321 | 4,57 |
5 | пол студента | 46,17 | 45,11 | 91,28<100,0321 | 21,296 |
6 | направление, на котором учится студент | 49,04 | 48,396 | 97,44<100,0321 | 5,909 |
Рассчитаем Fкрит при уровне значимости а=0,1 и двух степеней свободы свободы k1=m+1=674 и k2=n–k–1=667 по таблице распределения Фишера-Снедекора: Fкрит~1.26. Сравним данное значение с наблюдаемым, вычисленное по выборочным данным. Все значения Fнабл больше Fкрит. Следовательно, основная гипотеза отвергается, и качество частных моделей регрессии превосходит качество общей модели регрессии.
Таким образом, модель успеваемости студента имеет вид:
У=1,029 + 0,51018*Средний балл аттестата + 0,00291*Баллы ЕГЭ + 0,249*Форма финансирования + 0,063*Окончание СПУ + 0,132*Год окончания ссуза + 0,075*Терр.происхождение студента - 0,263*Пол студента-0,035*Направление обучения студента
R-квадрат, называемая также мерой определенности, составляет 0,53, т.е. модель улучшилась после добавления фиктивных переменных. В нашем случае ошибка прогноза составила 7,1%.
Заключение
На примере Альметьевского государственного нефтяного института миссия единого государственного экзамена в области ранжирования абитуриентов является успешной для выявления талантов и отличников.
Конфликт интересов Не указан. | Conflict of Interest None declared. |
Список литературы / References
- Айвазян С.А. Методы эконометрика: учебник /С.А. Айвазян.- М.: Магистр:ИНФРА-М,2010. – 512с.
- Новак Эдвард Введение в методы эконометрики. Сборник задач:Пер. с польск./Под ред. И.И. Елисеевой.-М.:Финансы и статистика,2004. – 248с.
- Абдуллин Р.З. Эконометрика в MS Excel [Электронный ресурс] : практикум/ Р.З. Абдуллин, В.Р. Абдуллин. – Иркутск : Изд-во БГУ, 2016. – 135 с.
- Воскобойников Ю.Е. Теория вероятностей и математическая статистика (с примерами в Excel) [Электронный ресурс] : учебное пособие / Ю.Е. Воскобойников, Т.Т. Баланчук. — Электрон. текстовые данные. — Новосибирск: Новосибирский государственный архитектурно-строительный университет (Сибстрин), ЭБС АСВ, 2013. — 201 c.
- Кремер Н.Ш., Путко Б.А. Эконометрика. –2007. с 175-251.
- Наглядная статистика. Используем R! / А.Б. Шипунов, Е.М. Балдин, П.А. Волкова, А.И. Коробейников, С.А. Назарова, С.В. Петров, В.Г. Суфиянов. Издательство: ДМК-Пресс, 2017. – 293c.
- Сосницкий В.Н., Потанин Н.И. Вероятностный подход к анализу успеваемости студентов // Фундаментальные исследования. – 2014. – № 8-3. – С. 734-738
- Хавенсон Т. Е., Соловьева А. А. Связь результатов Единого государственного экзамена и успеваемости в вузе // Вопросы образования. - №1. - 2014. - С. 176−199.
- Бородачёв, С.М. Многомерные статистические методы: учебное пособие / С.М. Бородачёв. Екатеринбург: УГТУ – УПИ, 2009. – 85c.
- Герасименко П.В. Анализ степени влияния основных факторов на результаты обучения высшей математике в современных условиях / П.В. Герасименко // Математика в вузе. Современные интеллектуальные технологии: Материалы международной научно-методической конференции 21 – 25 июня 2000 г. / НовГУим. ЯрославаМудрого. ВеликийНовгород, 2000. – С. 7-9
Список литературы на английском языке / References in English
- Ayvazyan S.A. Metody ekonometrika: uchebnik [Methods of Econometrics: Textbook] / S.A. Ayvazyan. – M.: Master: INFRA-M, 2010. – 512p. [In Russian]
- Novak Edvard Vvedenie v metody ekonometriki. Sbornik zadach: Per. s polsk. [Introduction to Econometric Methods. Collection of Tasks: Transl. from Polish] / Ed. by I.I. Eliseeva. – M.: Finance and Statistics, 2004. – 248p. [In Russian]
- Abdullin R.Z. Ekonometrika v MS Excel [Econometrics in MS Excel] [Electronic resource]: Workshop / R.Z. Abdullin, V.R. Abdullin. – Irkutsk: BSU Publishing House, 2016. – 135 p. [In Russian]
- Voskoboinikov Yu.E. Teoriya veroyatnostey i matematicheskaya statistika (s primerami v Excel) [Probability Theory and Mathematical Statistics (with examples in Excel)] [Electronic resource]: textbook / Yu.E. Voskoboinikov, T.T. Balanchuk. – Electron. Text Data. – Novosibirsk: Novosibirsk State University of Architecture and Civil Engineering (Sibstrin), EBS DIA, 2013. – 201 p. [In Russian]
- Kremer N.Sh., Putko B.A. Ekonometrika [Econometrics]. – 2007. p 175-251. [In Russian]
- Naglyadnaya statistika. Ispolzuem R! [Visual Statistics. We Use R!] / A.B. Shipunov, E.M. Baldin, P.A. Volkova, A.I. Korobeinikov, S.A. Nazarova, S.V. Petrov, V.G. Sufiyanov. Publisher: DMK-Press, 2017. – 293p. [In Russian]
- Sosnitskiy V.N., Potanin N.I. Veroyatnostnyi podkhod k analizu uspevaemosti studentov [Probabilistic Approach to Student Performance Analysis] // Bazovoye issledovaniye [Basic Research]. – 2014. – No. 8-3. – P. 734-738 [In Russian]
- Khavenson T. E., Solovyeva A. A. Svyaz rezultatov Yedinogo gosudarstvennogo ekzamena i uspevaemosti v vuze [Connection between the Results of the Unified State Exam and Academic Performance] // Voprosy obrazovaniya [Education Issues]. - No.1. – 2014. – P. 176−199. [In Russian]
- Borodachyov, S.M. Mnogomernye statisticheskie metody: uchebnoe posobie [Multidimensional Statistical Methods: Training Manual] / S.M. Borodachev. Yekaterinburg: USTU - UPI, 2009. – 85 p. [In Russian]
- Gerasimenko P.V. Analiz stepeni vliyaniya osnovnykh faktorov na rezultaty obuchenya vysshei matematike v sovremennykh usloviyakh [Analysis of the Degree of Influence of the Main Factors on the Results of Teaching Further Mathematics under Modern Conditions] / P.V. Gerasimenko // Mathematics at the University. Modern Intellectual Technologies: Materials of the International Scientific and Methodical Conference June 21 - 25, 2000 / NovSU named after Yaroslav the Wise. Veliky Novgorod, 2000. – P. 7-9 [In Russian]