ИССЛЕДОВАНИЕ ПРОГНОСТИЧЕСКИХ ВОЗМОЖНОСТЕЙ СИСТЕМЫ «IWIZARD-E»

Научная статья

Пальмов С.В.

Мифтахова А.А.

DOI:

https://doi.org/10.23670/IRJ.2018.75.9.012

Выпуск: № 9 (75), 2018

Опубликована:

2018/09/17

PDF

DOI: https://doi.org/10.23670/IRJ.2018.75.9.012

ИССЛЕДОВАНИЕ ПРОГНОСТИЧЕСКИХ ВОЗМОЖНОСТЕЙ СИСТЕМЫ «IWIZARD-E»

Научная статья

Пальмов С.В.^1,*, Мифтахова А.А.²

^{1, 2}Поволжский государственный университет телекоммуникаций и информатики, Самара, Россия

* Корреспондирующий автор (psv[at]psuti.ru)

Аннотация

Исследованы прогностические возможности «iWizard-E» − интеллектуальной системы поддержки принятия решений, предназначенной для оказания помощи абитуриентам в выборе направления подготовки. Проведена серия экспериментов, в которых системой производилась обработка различных выборок, содержащих индивидуальные характеристики студентов и информацию об окончании ими вуза, с последующим генерированием рекомендаций относительно выбора предпочтительного направления подготовки. После этого было выполнено сравнение реальных данных с предложенными системой. В качестве критерия использовалась F-мера. Установлено, что «iWizard-E» позволяет формировать эффективные прогнозы.

Ключевые слова: искусственный интеллект, интеллектуальная система поддержки принятия решений, интеллектуальный анализ данных, Orange.

STUDY OF PROGNOSTIC OPPORTUNITIES OF THE IWIZARD-E SYSTEM

Research article

Palmov S.V.^1,*, Miftakhova A.A.²

^{1, 2}Volga State University of Telecommunications and Informatics, Samara, Russia

* Corresponding author (psv[at]psuti.ru)

Abstract

The article considers prognostic capabilities of iWizard-E, an intelligent decision support system designed to help entrants choose their future career. A series of experiments was performed; various samples containing individual characteristics of students and information about their graduation from the university were processed followed by recommendations for choosing a preferred direction. After that, the real data were compared with the option proposed by the system. The F-measure was used as the criterion. It is established that “iWizard-E” allows creating effective forecasts.

Keywords: artificial intelligence, intelligent decision support system, data mining, Orange.

Введение

Одна из самых острых проблем вузов в настоящее время – успеваемость. Это вызвано все возрастающими требованиями к студентам. Как следствие, возникла ситуация, требующая осуществления некоторых мероприятий, направленных на повышение успеваемости студентов. Традиционные способы уже не оказывают должного эффекта. Поэтому в последние годы в сфере образования наметилась отчетливая тенденция использования разнообразных информационных технологий для повышения успеваемости студентов.

На вероятность успешного окончания студентом вуза, а значит, и на его успеваемость, сильное влияние оказывает то, насколько «правильно» было выбрано направление подготовки. Одним из способов снижения вероятности ошибки выбора является выявление скрытых закономерностей между индивидуальными характеристиками студента (абитуриента) и результатом окончания вуза с последующим использованием полученной информации для помощи абитуриенту при выборе направления подготовки на этапе подачи документов в приемную комиссию. На взгляд авторов, наиболее эффективный способ автоматизации процесса оказания помощи абитуриенту в вышеуказанном вопросе – это использование интеллектуальной системы поддержки принятия решений (ИСППР), разработанной с использованием технологии интеллектуального анализа данных (ИАД). Такая ИСППР использует модель предметной области (прогностическая модель), которая на основе неких знаний (закономерностей) вырабатывает прогнозы (рекомендации). [5, С. 7].

Описание экспериментов

ИСППР упомянутого типа разработана, зарегистрирована в Реестре программ для ЭВМ (свидетельство №2018616979, ИСППР «iWizard-E»), а ее основные особенности описаны и протестированы в [5, С. 8-10]. Однако было решено провести дополнительное исследование возможностей iWizard-E, использовав для этого F-меру (F1), поскольку она позволяет эффективнее оценить качество формируемых системой прогнозов. F-мера рассчитывается по формуле: [6].

Исследование состояло из 11 экспериментов. В каждом из них, кроме первого, использовалось по пять выборок определенного типа (стратифицированная, bootstrap и с возвращением), созданных средствами системы Orange [7, С. 95] на основе исходного набора данных (2618 записей) из [5, С. 8-9]. В указанный исходный набор данных было внесено единственное изменение – целевой показатель «сведения об окончании вуза» принимает только два значения: закончил вуз \ не закончил вуз. Таким образом, в ходе серии экспериментов оценивалась способность ИСППР «iWizard-E» формировать достоверные прогнозы относительно вероятности успешного окончания студентом вуза для выбранного направления подготовки.

Кратко опишем использованные типы выборок:

Стратифицированная выборка формируется в два этапа, в результате чего генеральная совокупность делится на слои (страты). Страты должны взаимно исключать и взаимно дополнять друг друга, чтобы каждый элемент совокупности относился к одному и только одному слою, и ни один элемент не был упущен. Далее, из каждого слоя случайным образом выбираются элементы, при этом обычно используется метод простой случайной выборки [8].

Bootstrap-выборка – метод формирования нескольких выборок данных того же размера, что и исходная генеральная совокупность, но с разными распределениями интересующей величины [2].

Выборка с возвращением (replacement) – на вероятность появления элемента в выборке прочие элементы генеральной совокупности не влияют [10].

Эксперименты можно разделить на два вида. В первом из них для каждого критерия разбиения (Gini [4], Entropy [3], Information Gain [1] и Gain Ratio [9]) при помощи исходного набора обучалась прогностическая модель, которая затем проверялась на пяти выборках конкретного типа (эксперименты со второго по шестой; в первом эксперименте для проверки использовался исходный набор).

Эксперименты второго вида проводились по следующей схеме: 1) в результатах экспериментов со второго по шестой выбирались два множества, при проверках по которым iWizard-E показала лучший и худший результаты соответственно (буквы «л» и «х» в табл. 7-11); 2) на основании каждой пары выборок последовательно строились прогностические модели; 3) при помощи исходного набора выполнялась проверка построенных моделей.

Результаты экспериментов

Эксперимент №1 (тестирование на обучающем наборе данных)

Таблица 1 – Результаты эксперимента №1

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1	0,8846	0,8700	0,8671	0,8700

Эксперимент №2 (тестирование на стратифицированной выборке)

Размер обучающего множества – 2618 записей (исходный набор), размер тестовой выборки – 90% от обучающего множества.

Таблица 2 – Результаты эксперимента №2

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 1)	0,7779	0,7819	0,7807	0,7763
F1 (выборка 2)	0,7328	0,7240	0,7386	0,7240
F1 (выборка 3)	0,7379	0,7306	0,7255	0,7410
F1 (выборка 4)	0,7329	0,7219	0,7229	0,7238
F1 (выборка 5)	0,7368	0,7435	0,7444	0,7267

Эксперимент №3 (тестирование на стратифицированной выборке)

Размер обучающего множества – 2618 записей (исходный набор), размер тестовой выборки – 80% от обучающего множества.

Таблица 3 – Результаты эксперимента №3

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 1)	0,7422	0,7452	0,7464	0,7315
F1 (выборка 2)	0,7385	0,7386	0,7392	0,7257
F1 (выборка 3)	0,7366	0,7209	0,7221	0,7221
F1 (выборка 4)	0,7398	0,7469	0,7457	0,7331
F1 (выборка 5)	0,7428	0,7280	0,7462	0,7288

Эксперимент №4 (тестирование на стратифицированной выборке)

Размер обучающего множества – 2618 записей (исходный набор), размер тестовой выборки – 70% от обучающего множества.

Таблица 4 – Результаты эксперимента №4

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 1)	0,7358	0,7440	0,7457	0,7405
F1 (выборка 2)	0,7412	0,7279	0,7256	0,7432
F1 (выборка 3)	0,7392	0,7453	0,7451	0,7298
F1 (выборка 4)	0,7343	0,7283	0,7256	0,7419
F1 (выборка 5)	0,7438	0,7319	0,7431	0,7346

Эксперимент №5 (тестирование на bootstrap-выборке)

Размер обучающего множества – 2618 записей (исходный набор), размер тестовой выборки – 2618 записей.

Таблица 5 – Результаты эксперимента №5

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 1)	0,7393	0,7426	0,7321	0,7218
F1 (выборка 2)	0,7555	0,7537	0,7537	0,7382
F1 (выборка 3)	0,7210	0,7114	0,7140	0,7308
F1 (выборка 4)	0,7396	0,7383	0,7352	0,7176
F1 (выборка 5)	0,7154	0,7225	0,7091	0,7250

Эксперимент №6 (тестирование на выборке с возвращением)

Размер обучающего множества – 2618 записей (исходный набор), размер тестовой выборки – 2618 записей.

Таблица 6 – Результаты эксперимента №6

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 1)	0,7402	0,7348	0,7339	0,7286
F1 (выборка 2)	0,7476	0,7308	0,7324	0,7357
F1 (выборка 3)	0,7495	0,7390	0,7337	0,7397
F1 (выборка 4)	0,7258	0,7323	0,7332	0,7342
F1 (выборка 5)	0,7382	0,7333	0,7279	0,7479

Эксперимент №7 (тестирование на исходном наборе)

Размер обучающего множества – 90% записей от исходного набора, размер тестовой выборки – 2618 записей (исходный набор).

Таблица 7 – Результаты эксперимента №7

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 1)	0,7727 л	0,8229 л	0,7705 л	0,7737 л
F1 (выборка 2)	0,7413 х	−	−	−
F1 (выборка 4)	−	0,7516 х	0,7577 х	0,7510 х

Эксперимент №8 (тестирование на исходном наборе)

Размер обучающего множества – 80% записей от исходного набора, размер тестовой выборки – 2618 записей (исходный набор).

Таблица 8 – Результаты эксперимента №8

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 1)	−	−	0,7391 л	−
F1 (выборка 3)	0,7348 х	0,7101 х	0,7128 х	0,7134 х
F1 (выборка 4)	−	0,7233 л	−	0,7233 л
F1 (выборка 5)	0,7134 л	−	−	−

Эксперимент №9 (тестирование на исходном наборе)

Размер обучающего множества – 70% записей от исходного набора, размер тестовой выборки – 2618 записей (исходный набор).

Таблица 9 – Результаты эксперимента №9

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 1)	−	−	0,7345 л	−
F1 (выборка 2)	−	0,7422 х	0,7422 х	0,7352 л
F1 (выборка 3)	−	0,7372 л	−	0,7371 х
F1 (выборка 4)	0,7290 х	−	−	−
F1 (выборка 5)	0,7336 л	−	−	−

Эксперимент №10 (тестирование на исходном наборе)

Размер обучающего множества – 2618 записей (bootstrap-выборка), размер тестовой выборки – 2618 записей (исходный набор).

Таблица 10 – Результаты эксперимента №10

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 2)	0,7307 л	0,7337 л	0,7318 л	0,7337 л
F1 (выборка 3)	−	0,7219 х	−	−
F1 (выборка 4)	−	−	−	0,7172 х
F1 (выборка 5)	0,7195 х	−	0,7325 х	−

Эксперимент №11 (тестирование на исходном наборе)

Размер обучающего множества – 2618 записей (выборка с возвращением), размер тестовой выборки – 2618 записей (исходный набор).

Таблица 11 – Результаты эксперимента №10

Критерий разбиения	Gini	Entropy	Information Gain	Gain Ratio
F1 (выборка 1)	−	−	0,6974 л	0,7256 х
F1 (выборка 2)	−	0,7115 х	−	−
F1 (выборка 3)	0,7480 л	0,7288 л	−	−
F1 (выборка 4)	0,7406 х	−	−	−
F1 (выборка 5)	−	−	0,7063 х	0,7031 л

Для полученных результатов были рассчитаны следующие характеристики: среднее, стандартное отклонение (СКО) и дисперсия.

Таблица 12 – Среднее, СКО, дисперсия для F1

Номера экспериментов	Среднее	СКО	Дисперсия
2-6	0,73627	0,01288	0,00017
7-11	0,73460	0,02286	0,00052
2-11	0,73580	0,01629	0,00027
без учета минимального и максимального значений F1
2-6	0,73608	0,01184	0,00014
7-11	0,73330	0,01734	0,00030
2-11	0,73540	0,01424	0,00020

Данные эксперимента №1 в расчете характеристик не использовались. Причина указана в выводе №1 (см. далее).

Таблица 13 – Среднее, СКО, дисперсия для F1 (Gini)

Номера экспериментов	Среднее	СКО	Дисперсия
2-6	0,73938	0,01154	0,00013
7-11	0,73636	0,01635	0,00027
2-11	0,73852	0,01291	0,00017
без учета минимального и максимального значений F1
2-6	0,73778	0,00847	0,00007
7-11	0,73891	0,01508	0,00023
2-11	0,73809	0,01043	0,00011

Таблица 14 – Среднее, СКО, дисперсия для F1 (Entropy)

Номера экспериментов	Среднее	СКО	Дисперсия
2-6	0,73590	0,01375	0,00019
7-11	0,73832	0,03244	0,00105
2-11	0,73659	0,02033	0,00041
без учета минимального и максимального значений F1
2-6	0,73590	0,01375	0,00019
7-11	0,73128	0,01266	0,00016
2-11	0,73478	0,01345	0,00018

Таблица 15 – Среднее, СКО, дисперсия для F1 (Information Gain)

Номера экспериментов	Среднее	СКО	Дисперсия
2-6	0,73608	0,01435	0,00021
7-11	0,73248	0,02243	0,00050
2-11	0,73505	0,01677	0,00028
без учета минимального и максимального значений F1
2-6	0,73422	0,01117	0,00012
7-11	0,73638	0,01988	0,00040
2-11	0,73481	0,01376	0,00019

Таблица 16 – Среднее, СКО, дисперсия для F1 (Gain Ratio)

Номера экспериментов	Среднее	СКО	Дисперсия
2-6	0,73370	0,01178	0,00014
7-11	0,73133	0,02014	0,00041
2-11	0,73302	0,01437	0,00021
без учета минимального и максимального значений F1
2-6	0,73193	0,00791	0,00006
7-11	0,73447	0,01859	0,00035
2-11	0,73262	0,01152	0,00013

Изучив представленные результаты, можно сделать следующие выводы:

iWizard-E продемонстрировала наибольшую эффективность при использовании в качестве тестового множества итогового набора, то есть данных, которые применялись для обучения проверяемых прогностических моделей в первом эксперименте. Однако такой подход, как правило, демонстрирует завышенные значения показателей качества. Следовательно, эти результаты в дальнейшем учитываться не будут для повышения достоверности оценки работы системы.
Наилучший результат (F1 = 0,8229) был достигнут при: тип выборки = «стратифицированная», размер обучающей выборки = «90% от исходного набора», размер тестовой выборки = «2618 записей». Наихудший результат (F1 = 0,6974) был достигнут при: тип выборки = «с возвращением», размер обучающей выборки = «2618 записей», размер тестовой выборки = «исходный набор».
iWizard-E продемонстрировала наиболее стабильные результаты при использовании в качестве обучающего множества исходного набора (самые низкие значения СКО и дисперсии при наивысших средних значениях; см. строки 2 и 6 в табл. 12).
iWizard-E продемонстрировала наиболее стабильные результаты (см. табл. 13-16) при использовании критерия разбиения Gain Ratio (наименьшие значения СКО и дисперсии).

Таким образом, iWizard-E продемонстрировала достаточно высокие результаты при обработке различных наборов данных. Следовательно, можно утверждать, что ИСППР позволяет формировать эффективные прогнозы.

Конфликт интересов Не указан.

Conflict of Interest None declared.

Список литературы / References

Бинарные деревья решений [Электронный ресурс]. − Режим доступа: URL: https://ranalytics.github.io/data-mining/052-Binary-Decision-Trees.html. (08.08.2018).
Бутстрэп [Электронный ресурс]. − Режим доступа: URL: https://basegroup.ru/community/glossary/bootstrap. (08.08.2018).
Информационная энтропия [Электронный ресурс]. − Режим доступа: URL: http://ru.math.wikia.com/wiki/Информационная_энтропия. (08.08.2018).
Коэффициент Джини [Электронный ресурс]. − Режим доступа: URL: http://www.economicportal.ru/ponyatiya-all/koefficient-dzhini.html. (08.08.2018).
Мифтахова, А. А. Использование методов искусственного интеллекта для повышения успеваемости студентов вузов / А. А. Мифтахова // Наука и бизнес: пути развития. − 2017. − № 5(71). − С. 7-12.
Оценка классификатора (точность, полнота, F-мера) [Электронный ресурс]. − Режим доступа: URL: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html. (08.08.2018).
Пальмов, С. В. Реализация деревьев решений в различных аналитических системах / С. В. Пальмов, А. А. Мифтахова // Перспективы науки. − 2015. − № 1(64). − С. 93-98.
Стратифицированная выборка [Электронный ресурс]. − Режим доступа: URL: http://www.market-journal.com/marketingovyeissledovanija/113.html. (08.08.2018).
Information gain ratio [Электронный ресурс]. − Режим доступа: URL: https://en.wikipedia.org/wiki/Information_gain_ratio. (08.08.2018).
Sampling With Replacement / Sampling Without Replacement [Электронный ресурс]. − Режим доступа: URL: http://www.statisticshowto.com/sampling-with-replacement-without/. (08.08.2018).

Список литературы на английском языке / References in English

Binarnyye derev'ya resheniy [Binary decision trees] [Electronic resource]. − URL: https://ranalytics.github.io/data-mining/052-Binary-Decision-Trees.html. (accessed: 08.08.2018). [in Russian]
Butstrep [Bootstrap] [Electronic resource]. − URL: https://basegroup.ru/community/glossary/bootstrap. (accessed: 08.08.2018). [in Russian]
Informatsionnaya entropiya [Information entropy] [Electronic resource]. − URL: http://ru.math.wikia.com/wiki/Информационная_энтропия. (accessed: 08.08.2018). [in Russian]
Koeffitsiyent Dzhini [Gini coefficient] [Electronic resource]. − URL: http://www.economicportal.ru/ponyatiya-all/koefficient-dzhini.html. (accessed: 08.08.2018). [in Russian]
Miftakhova, A. A. Ispol'zovaniye metodov iskusstvennogo intellekta dlya povysheniya uspevayemosti studentov vuzov [Artificial Intelligence for Improving Students’ Performance] / A. А. Miftakhova // Nauka i biznes: puti razvitiya [Science and business: development ways]. − 2017. − № 5(71). − P. 7-12. [in Russian]
Otsenka klassifikatora (tochnost', polnota, F-mera) [Classifier estimation (precision, recall, F-score)] [Electronic resource]. − URL: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html. (accessed: 08.08.2018). [in Russian]
Palmov, S. V. Realizatsiya derev'yev resheniy v razlichnykh analiticheskikh sistemakh [Realization of Decision Trees in Different Analytical Systems] / S. V. Palmov, A. A. Miftakhova // Perspektivy nauki [Science Prospects]. − 2015. − № 1(64). − P. 93-98.
Stratifitsirovannaya vyborka [Stratified sampling] [Electronic resource]. − URL: http://www.market-journal.com/marketingovyeissledovanija/113.html. (accessed: 08.08.2018). [in Russian]
Information gain ratio [Electronic resource]. − URL: https://en.wikipedia.org/wiki/Information_gain_ratio. (accessed: 08.08.2018).
Sampling With Replacement / Sampling Without Replacement [Electronic resource]. − URL: http://www.statisticshowto.com/sampling-with-replacement-without/. (accessed: 08.08.2018).