ИССЛЕДОВАНИЕ ПРОГНОСТИЧЕСКИХ ВОЗМОЖНОСТЕЙ СИСТЕМЫ «IWIZARD-E»
DOI: https://doi.org/10.23670/IRJ.2018.75.9.012
ИССЛЕДОВАНИЕ ПРОГНОСТИЧЕСКИХ ВОЗМОЖНОСТЕЙ СИСТЕМЫ «IWIZARD-E»
Научная статья
Пальмов С.В.1, *, Мифтахова А.А.2
1, 2 Поволжский государственный университет телекоммуникаций и информатики, Самара, Россия
* Корреспондирующий автор (psv[at]psuti.ru)
Аннотация
Исследованы прогностические возможности «iWizard-E» − интеллектуальной системы поддержки принятия решений, предназначенной для оказания помощи абитуриентам в выборе направления подготовки. Проведена серия экспериментов, в которых системой производилась обработка различных выборок, содержащих индивидуальные характеристики студентов и информацию об окончании ими вуза, с последующим генерированием рекомендаций относительно выбора предпочтительного направления подготовки. После этого было выполнено сравнение реальных данных с предложенными системой. В качестве критерия использовалась F-мера. Установлено, что «iWizard-E» позволяет формировать эффективные прогнозы.
Ключевые слова: искусственный интеллект, интеллектуальная система поддержки принятия решений, интеллектуальный анализ данных, Orange.
STUDY OF PROGNOSTIC OPPORTUNITIES OF THE IWIZARD-E SYSTEM
Research article
Palmov S.V.1, *, Miftakhova A.A.2
1, 2 Volga State University of Telecommunications and Informatics, Samara, Russia
* Corresponding author (psv[at]psuti.ru)
Abstract
The article considers prognostic capabilities of iWizard-E, an intelligent decision support system designed to help entrants choose their future career. A series of experiments was performed; various samples containing individual characteristics of students and information about their graduation from the university were processed followed by recommendations for choosing a preferred direction. After that, the real data were compared with the option proposed by the system. The F-measure was used as the criterion. It is established that “iWizard-E” allows creating effective forecasts.
Keywords: artificial intelligence, intelligent decision support system, data mining, Orange.
Введение
Одна из самых острых проблем вузов в настоящее время – успеваемость. Это вызвано все возрастающими требованиями к студентам. Как следствие, возникла ситуация, требующая осуществления некоторых мероприятий, направленных на повышение успеваемости студентов. Традиционные способы уже не оказывают должного эффекта. Поэтому в последние годы в сфере образования наметилась отчетливая тенденция использования разнообразных информационных технологий для повышения успеваемости студентов.
На вероятность успешного окончания студентом вуза, а значит, и на его успеваемость, сильное влияние оказывает то, насколько «правильно» было выбрано направление подготовки. Одним из способов снижения вероятности ошибки выбора является выявление скрытых закономерностей между индивидуальными характеристиками студента (абитуриента) и результатом окончания вуза с последующим использованием полученной информации для помощи абитуриенту при выборе направления подготовки на этапе подачи документов в приемную комиссию. На взгляд авторов, наиболее эффективный способ автоматизации процесса оказания помощи абитуриенту в вышеуказанном вопросе – это использование интеллектуальной системы поддержки принятия решений (ИСППР), разработанной с использованием технологии интеллектуального анализа данных (ИАД). Такая ИСППР использует модель предметной области (прогностическая модель), которая на основе неких знаний (закономерностей) вырабатывает прогнозы (рекомендации). [5, С. 7].
Описание экспериментов
ИСППР упомянутого типа разработана, зарегистрирована в Реестре программ для ЭВМ (свидетельство №2018616979, ИСППР «iWizard-E»), а ее основные особенности описаны и протестированы в [5, С. 8-10]. Однако было решено провести дополнительное исследование возможностей iWizard-E, использовав для этого F-меру (F1), поскольку она позволяет эффективнее оценить качество формируемых системой прогнозов. F-мера рассчитывается по формуле: [6].
Исследование состояло из 11 экспериментов. В каждом из них, кроме первого, использовалось по пять выборок определенного типа (стратифицированная, bootstrap и с возвращением), созданных средствами системы Orange [7, С. 95] на основе исходного набора данных (2618 записей) из [5, С. 8-9]. В указанный исходный набор данных было внесено единственное изменение – целевой показатель «сведения об окончании вуза» принимает только два значения: закончил вуз \ не закончил вуз. Таким образом, в ходе серии экспериментов оценивалась способность ИСППР «iWizard-E» формировать достоверные прогнозы относительно вероятности успешного окончания студентом вуза для выбранного направления подготовки.
Кратко опишем использованные типы выборок:
Стратифицированная выборка формируется в два этапа, в результате чего генеральная совокупность делится на слои (страты). Страты должны взаимно исключать и взаимно дополнять друг друга, чтобы каждый элемент совокупности относился к одному и только одному слою, и ни один элемент не был упущен. Далее, из каждого слоя случайным образом выбираются элементы, при этом обычно используется метод простой случайной выборки [8].
Bootstrap-выборка – метод формирования нескольких выборок данных того же размера, что и исходная генеральная совокупность, но с разными распределениями интересующей величины [2].
Выборка с возвращением (replacement) – на вероятность появления элемента в выборке прочие элементы генеральной совокупности не влияют [10].
Эксперименты можно разделить на два вида. В первом из них для каждого критерия разбиения (Gini [4], Entropy [3], Information Gain [1] и Gain Ratio [9]) при помощи исходного набора обучалась прогностическая модель, которая затем проверялась на пяти выборках конкретного типа (эксперименты со второго по шестой; в первом эксперименте для проверки использовался исходный набор).
Эксперименты второго вида проводились по следующей схеме: 1) в результатах экспериментов со второго по шестой выбирались два множества, при проверках по которым iWizard-E показала лучший и худший результаты соответственно (буквы «л» и «х» в табл. 7-11); 2) на основании каждой пары выборок последовательно строились прогностические модели; 3) при помощи исходного набора выполнялась проверка построенных моделей.
Результаты экспериментов
Эксперимент №1 (тестирование на обучающем наборе данных)
Таблица 1 – Результаты эксперимента №1
Критерий разбиения | Gini | Entropy | Information Gain | Gain Ratio |
F1 | 0,8846 | 0,8700 | 0,8671 | 0,8700 |
Эксперимент №2 (тестирование на стратифицированной выборке)
Размер обучающего множества – 2618 записей (исходный набор), размер тестовой выборки – 90% от обучающего множества.
Таблица 2 – Результаты эксперимента №2
Критерий разбиения | Gini | Entropy | Information Gain | Gain Ratio |
F1 (выборка 1) | 0,7779 | 0,7819 | 0,7807 | 0,7763 |
F1 (выборка 2) | 0,7328 | 0,7240 | 0,7386 | 0,7240 |
F1 (выборка 3) | 0,7379 | 0,7306 | 0,7255 | 0,7410 |
F1 (выборка 4) | 0,7329 | 0,7219 | 0,7229 | 0,7238 |
F1 (выборка 5) | 0,7368 | 0,7435 | 0,7444 | 0,7267 |
Эксперимент №3 (тестирование на стратифицированной выборке)
Размер обучающего множества – 2618 записей (исходный набор), размер тестовой выборки – 80% от обучающего множества.
Таблица 3 – Результаты эксперимента №3
Критерий разбиения | Gini | Entropy | Information Gain | Gain Ratio |
F1 (выборка 1) | 0,7422 | 0,7452 | 0,7464 | 0,7315 |
F1 (выборка 2) | 0,7385 | 0,7386 | 0,7392 | 0,7257 |
F1 (выборка 3) | 0,7366 | 0,7209 | 0,7221 | 0,7221 |
F1 (выборка 4) | 0,7398 | 0,7469 | 0,7457 | 0,7331 |
F1 (выборка 5) | 0,7428 | 0,7280 | 0,7462 | 0,7288 |
Эксперимент №4 (тестирование на стратифицированной выборке)
Размер обучающего множества – 2618 записей (исходный набор), размер тестовой выборки – 70% от обучающего множества.
Таблица 4 – Результаты эксперимента №4
Критерий разбиения | Gini | Entropy | Information Gain | Gain Ratio |
F1 (выборка 1) | 0,7358 | 0,7440 | 0,7457 | 0,7405 |
F1 (выборка 2) | 0,7412 | 0,7279 | 0,7256 | 0,7432 |
F1 (выборка 3) | 0,7392 | 0,7453 | 0,7451 | 0,7298 |
F1 (выборка 4) | 0,7343 | 0,7283 | 0,7256 | 0,7419 |
F1 (выборка 5) | 0,7438 | 0,7319 | 0,7431 | 0,7346 |
Эксперимент №5 (тестирование на bootstrap-выборке)
Размер обучающего множества – 2618 записей (исходный набор), размер тестовой выборки – 2618 записей.
Таблица 5 – Результаты эксперимента №5
Критерий разбиения | Gini | Entropy | Information Gain | Gain Ratio |
F1 (выборка 1) | 0,7393 | 0,7426 | 0,7321 | 0,7218 |
F1 (выборка 2) | 0,7555 | 0,7537 | 0,7537 | 0,7382 |
F1 (выборка 3) | 0,7210 | 0,7114 | 0,7140 | 0,7308 |
F1 (выборка 4) | 0,7396 | 0,7383 | 0,7352 | 0,7176 |
F1 (выборка 5) | 0,7154 | 0,7225 | 0,7091 | 0,7250 |
Эксперимент №6 (тестирование на выборке с возвращением)
Размер обучающего множества – 2618 записей (исходный набор), размер тестовой выборки – 2618 записей.
Таблица 6 – Результаты эксперимента №6
Критерий разбиения | Gini | Entropy | Information Gain | Gain Ratio |
F1 (выборка 1) | 0,7402 | 0,7348 | 0,7339 | 0,7286 |
F1 (выборка 2) | 0,7476 | 0,7308 | 0,7324 | 0,7357 |
F1 (выборка 3) | 0,7495 | 0,7390 | 0,7337 | 0,7397 |
F1 (выборка 4) | 0,7258 | 0,7323 | 0,7332 | 0,7342 |
F1 (выборка 5) | 0,7382 | 0,7333 | 0,7279 | 0,7479 |
Эксперимент №7 (тестирование на исходном наборе)
Размер обучающего множества – 90% записей от исходного набора, размер тестовой выборки – 2618 записей (исходный набор).
Таблица 7 – Результаты эксперимента №7
Критерий разбиения | Gini | Entropy | Information Gain | Gain Ratio |
F1 (выборка 1) | 0,7727 л | 0,8229 л | 0,7705 л | 0,7737 л |
F1 (выборка 2) | 0,7413 х | − | − | − |
F1 (выборка 4) | − | 0,7516 х | 0,7577 х | 0,7510 х |
Эксперимент №8 (тестирование на исходном наборе)
Размер обучающего множества – 80% записей от исходного набора, размер тестовой выборки – 2618 записей (исходный набор).
Таблица 8 – Результаты эксперимента №8
Критерий разбиения | Gini | Entropy | Information Gain | Gain Ratio |
F1 (выборка 1) | − | − | 0,7391 л | − |
F1 (выборка 3) | 0,7348 х | 0,7101 х | 0,7128 х | 0,7134 х |
F1 (выборка 4) | − | 0,7233 л | − | 0,7233 л |
F1 (выборка 5) | 0,7134 л | − | − | − |
Эксперимент №9 (тестирование на исходном наборе)
Размер обучающего множества – 70% записей от исходного набора, размер тестовой выборки – 2618 записей (исходный набор).
Таблица 9 – Результаты эксперимента №9
Критерий разбиения | Gini | Entropy | Information Gain | Gain Ratio |
F1 (выборка 1) | − | − | 0,7345 л | − |
F1 (выборка 2) | − | 0,7422 х | 0,7422 х | 0,7352 л |
F1 (выборка 3) | − | 0,7372 л | − | 0,7371 х |
F1 (выборка 4) | 0,7290 х | − | − | − |
F1 (выборка 5) | 0,7336 л | − | − | − |
Эксперимент №10 (тестирование на исходном наборе)
Размер обучающего множества – 2618 записей (bootstrap-выборка), размер тестовой выборки – 2618 записей (исходный набор).
Таблица 10 – Результаты эксперимента №10
Критерий разбиения | Gini | Entropy | Information Gain | Gain Ratio |
F1 (выборка 2) | 0,7307 л | 0,7337 л | 0,7318 л | 0,7337 л |
F1 (выборка 3) | − | 0,7219 х | − | − |
F1 (выборка 4) | − | − | − | 0,7172 х |
F1 (выборка 5) | 0,7195 х | − | 0,7325 х | − |
Эксперимент №11 (тестирование на исходном наборе)
Размер обучающего множества – 2618 записей (выборка с возвращением), размер тестовой выборки – 2618 записей (исходный набор).
Таблица 11 – Результаты эксперимента №10
Критерий разбиения | Gini | Entropy | Information Gain | Gain Ratio |
F1 (выборка 1) | − | − | 0,6974 л | 0,7256 х |
F1 (выборка 2) | − | 0,7115 х | − | − |
F1 (выборка 3) | 0,7480 л | 0,7288 л | − | − |
F1 (выборка 4) | 0,7406 х | − | − | − |
F1 (выборка 5) | − | − | 0,7063 х | 0,7031 л |
Для полученных результатов были рассчитаны следующие характеристики: среднее, стандартное отклонение (СКО) и дисперсия.
Таблица 12 – Среднее, СКО, дисперсия для F1
Номера экспериментов | Среднее | СКО | Дисперсия |
2-6 | 0,73627 | 0,01288 | 0,00017 |
7-11 | 0,73460 | 0,02286 | 0,00052 |
2-11 | 0,73580 | 0,01629 | 0,00027 |
без учета минимального и максимального значений F1 | |||
2-6 | 0,73608 | 0,01184 | 0,00014 |
7-11 | 0,73330 | 0,01734 | 0,00030 |
2-11 | 0,73540 | 0,01424 | 0,00020 |
Данные эксперимента №1 в расчете характеристик не использовались. Причина указана в выводе №1 (см. далее).
Таблица 13 – Среднее, СКО, дисперсия для F1 (Gini)
Номера экспериментов | Среднее | СКО | Дисперсия |
2-6 | 0,73938 | 0,01154 | 0,00013 |
7-11 | 0,73636 | 0,01635 | 0,00027 |
2-11 | 0,73852 | 0,01291 | 0,00017 |
без учета минимального и максимального значений F1 | |||
2-6 | 0,73778 | 0,00847 | 0,00007 |
7-11 | 0,73891 | 0,01508 | 0,00023 |
2-11 | 0,73809 | 0,01043 | 0,00011 |
Таблица 14 – Среднее, СКО, дисперсия для F1 (Entropy)
Номера экспериментов | Среднее | СКО | Дисперсия |
2-6 | 0,73590 | 0,01375 | 0,00019 |
7-11 | 0,73832 | 0,03244 | 0,00105 |
2-11 | 0,73659 | 0,02033 | 0,00041 |
без учета минимального и максимального значений F1 | |||
2-6 | 0,73590 | 0,01375 | 0,00019 |
7-11 | 0,73128 | 0,01266 | 0,00016 |
2-11 | 0,73478 | 0,01345 | 0,00018 |
Таблица 15 – Среднее, СКО, дисперсия для F1 (Information Gain)
Номера экспериментов | Среднее | СКО | Дисперсия |
2-6 | 0,73608 | 0,01435 | 0,00021 |
7-11 | 0,73248 | 0,02243 | 0,00050 |
2-11 | 0,73505 | 0,01677 | 0,00028 |
без учета минимального и максимального значений F1 | |||
2-6 | 0,73422 | 0,01117 | 0,00012 |
7-11 | 0,73638 | 0,01988 | 0,00040 |
2-11 | 0,73481 | 0,01376 | 0,00019 |
Таблица 16 – Среднее, СКО, дисперсия для F1 (Gain Ratio)
Номера экспериментов | Среднее | СКО | Дисперсия |
2-6 | 0,73370 | 0,01178 | 0,00014 |
7-11 | 0,73133 | 0,02014 | 0,00041 |
2-11 | 0,73302 | 0,01437 | 0,00021 |
без учета минимального и максимального значений F1 | |||
2-6 | 0,73193 | 0,00791 | 0,00006 |
7-11 | 0,73447 | 0,01859 | 0,00035 |
2-11 | 0,73262 | 0,01152 | 0,00013 |
Изучив представленные результаты, можно сделать следующие выводы:
- iWizard-E продемонстрировала наибольшую эффективность при использовании в качестве тестового множества итогового набора, то есть данных, которые применялись для обучения проверяемых прогностических моделей в первом эксперименте. Однако такой подход, как правило, демонстрирует завышенные значения показателей качества. Следовательно, эти результаты в дальнейшем учитываться не будут для повышения достоверности оценки работы системы.
- Наилучший результат (F1 = 0,8229) был достигнут при: тип выборки = «стратифицированная», размер обучающей выборки = «90% от исходного набора», размер тестовой выборки = «2618 записей». Наихудший результат (F1 = 0,6974) был достигнут при: тип выборки = «с возвращением», размер обучающей выборки = «2618 записей», размер тестовой выборки = «исходный набор».
- iWizard-E продемонстрировала наиболее стабильные результаты при использовании в качестве обучающего множества исходного набора (самые низкие значения СКО и дисперсии при наивысших средних значениях; см. строки 2 и 6 в табл. 12).
- iWizard-E продемонстрировала наиболее стабильные результаты (см. табл. 13-16) при использовании критерия разбиения Gain Ratio (наименьшие значения СКО и дисперсии).
Таким образом, iWizard-E продемонстрировала достаточно высокие результаты при обработке различных наборов данных. Следовательно, можно утверждать, что ИСППР позволяет формировать эффективные прогнозы.
Конфликт интересов Не указан. | Conflict of Interest None declared. |
Список литературы / References
- Бинарные деревья решений [Электронный ресурс]. − Режим доступа: URL: https://ranalytics.github.io/data-mining/052-Binary-Decision-Trees.html. (08.08.2018).
- Бутстрэп [Электронный ресурс]. − Режим доступа: URL: https://basegroup.ru/community/glossary/bootstrap. (08.08.2018).
- Информационная энтропия [Электронный ресурс]. − Режим доступа: URL: http://ru.math.wikia.com/wiki/Информационная_энтропия. (08.08.2018).
- Коэффициент Джини [Электронный ресурс]. − Режим доступа: URL: http://www.economicportal.ru/ponyatiya-all/koefficient-dzhini.html. (08.08.2018).
- Мифтахова, А. А. Использование методов искусственного интеллекта для повышения успеваемости студентов вузов / А. А. Мифтахова // Наука и бизнес: пути развития. − 2017. − № 5(71). − С. 7-12.
- Оценка классификатора (точность, полнота, F-мера) [Электронный ресурс]. − Режим доступа: URL: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html. (08.08.2018).
- Пальмов, С. В. Реализация деревьев решений в различных аналитических системах / С. В. Пальмов, А. А. Мифтахова // Перспективы науки. − 2015. − № 1(64). − С. 93-98.
- Стратифицированная выборка [Электронный ресурс]. − Режим доступа: URL: http://www.market-journal.com/marketingovyeissledovanija/113.html. (08.08.2018).
- Information gain ratio [Электронный ресурс]. − Режим доступа: URL: https://en.wikipedia.org/wiki/Information_gain_ratio. (08.08.2018).
- Sampling With Replacement / Sampling Without Replacement [Электронный ресурс]. − Режим доступа: URL: http://www.statisticshowto.com/sampling-with-replacement-without/. (08.08.2018).
Список литературы на английском языке / References in English
- Binarnyye derev'ya resheniy [Binary decision trees] [Electronic resource]. − URL: https://ranalytics.github.io/data-mining/052-Binary-Decision-Trees.html. (accessed: 08.08.2018). [in Russian]
- Butstrep [Bootstrap] [Electronic resource]. − URL: https://basegroup.ru/community/glossary/bootstrap. (accessed: 08.08.2018). [in Russian]
- Informatsionnaya entropiya [Information entropy] [Electronic resource]. − URL: http://ru.math.wikia.com/wiki/Информационная_энтропия. (accessed: 08.08.2018). [in Russian]
- Koeffitsiyent Dzhini [Gini coefficient] [Electronic resource]. − URL: http://www.economicportal.ru/ponyatiya-all/koefficient-dzhini.html. (accessed: 08.08.2018). [in Russian]
- Miftakhova, A. A. Ispol'zovaniye metodov iskusstvennogo intellekta dlya povysheniya uspevayemosti studentov vuzov [Artificial Intelligence for Improving Students’ Performance] / A. А. Miftakhova // Nauka i biznes: puti razvitiya [Science and business: development ways]. − 2017. − № 5(71). − P. 7-12. [in Russian]
- Otsenka klassifikatora (tochnost', polnota, F-mera) [Classifier estimation (precision, recall, F-score)] [Electronic resource]. − URL: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html. (accessed: 08.08.2018). [in Russian]
- Palmov, S. V. Realizatsiya derev'yev resheniy v razlichnykh analiticheskikh sistemakh [Realization of Decision Trees in Different Analytical Systems] / S. V. Palmov, A. A. Miftakhova // Perspektivy nauki [Science Prospects]. − 2015. − № 1(64). − P. 93-98.
- Stratifitsirovannaya vyborka [Stratified sampling] [Electronic resource]. − URL: http://www.market-journal.com/marketingovyeissledovanija/113.html. (accessed: 08.08.2018). [in Russian]
- Information gain ratio [Electronic resource]. − URL: https://en.wikipedia.org/wiki/Information_gain_ratio. (accessed: 08.08.2018).
- Sampling With Replacement / Sampling Without Replacement [Electronic resource]. − URL: http://www.statisticshowto.com/sampling-with-replacement-without/. (accessed: 08.08.2018).