USE OF THE PRINCIPLES WORK OF DECISIONS TREES FOR THE SOLUTION OF THE PROBLEM OF SPLITTING USERS OF ONLINE STORE INTO CLASSES
Заельская Н.А.
Старший преподаватель,
Оренбургский государственный университет
ИСПОЛЬЗОВАНИЕ ПРИНЦИПОВ РАБОТЫ ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ РЕШЕНИЯ ЗАДАЧИ РАЗБИЕНИЯ ПОЛЬЗОВАТЕЛЕЙ ИНТЕРНЕТ-МАГАЗИНА НА КЛАССЫ
Аннотация
В статье используются метод интеллектуального анализа – деревья решений для разбиения пользователей на классы, используя статистику заказов интернет-магазина.
Ключевые слова: интеллектуальный анализ, деревья решений, классы пользователей, интернет-магазин.
Zayelskaya N. A.
Senior teacher,
Orenburg state university
USE OF THE PRINCIPLES WORK OF DECISIONS TREES FOR THE SOLUTION OF THE PROBLEM OF SPLITTING USERS OF ONLINE STORE INTO CLASSES
Abstract
In article methods of the data mining are used – trees of decisions for splitting users into classes, using statistics of orders of online store.
Keywords: data mining, trees of decisions, classes of users, online store.
В последнее время с активным распространением интернет-технологий интернет торговля приобретает все большую популярность. Расширяется и круг потребителей товаров и услуг интернет-торговли. В общем значении пользователь – это лицо или организация, которое использует действующую систему для выполнения конкретной функции.
Пользователь интернет-магазина – это лицо, которое посредством использования сервисов онлайн-магазина изучает ассортимент, сравнивает и выбирает, оплачивает и получает какой-либо товар. Все пользователи интернет-магазинов имеют разные потребности. Для успешной торговли владельцу интернет-магазина необходимо знать потребности пользователей. Чтобы посетитель интернет-магазина перешел в разряд покупателя или постоянного покупателя необходимо спрогнозировать портрет посетителя. После совершения первой покупки, пользователя необходимо заинтересовать, провести необходимые мероприятия, для того чтобы он не отказался от последующих покупок в пользу другого интернет-магазина.
Интернет-технологии предлагают много возможностей для воздействия на покупателя. Среди этих возможностей можно выделить сравнение предлагаемых товаров по ценовой категории или функциональным характеристикам, отзывы по качеству товара или предоставляемым услугам. Наиболее предпочтительным является тип пользователей, которые ищут информацию в Интернете и готовы совершать покупки в сети. Этих пользователей можно классифицировать, используя информацию о заказах и в дальнейшем использовать эту классификацию для проведения мероприятий по мотивации различных классов пользователей к совершению покупок.
Для решения задач классификации в интеллектуальном анализе данных используются метод деревья решений. Деревья решений – это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде "если ... то ..." [1]. Для построения дерева решения выбран Алгоритм C4.5, усовершенствованная версия алгоритма ID3 (Iterative Dichotomizer).
В качестве исходных данных для классификации взяты заказы клиентов Интернет-магазина. Статусы клиентов могут быть выбраны из предложенных – новичок, постоянный активный и VIP. Необходимо провести классификацию всех клиентов по статусам в зависимости от количества выполненных, оплаченных и отказанных заказов у каждого из них. А также необходимо учитывать при определении статуса способ оплаты из количества выполненных заказов – оплата по карте или оплата при получении. Данные по статистике заказов содержат следующие поля: Номер клиента, Статус клиента, Выполненные заказы, Отказанные заказы, Оплата картой, Оплата при получении.
Модель классификации клиентов Интернет-магазина на новичков, постоянных, активных и VIP построена при помощи алгоритма построения дерева решений C4.5 в Deductor Studio Academic.
В результате работы алгоритма было выявлено 5 правил.
Рис. 1 – Дерево решений по статистике заказов покупателей интернет-магазина
В графическом представлении дерева решений каждое правило читается следующим образом.
ЕСЛИ Выполненные заказы <6 и Оплата картой<4 ТО Новичок
ЕСЛИ Выполненные заказы <6 и Оплата картой>=4 ТО Постоянный
ЕСЛИ Выполненные заказы >=6 и Выполненные заказы <12 ТО Постоянный
ЕСЛИ Выполненные заказы >=6 и < 18 и Выполненные заказы <12 ТО Постоянный
ЕСЛИ Выполненные заказы >=6 и < 18 и Выполненные заказы >=12 ТО VIP Активный
ЕСЛИ Выполненные заказы >=18 ТО VIP
В анализируемой выборке статистики заказов выделен один атрибут, значимость которого наибольшая – Выполненные заказы (91,7%). Атрибут Оплата картой тоже является значимым, но не вносит существенный вклад на формирование классификации выходного поля (8,3%). По полученной таблице сопряженности можно сделать вывод, что 89,3% исходной выборки было классифицировано правильно и только 10,7% ошибочно.
Таким образом, можно сделать вывод, что при отнесении пользователя к определенному классу влияние будут оказывать два фактора Количество выполненных заказов и Оплата картой. Отказ от заказа и Оплата при получении не оказывает влияния при определении пользователя в один из выделенных классов.
Литература
- BaseGroup Labs технологии анализа данных. [Электронный ресурс] Режим доступа – http://www.basegroup.ru (дата обращения: 29.03.2015).
- Люгер, Джордж Ф, Искусственный интеллект: стратегии и методы решения сложных проблем, 4-е издание.: Пер. с англ. – М.: Издательский дом «Вильямс», 2003. – 864 с.
References
- BaseGroup Labs tehnologii analiza dannyh. [Jelektronnyj resurs] Rezhim dostupa – http://www.basegroup.ru (data obrashhenija: 29.03.2015).
- Ljuger, Dzhordzh F, Iskusstvennyj intellekt: strategii i metody reshenija slozhnyh problem, 4-e izdanie.: Per. s angl. – M.: Izdatel'skij dom «Vil'jams», 2003. – 864 s.