9068
.pdfИнтерпретация моделей человеком с целью их использования для принятия решений, добавления полученных правил и зависимостей в базы знаний.
Каждый из алгоритмов Data Mining использует определенный подход к визуа-
лизации:
5.Для деревьев решений это визуализатор дерева решений, список правил, таб-
лица сопряженности.
6.Для нейронных сетей в зависимости от инструмента это может быть тополо-
гия сети, график изменения величины ошибки, демонстрирующий процесс обучения, таблица сопряженности или диаграммы рассеивания.
7.Для линейной регрессии в качестве визуализатора выступает линия регрессии,
диаграммы рассеивания.
8.Для кластеризации – дендрограммы, карты Кохонена.
Деревья решений
Деревья решений (decision trees) относятся к числу самых популярных и мощ-
ных инструментов Data Mining, позволяющих эффективно решать задачи классифи-
кации (например, отнесение региона к определенному классу, типу, виду), задачи регрессии и прогнозирования основных экономических, социальных, экологических показателей: ВРП, объема промышленного производства, уровня доходов бюджета и населения и других. Если зависимая, т.е. целевая переменная принимает дискрет-
ные значения, то при помощи метода дерева решений решается задача классифика-
ции. Если же зависимая переменная принимает непрерывные значения, то дерево решений устанавливает зависимость этой переменной от независимых переменных,
т.е. решает задачу численного прогнозирования.
Деревья решений – иерархические древовидные структуры, состоящие из ре-
шающих правил вида «если – то», которые могут быть сформулированы на есте-
ственном языке. Поэтому деревья решений являются наиболее наглядными и легко интерпретируемыми моделями.
31
В отличие от методов, использующих статистический подход, деревья реше-
ний основаны на машинном обучении и в большинстве случаев не требуют предпо-
ложений о статистическом распределении значений признаков.
Для эффективного построения дерева решений должны выполняться следую-
щие условия:
Описание атрибутов – анализируемые данные должны быть представлены
ввиде структурированного набора, в котором вся информация об объекте или наблюдении должна быть выражена совокупностью атрибутов (признаков,
описывающих классифицируемые объекты).
Предварительное определение классов – категории, к которым относятся наблюдения (метки классов), должны быть заданы предварительно, то есть имеет место обучение с учителем.
Различимость классов – должна обеспечиваться принципиальная возможность установления факта принадлежности или непринадлежности примера
копределенному классу. При этом количество примеров должно быть намного больше, чем количество классов.
Полнота данных – обучающее множество должно содержать достаточно большое количество различных примеров. Необходимая численность зависит от таких факторов, как количество признаков и классов, сложность классификационной модели.
Воснове работы деревьев решений лежит процесс рекурсивного разбиения исходного множества наблюдений или объектов на подмножества, которые ассоци-
ированы с классами. Разбиение проводится с помощью решающих правил, в кото-
рых осуществляется проверка значений атрибутов по заданному условию.
Например, стоит задача разбить множество объектов недвижимости на 2 клас-
са: дорогие или недорогие квартиры с помощью набора решающих правил на основе единственного атрибута общая площадь квартиры. Для этого будем использовать множество наблюдений, в каждом из которых должна быть указана общая площадь,
а также факт дорогая/недорогая квартира. Графически такое множество наблюдений
32
представлено на рис. 15. Условно примем, что объект в форме круга указывает на недорогую квартиру, в форме прямоугольника – на дорогую квартиру, а внутри каждого объекта указана общая площадь квартиры.
Рис. 15. Разделение на классы Необходимо разбить множества на подмножества так, чтобы в них попали
только объекты одного класса.
Выберем некоторое пороговое значение общей площади, например равное 40
квадратным метрам, и разобьем исходное множество на 2 подмножества соответ-
ствии с условием общая площадь>40. В результате разбиения в одном подмноже-
стве окажутся все записи, для которых значение атрибута общая площадь больше
40, а во втором – меньше 40. На рис. 4.1 данные подмножества обозначены номера-
ми 1 и 2 соответственно. Легко увидеть, что выбор порогового значения общей пло-
щади, равного 40, не позволил получить подмножества, содержащие только объекты одного класса, поэтому для решения задачи применяется разбиение полученных подмножеств. Поскольку для этого имеется только один атрибут – общая площадь,
мы будем использовать его и в дальнейшем, но в условиях выберем другой порог.
Например, для подмножества 1 применим порог 50, а для подмножества 2 – 20.
Результаты повторного разбиения представлены на рис. 16.
33
Рис. 16. Продолжение деления на классы На рис. 16 можно увидеть, что задача решена: исходное множество удалось
разбить на чистые подмножества, содержащие только наблюдения одного класса.
Дерево, реализующее данную процедуру, представлено на рис.17. В нем подмноже-
ства 3 и 5 ассоциированы с классом недорогих квартир, а подмножества 4 и 6 – с
классом дорогих квартир.
Рис. 17. Построенное дерево решений (по одному атрибуту)
Применяя построенную модель к новым объектам недвижимости, можно ука-
зать их ценовую категорию на основании того, в какое из подмножеств модель по-
местит соответствующую запись.
Таким образом, мы получили систему правил вида «если...то..», которые поз-
воляют принять решение относительно принадлежности объекта к определенному
34
классу. Деревья решений не только классифицируют объекты и наблюдения, но и объясняют, почему объект был отнесен к данному классу.
Обладая высокой объясняющей способностью и интерпретируемостью, дере-
вья решений могут использоваться и как эффективные классификаторы, и как ин-
струмент исследования предметной области.
Процесс построения дерева решений не является однозначно определенным.
Для различных атрибутов и даже для различного порядка их применения могут быть сгенерированы различные деревья решений.
Прежде, чем применять построенную модель на практике, необходимо оце-
нить ее, точность, эффективность и способность к работе с новыми данными.
Точность дерева решений определяется на основе числа правильно и непра-
вильно классифицированных примеров.
Эффективность разбиения оценивается по чистоте полученных дочерних уз-
лов относительно целевой переменной. От ее типа и будет зависеть выбор предпо-
чтительного критерия разбиения. Если выходная переменная является категориаль-
ной, то необходимо использовать такие критерии, как индекс Джини, прирост ин-
формации или тест хи-квадрат. Если выходная переменная является непрерывной,
то для оценки эффективности разбиения используются метод уменьшения диспер-
сии или F-критерий Фишера.
Для определения меры эффективности деревьев решений используют тестовое множество – набор примеров, которые ранее не использовались при построении де-
рева решений. Пропуская набор тестовых примеров через построенное дерево ре-
шений, вычисляем для какого процента примеров, класс был определен правильно.
Это позволяет оценить качество всего классификатора и качество решения задачи классификации отдельных ветвей в дереве.
Каждый узел дерева имеет следующие характеристики:
количество примеров, попавших в узел;
доли примеров, относящихся к каждому из классов;
число классифицированных примеров (для узлов);
35
процент записей, верно классифицированных данным узлом.
Особый интерес для оценки качества классификации имеют два показатели:
поддержка (support) – отношение числа правильно классифицированных
примеров к общему числу примеров |
S |
Nкл |
Nобщ |
Значение поддержки находится в интервале [0;1].
достоверность (confidence) – отношение числа правильно классифициро-
ванных примеров к числу неправильно классифицированных:
S Nкл
Nошибка
Чем больше число правильно классифицированных примеров в узле, тем выше достоверность. Поддержка и достоверность могут использоваться в качестве параметров построения дерева решений. Например, можно задать, что разбиение должно производиться до тех пор, пока в узле не будет достигнут заданный порог поддержки.
2.3.4. Раздел 4. Data Mining: ассоциативные правила.
Аффинитивный анализ (affinity analysis) – один из распространенных мето-
дов Data Mining. Его название происходит от английского слова affinity, которое в переводе означает «близость», «сходство». Цель данного метода – исследование взаимной связи между событиями, которые происходят совместно. Разновидностью аффинитивного анализа является анализ рыночной корзины (market basket analysis),
цель которого – обнаружить ассоциации между различными событиями, то есть найти правила для количественного описания взаимной связи между двумя или бо-
лее событиями. Такие правила называются ассоциативными правилами (association rules).
Пусть I = {i1, i2, i3, …in} – множество (набор) товаров, называемых элемен-
тами,
36
D – множество транзакций Т, где каждая из них является набором элементов из I,T I.
Любая транзакция представляет собой бинарный вектор, где t[k] = 1, если ik
элемент присутствует в ней, иначе t[k] = 0.
Говорят, что транзакция T содержит X (некоторый набор элементов из I), ес-
ли X T.
Ассоциативным правилом называется импликация X Y, где X I, Y I и X Y = .
Примерами приложения ассоциативных правил могут быть следующие зада-
чи:
-выявление наборов товаров, которые в супермаркетах часто покупаются вместе или никогда не покупаются вместе;
-определение доли клиентов, положительно относящихся к нововведени-
ям в их обслуживании;
-определение профиля посетителей веб-ресурса;
-определение доли случаев, в которых новое лекарство показывает опас-
ный побочный эффект.
Базовым понятием в теории ассоциативных правил является транзакция – не-
которое множество событий, происходящих совместно. Типичная транзакция – при-
обретение клиентом товара в супермаркете. В подавляющем большинстве случаев клиент покупает не один товар, а набор товаров, который называется рыночной кор-
зиной. При этом возникает вопрос: является ли покупка одного товара в корзине следствием или причиной покупки другого товара, то есть связаны ли данные собы-
тия? Эту связь и устанавливают ассоциативные правила. Например, может быть об-
наружено ассоциативное правило, утверждающее, что клиент, купивший молоко, с
вероятностью 75 % купит и хлеб.
Ассоциативное правило состоит из двух наборов предметов, называемых условие (antecedent) и следствие (consequent), записываемых в виде X → Y, что чита-
37
ется следующим образом: «Из X следует Y». Таким образом, ассоциативное правило формулируется в виде: «Если условие, то следствие».
Показатели значимости ассоциативных правил
Ассоциативные правила описывают связь между наборами предметов, соот-
ветствующими условию и следствию. Эта связь характеризуется двумя показателя-
ми – поддержкой (support) и достоверностью (confidence).
Обозначим базу данных транзакций как D, а число транзакций в этой базе как
N. Каждая транзакция Di представляет собой некоторый набор предметов. Зададим,
что S – поддержка, C – достоверность.
Поддержка ассоциативного правила – это число транзакций, которые содер-
жат как условие, так и следствие. Например, для ассоциации A → B можно записать:
S=.
Достоверность ассоциативного правила A → B представляет собой меру точ-
ности правила и определяется как отношение количества транзакций, содержащих и условие, и следствие, к количеству транзакций, содержащих только условие:
C= .
Если поддержка и достоверность достаточно высоки, можно с большой веро-
ятностью утверждать, что любая будущая транзакция, которая включает условие,
будет также содержать и следствие.
Лифт – это отношение частоты появления условия в транзакциях, которые также содержат и следствие, к частоте появления следствия в целом. Значения лиф-
та большие, чем единица, показывают, что условие чаще появляется в транзакциях,
содержащих следствие, чем в остальных. Лифт является обобщенной мерой связи двух предметных наборов: при значениях лифта> 1 связь положительная, при 1 она отсутствует, а при значениях <1 – отрицательная.
Современные базы данных имеют очень большие размеры, достигающие гига-
и терабайтов, и тенденцию к дальнейшему увеличению. И поэтому, для нахождения
38
ассоциативных правил требуются эффективные масштабируемые алгоритмы, позво-
ляющие решить задачу за приемлемое время.
Один из первых алгоритмов, эффективно решающих подобный класс задач, –
это алгоритм Aрriori. Кроме этого алгоритма в последнее время был разработан ряд других алгоритмов: DHP, Partition, DIC и другие.
Алгоритм Aрriori.
На первом шаге этого алгоритма этого в необходимо найти часто встречаю-
щиеся наборы элементов, а затем, на втором, извлечь из них правила. Количество элементов в наборе будем называть размером набора, а набор, состоящий из k эле-
ментов, – k-элементным набором.
Выявление часто встречающихся наборов элементов – операция, требующая много вычислительных ресурсов и, соответственно, времени. Примитивный подход к решению данной задачи – простой перебор всех возможных наборов элементов.
Это потребует O(2|I|) операций, где |I| – количество элементов. Apriori использует одно из свойств поддержки, гласящее: поддержка любого набора элементов не мо-
жет превышать минимальной поддержки любого из его подмножеств. Например,
поддержка 3-элементного набора {Хлеб, Масло, Молоко} будет всегда меньше или равна поддержке 2-элементных наборов {Хлеб, Масло}, {Хлеб, Молоко}, {Масло,
Молоко}. Дело в том, что любая транзакция, содержащая {Хлеб, Масло, Молоко},
также должна содержать {Хлеб, Масло}, {Хлеб, Молоко}, {Масло, Молоко}, при-
чем обратное не верно.
Это свойство носит название анти-монотонности и служит для снижения раз-
мерности пространства поиска. Не имей мы в наличии такого свойства, нахождение многоэлементных наборов было бы практически невыполнимой задачей в связи с экспоненциальным ростом вычислений.
Свойству анти-монотонности можно дать и другую формулировку: с ростом размера набора элементов поддержка уменьшается, либо остается такой же. Из всего вышесказанного следует, что любой k-элементный набор будет часто встречающим-
39
ся тогда и только тогда, когда все его (k-1)-элементные подмножества будут часто встречающимися.
После того как найдены все часто встречающиеся наборы элементов, можно приступить непосредственно к генерации правил.
Алгоритмы поиска ассоциативных правил предназначены для нахождения всех правил X Y, причем поддержка и достоверность этих правил должны быть вы-
ше некоторых наперед определенных порогов, называемых соответственно мини-
мальной поддержкой (minsupport) и минимальной достоверностью (minconfidence).
Все множество ассоциативных правил можно разделить на три вида:
Полезные правила – содержат действительную информацию, которая ра-
нее была неизвестна, но имеет логичное объяснение. Такие правила могут быть ис-
пользованы для принятия решений, приносящих выгоду.
Тривиальные правила – содержат действительную и легко объяснимую информацию, которая уже известна. Такие правила, хотя и объяснимы, но не могут принести какой-либо пользы, т.к. отражают или известные законы в исследуемой области, или результаты прошлой деятельности. При анализе рыночных корзин в правилах с самой высокой поддержкой и достоверностью окажутся товары-лидеры продаж. Практическая ценность таких правил крайне низка.
Непонятные правила – содержат информацию, которая не может быть объяснена. Такие правила могут быть получены или на основе аномальных значе-
ний, или глубоко скрытых знаний. Напрямую такие правила нельзя использовать для принятия решений, т.к. их необъяснимость может привести к непредсказуемым результатам. Для лучшего понимания требуется дополнительный анализ.
Варьируя верхним и нижним пределами поддержки и достоверности, можно избавиться от очевидных и неинтересных закономерностей. Как следствие, правила,
генерируемые алгоритмом, принимают приближенный к реальности вид. Понятия
«верхний» и «нижний» предел очень сильно зависят от предметной области, поэто-
му не существует четкого алгоритма их выбора. Но есть ряд общих рекомендаций.
40