Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9068

.pdf
Скачиваний:
1
Добавлен:
25.11.2023
Размер:
2.21 Mб
Скачать

Интерпретация моделей человеком с целью их использования для принятия решений, добавления полученных правил и зависимостей в базы знаний.

Каждый из алгоритмов Data Mining использует определенный подход к визуа-

лизации:

5.Для деревьев решений это визуализатор дерева решений, список правил, таб-

лица сопряженности.

6.Для нейронных сетей в зависимости от инструмента это может быть тополо-

гия сети, график изменения величины ошибки, демонстрирующий процесс обучения, таблица сопряженности или диаграммы рассеивания.

7.Для линейной регрессии в качестве визуализатора выступает линия регрессии,

диаграммы рассеивания.

8.Для кластеризации – дендрограммы, карты Кохонена.

Деревья решений

Деревья решений (decision trees) относятся к числу самых популярных и мощ-

ных инструментов Data Mining, позволяющих эффективно решать задачи классифи-

кации (например, отнесение региона к определенному классу, типу, виду), задачи регрессии и прогнозирования основных экономических, социальных, экологических показателей: ВРП, объема промышленного производства, уровня доходов бюджета и населения и других. Если зависимая, т.е. целевая переменная принимает дискрет-

ные значения, то при помощи метода дерева решений решается задача классифика-

ции. Если же зависимая переменная принимает непрерывные значения, то дерево решений устанавливает зависимость этой переменной от независимых переменных,

т.е. решает задачу численного прогнозирования.

Деревья решений – иерархические древовидные структуры, состоящие из ре-

шающих правил вида «если – то», которые могут быть сформулированы на есте-

ственном языке. Поэтому деревья решений являются наиболее наглядными и легко интерпретируемыми моделями.

31

В отличие от методов, использующих статистический подход, деревья реше-

ний основаны на машинном обучении и в большинстве случаев не требуют предпо-

ложений о статистическом распределении значений признаков.

Для эффективного построения дерева решений должны выполняться следую-

щие условия:

Описание атрибутов – анализируемые данные должны быть представлены

ввиде структурированного набора, в котором вся информация об объекте или наблюдении должна быть выражена совокупностью атрибутов (признаков,

описывающих классифицируемые объекты).

Предварительное определение классов – категории, к которым относятся наблюдения (метки классов), должны быть заданы предварительно, то есть имеет место обучение с учителем.

Различимость классов – должна обеспечиваться принципиальная возможность установления факта принадлежности или непринадлежности примера

копределенному классу. При этом количество примеров должно быть намного больше, чем количество классов.

Полнота данных – обучающее множество должно содержать достаточно большое количество различных примеров. Необходимая численность зависит от таких факторов, как количество признаков и классов, сложность классификационной модели.

Воснове работы деревьев решений лежит процесс рекурсивного разбиения исходного множества наблюдений или объектов на подмножества, которые ассоци-

ированы с классами. Разбиение проводится с помощью решающих правил, в кото-

рых осуществляется проверка значений атрибутов по заданному условию.

Например, стоит задача разбить множество объектов недвижимости на 2 клас-

са: дорогие или недорогие квартиры с помощью набора решающих правил на основе единственного атрибута общая площадь квартиры. Для этого будем использовать множество наблюдений, в каждом из которых должна быть указана общая площадь,

а также факт дорогая/недорогая квартира. Графически такое множество наблюдений

32

представлено на рис. 15. Условно примем, что объект в форме круга указывает на недорогую квартиру, в форме прямоугольника – на дорогую квартиру, а внутри каждого объекта указана общая площадь квартиры.

Рис. 15. Разделение на классы Необходимо разбить множества на подмножества так, чтобы в них попали

только объекты одного класса.

Выберем некоторое пороговое значение общей площади, например равное 40

квадратным метрам, и разобьем исходное множество на 2 подмножества соответ-

ствии с условием общая площадь>40. В результате разбиения в одном подмноже-

стве окажутся все записи, для которых значение атрибута общая площадь больше

40, а во втором – меньше 40. На рис. 4.1 данные подмножества обозначены номера-

ми 1 и 2 соответственно. Легко увидеть, что выбор порогового значения общей пло-

щади, равного 40, не позволил получить подмножества, содержащие только объекты одного класса, поэтому для решения задачи применяется разбиение полученных подмножеств. Поскольку для этого имеется только один атрибут – общая площадь,

мы будем использовать его и в дальнейшем, но в условиях выберем другой порог.

Например, для подмножества 1 применим порог 50, а для подмножества 2 – 20.

Результаты повторного разбиения представлены на рис. 16.

33

Рис. 16. Продолжение деления на классы На рис. 16 можно увидеть, что задача решена: исходное множество удалось

разбить на чистые подмножества, содержащие только наблюдения одного класса.

Дерево, реализующее данную процедуру, представлено на рис.17. В нем подмноже-

ства 3 и 5 ассоциированы с классом недорогих квартир, а подмножества 4 и 6 – с

классом дорогих квартир.

Рис. 17. Построенное дерево решений (по одному атрибуту)

Применяя построенную модель к новым объектам недвижимости, можно ука-

зать их ценовую категорию на основании того, в какое из подмножеств модель по-

местит соответствующую запись.

Таким образом, мы получили систему правил вида «если...то..», которые поз-

воляют принять решение относительно принадлежности объекта к определенному

34

классу. Деревья решений не только классифицируют объекты и наблюдения, но и объясняют, почему объект был отнесен к данному классу.

Обладая высокой объясняющей способностью и интерпретируемостью, дере-

вья решений могут использоваться и как эффективные классификаторы, и как ин-

струмент исследования предметной области.

Процесс построения дерева решений не является однозначно определенным.

Для различных атрибутов и даже для различного порядка их применения могут быть сгенерированы различные деревья решений.

Прежде, чем применять построенную модель на практике, необходимо оце-

нить ее, точность, эффективность и способность к работе с новыми данными.

Точность дерева решений определяется на основе числа правильно и непра-

вильно классифицированных примеров.

Эффективность разбиения оценивается по чистоте полученных дочерних уз-

лов относительно целевой переменной. От ее типа и будет зависеть выбор предпо-

чтительного критерия разбиения. Если выходная переменная является категориаль-

ной, то необходимо использовать такие критерии, как индекс Джини, прирост ин-

формации или тест хи-квадрат. Если выходная переменная является непрерывной,

то для оценки эффективности разбиения используются метод уменьшения диспер-

сии или F-критерий Фишера.

Для определения меры эффективности деревьев решений используют тестовое множество – набор примеров, которые ранее не использовались при построении де-

рева решений. Пропуская набор тестовых примеров через построенное дерево ре-

шений, вычисляем для какого процента примеров, класс был определен правильно.

Это позволяет оценить качество всего классификатора и качество решения задачи классификации отдельных ветвей в дереве.

Каждый узел дерева имеет следующие характеристики:

количество примеров, попавших в узел;

доли примеров, относящихся к каждому из классов;

число классифицированных примеров (для узлов);

35

процент записей, верно классифицированных данным узлом.

Особый интерес для оценки качества классификации имеют два показатели:

поддержка (support) – отношение числа правильно классифицированных

примеров к общему числу примеров

S

Nкл

Nобщ

Значение поддержки находится в интервале [0;1].

достоверность (confidence) – отношение числа правильно классифициро-

ванных примеров к числу неправильно классифицированных:

S Nкл

Nошибка

Чем больше число правильно классифицированных примеров в узле, тем выше достоверность. Поддержка и достоверность могут использоваться в качестве параметров построения дерева решений. Например, можно задать, что разбиение должно производиться до тех пор, пока в узле не будет достигнут заданный порог поддержки.

2.3.4. Раздел 4. Data Mining: ассоциативные правила.

Аффинитивный анализ (affinity analysis) – один из распространенных мето-

дов Data Mining. Его название происходит от английского слова affinity, которое в переводе означает «близость», «сходство». Цель данного метода – исследование взаимной связи между событиями, которые происходят совместно. Разновидностью аффинитивного анализа является анализ рыночной корзины (market basket analysis),

цель которого – обнаружить ассоциации между различными событиями, то есть найти правила для количественного описания взаимной связи между двумя или бо-

лее событиями. Такие правила называются ассоциативными правилами (association rules).

Пусть I = {i1, i2, i3, …in} – множество (набор) товаров, называемых элемен-

тами,

36

D – множество транзакций Т, где каждая из них является набором элементов из I,T I.

Любая транзакция представляет собой бинарный вектор, где t[k] = 1, если ik

элемент присутствует в ней, иначе t[k] = 0.

Говорят, что транзакция T содержит X (некоторый набор элементов из I), ес-

ли X T.

Ассоциативным правилом называется импликация X Y, где X I, Y I и X Y = .

Примерами приложения ассоциативных правил могут быть следующие зада-

чи:

-выявление наборов товаров, которые в супермаркетах часто покупаются вместе или никогда не покупаются вместе;

-определение доли клиентов, положительно относящихся к нововведени-

ям в их обслуживании;

-определение профиля посетителей веб-ресурса;

-определение доли случаев, в которых новое лекарство показывает опас-

ный побочный эффект.

Базовым понятием в теории ассоциативных правил является транзакция – не-

которое множество событий, происходящих совместно. Типичная транзакция – при-

обретение клиентом товара в супермаркете. В подавляющем большинстве случаев клиент покупает не один товар, а набор товаров, который называется рыночной кор-

зиной. При этом возникает вопрос: является ли покупка одного товара в корзине следствием или причиной покупки другого товара, то есть связаны ли данные собы-

тия? Эту связь и устанавливают ассоциативные правила. Например, может быть об-

наружено ассоциативное правило, утверждающее, что клиент, купивший молоко, с

вероятностью 75 % купит и хлеб.

Ассоциативное правило состоит из двух наборов предметов, называемых условие (antecedent) и следствие (consequent), записываемых в виде X Y, что чита-

37

ется следующим образом: «Из X следует Y». Таким образом, ассоциативное правило формулируется в виде: «Если условие, то следствие».

Показатели значимости ассоциативных правил

Ассоциативные правила описывают связь между наборами предметов, соот-

ветствующими условию и следствию. Эта связь характеризуется двумя показателя-

ми – поддержкой (support) и достоверностью (confidence).

Обозначим базу данных транзакций как D, а число транзакций в этой базе как

N. Каждая транзакция Di представляет собой некоторый набор предметов. Зададим,

что S – поддержка, C – достоверность.

Поддержка ассоциативного правила – это число транзакций, которые содер-

жат как условие, так и следствие. Например, для ассоциации A B можно записать:

S=.

Достоверность ассоциативного правила A → B представляет собой меру точ-

ности правила и определяется как отношение количества транзакций, содержащих и условие, и следствие, к количеству транзакций, содержащих только условие:

C= .

Если поддержка и достоверность достаточно высоки, можно с большой веро-

ятностью утверждать, что любая будущая транзакция, которая включает условие,

будет также содержать и следствие.

Лифт – это отношение частоты появления условия в транзакциях, которые также содержат и следствие, к частоте появления следствия в целом. Значения лиф-

та большие, чем единица, показывают, что условие чаще появляется в транзакциях,

содержащих следствие, чем в остальных. Лифт является обобщенной мерой связи двух предметных наборов: при значениях лифта> 1 связь положительная, при 1 она отсутствует, а при значениях <1 – отрицательная.

Современные базы данных имеют очень большие размеры, достигающие гига-

и терабайтов, и тенденцию к дальнейшему увеличению. И поэтому, для нахождения

38

ассоциативных правил требуются эффективные масштабируемые алгоритмы, позво-

ляющие решить задачу за приемлемое время.

Один из первых алгоритмов, эффективно решающих подобный класс задач, –

это алгоритм Aрriori. Кроме этого алгоритма в последнее время был разработан ряд других алгоритмов: DHP, Partition, DIC и другие.

Алгоритм Aрriori.

На первом шаге этого алгоритма этого в необходимо найти часто встречаю-

щиеся наборы элементов, а затем, на втором, извлечь из них правила. Количество элементов в наборе будем называть размером набора, а набор, состоящий из k эле-

ментов, – k-элементным набором.

Выявление часто встречающихся наборов элементов – операция, требующая много вычислительных ресурсов и, соответственно, времени. Примитивный подход к решению данной задачи – простой перебор всех возможных наборов элементов.

Это потребует O(2|I|) операций, где |I| – количество элементов. Apriori использует одно из свойств поддержки, гласящее: поддержка любого набора элементов не мо-

жет превышать минимальной поддержки любого из его подмножеств. Например,

поддержка 3-элементного набора {Хлеб, Масло, Молоко} будет всегда меньше или равна поддержке 2-элементных наборов {Хлеб, Масло}, {Хлеб, Молоко}, {Масло,

Молоко}. Дело в том, что любая транзакция, содержащая {Хлеб, Масло, Молоко},

также должна содержать {Хлеб, Масло}, {Хлеб, Молоко}, {Масло, Молоко}, при-

чем обратное не верно.

Это свойство носит название анти-монотонности и служит для снижения раз-

мерности пространства поиска. Не имей мы в наличии такого свойства, нахождение многоэлементных наборов было бы практически невыполнимой задачей в связи с экспоненциальным ростом вычислений.

Свойству анти-монотонности можно дать и другую формулировку: с ростом размера набора элементов поддержка уменьшается, либо остается такой же. Из всего вышесказанного следует, что любой k-элементный набор будет часто встречающим-

39

ся тогда и только тогда, когда все его (k-1)-элементные подмножества будут часто встречающимися.

После того как найдены все часто встречающиеся наборы элементов, можно приступить непосредственно к генерации правил.

Алгоритмы поиска ассоциативных правил предназначены для нахождения всех правил X Y, причем поддержка и достоверность этих правил должны быть вы-

ше некоторых наперед определенных порогов, называемых соответственно мини-

мальной поддержкой (minsupport) и минимальной достоверностью (minconfidence).

Все множество ассоциативных правил можно разделить на три вида:

Полезные правила – содержат действительную информацию, которая ра-

нее была неизвестна, но имеет логичное объяснение. Такие правила могут быть ис-

пользованы для принятия решений, приносящих выгоду.

Тривиальные правила – содержат действительную и легко объяснимую информацию, которая уже известна. Такие правила, хотя и объяснимы, но не могут принести какой-либо пользы, т.к. отражают или известные законы в исследуемой области, или результаты прошлой деятельности. При анализе рыночных корзин в правилах с самой высокой поддержкой и достоверностью окажутся товары-лидеры продаж. Практическая ценность таких правил крайне низка.

Непонятные правила – содержат информацию, которая не может быть объяснена. Такие правила могут быть получены или на основе аномальных значе-

ний, или глубоко скрытых знаний. Напрямую такие правила нельзя использовать для принятия решений, т.к. их необъяснимость может привести к непредсказуемым результатам. Для лучшего понимания требуется дополнительный анализ.

Варьируя верхним и нижним пределами поддержки и достоверности, можно избавиться от очевидных и неинтересных закономерностей. Как следствие, правила,

генерируемые алгоритмом, принимают приближенный к реальности вид. Понятия

«верхний» и «нижний» предел очень сильно зависят от предметной области, поэто-

му не существует четкого алгоритма их выбора. Но есть ряд общих рекомендаций.

40

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]