Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
40_алгоритмов_Python.pdf
Скачиваний:
9
Добавлен:
07.04.2024
Размер:
13.02 Mб
Скачать

Поиск ассоциативных правил

171

Теперь выведем долю объясненной дисперсии и попытаемся оценить результа­ ты использования PCA (рис. 6.16).

Рис. 6.16

Доля объясненной дисперсии указывает на следующее:

zz Если мы заменим четыре исходных признака на PC1, то сможем объяснить около 92,3 % дисперсии исходных переменных. Не объяснив 100 % дисперсии‚ мы вводим некоторые приближения.

zz Если мы заменим четыре исходных признака на PC1 и PC2, то объясним дополнительные 5,3 % дисперсии исходных переменных.

zz Если мы заменим четыре исходных признака на PC1, PC2 и PC3, мы объ­ ясним еще 0,017 % дисперсии исходных переменных.

zz Если мы заменим четыре исходных признака четырьмя основными компо­ нентами, то мы объясним 100 % дисперсии исходных переменных (92.4 + 0.053 + 0.017 + 0.005). Однако такая замена бессмысленна, поскольку этим мы не снизим размерность и ничего не добьемся.

Ограничения PCA

Ниже приведены ограничения PCA:

zz PCA может использоваться только для непрерывных переменных и не по­ дойдет для категориальных.

zz При агрегировании PCA аппроксимирует переменные компонентов; это снижает размерность за счет точности. Этот компромисс следует тщательно изучить перед использованием PCA.

ПОИСК АССОЦИАТИВНЫХ ПРАВИЛ

Закономерности в наборе данных — это клад, который необходимо найти, ис­ следовать и извлечь из него информацию. Для этого существует ключевой набор алгоритмов. Один из наиболее популярных алгоритмов в этом классе — поиск

172

Глава 6. Алгоритмы машинного обучения без учителя

ассоциативных правил (association rules mining). Он предоставляет нам следу­ ющие возможности:

zz Измерение частоты закономерности.

zz Установление причинно-следственных связей между закономерностями.

zz Количественная оценка полезности закономерностей (сравнение их точности со случайным угадыванием).

Примеры использования

Поиск ассоциативных правил используется, когда мы пытаемся исследовать причинно-следственные связи между различными переменными датасета. Ниже приведены примеры вопросов, на которые он способен дать ответ:

zz Какие значения влажности, облачности и температуры могут привести к за­ втрашнему дождю?

zz Какой вид страхового возмещения может свидетельствовать о мошенниче­ стве?

zz Какие комбинации лекарств могут привести к осложнениям для пациентов?

Анализ рыночной корзины

Механизмы рекомендаций будут подробно исследованы в главе 10. Анализ рыночной корзины (market basket analysis) — это наиболее простой способ вы­ работки рекомендаций. Для анализа корзины нужна только информация о том, какие товары были куплены вместе. Никакая информация о покупателе или о том, понравился ли ему конкретный товар, не требуется. Обратите внимание, что получить эти данные гораздо проще, чем данные о рейтингах.

Например, такого рода данные генерируются, когда мы совершаем покупки в супермаркете, и для их получения не нужно никакой специальной методики. Такие данные, собранные в течение определенного периода времени, называют­ ся транзакционными данными. Анализ рыночной корзины осуществляется путем применения поиска ассоциативных правил к транзакционным данным об одновременных покупках в круглосуточных магазинах, супермаркетах и се­ тях быстрого питания. Он измеряет условную вероятность совместной покупки набора товаров, что помогает ответить на следующие вопросы:

zz Каково оптимальное размещение товаров на полках? zz Как стоит располагать товары в рекламном каталоге?

Поиск ассоциативных правил

173

zzЧто следует порекомендовать потребителю, исходя из его покупательского поведения?

Поскольку анализ рыночной корзины позволяет оценить, как товары связаны друг с другом, он часто используется для розничной торговли — в супермарке­ тах, круглосуточных магазинах, аптеках и сетях быстрого питания. Преимуще­ ство этого анализа заключается в том, что результаты почти не требуют поясне­ ний, а это значит, что они понятны бизнес-пользователям.

Давайте взглянем на типичный супермаркет. Все уникальные товары, доступные в магазине, могут быть представлены набором, π = {item1, item2, ..., itemm}. Итак, если в этом супермаркете продается 500 различных товаров, то это πбудет набор размером в 500 элементов.

Люди покупают товары в магазине. Каждый раз, когда происходит оплата, товар добавляется к списку предметов в определенной транзакции, называемому предметным набором (itemset). За определенный период времени транзакции группируются в набор, представленный , где = {t1, t2, ..., tn}.

Приведем пример простого набора транзакционных данных, состоящего всего из четырех транзакций (табл. 6.3).

Таблица 6.3

t1

Wickets, pads

 

 

t2

Bat, wickets, pads, helmet

 

 

t3

Helmet, ball

 

 

t4

Bat, pads, helmet

 

 

Разберем этот пример более подробно:

π = {bat, wickets, pads, helmet, ball}1 — набор всех уникальных предметов, до­ ступных в магазине.

Рассмотрим одну из транзакций в : t3. Обратите внимание, что предметы, купленные в t3, можно представить как itemsett3 = {helmet, ball}, что указывает на то, что клиент приобрел оба предмета. Поскольку в этом предметном наборе два элемента, размер itemsett3 считается равным двум.

1Bat — бита, wickets — ворота, pads — наколенники, helmet — шлем, ball — мяч. — Примеч. пер.

174

Глава 6. Алгоритмы машинного обучения без учителя

Ассоциативные правила

Ассоциативное правило математически описывает элементы взаимосвязи, уча­ ствующие в различных транзакциях. В правиле исследуется взаимосвязь между двумя предметными наборами в виде X Y, где X π, Y π. Кроме того, X иY являются непересекающимися предметными наборами; это означает, что

X Y = .

Ассоциативное правило может быть описано так:

{helmet,balls} {bike}.

Здесь {helmet,ball} — это X, а {bike} Y.

Типы правил

Запуск алгоритмов ассоциативного анализа обычно приводит к возникновению большого количества правил из набора данных транзакций. Большинство из них бесполезно. Чтобы выбрать правила, которые могут дать нам полезную информацию, мы можем разбить их на три типа:

zz тривиальные (trivial);

zz необъяснимые (inexplicable); zzполезные (actionable).

Давайте подробно рассмотрим каждый из типов.

Тривиальные правила

Среди большого количества правил многие оказываются бесполезными, по­ скольку они описывают общеизвестные факты о бизнесе. Такие правила назы­ ваются тривиальными (trivial rules). Даже если достоверность таких правил высока, они все равно не могут быть использованы для принятия решений, основанных на данных. Мы можем с чистой совестью игнорировать все триви­ альные правила.

Ниже приведены примеры тривиальных правил:

zz любой, кто прыгнет с высотного здания, скорее всего, погибнет; zz усердная учеба приводит к лучшим результатам на экзаменах;

zz продажи домашних нагревателей увеличиваются по мере понижения темпе­ ратуры;

Поиск ассоциативных правил

175

zz вождение автомобиля с превышением скорости на шоссе приводит к более высокой вероятности аварии.

Необъяснимые правила

Среди правил, которые генерируются после запуска алгоритма ассоциативных правил, наиболее сложными в использовании являются те, которые не имеют очевидного объяснения. Обратите внимание, что правило считается полезным, только если оно помогает нам обнаружить и понять новую закономерность с четкой причинно-следственной связью. Если это не так и мы не можем объ­ яснить, почему событие X привело к событию Y, то это необъяснимое правило (inexplicable rule). Оно представляет собой математическую формулу, которая отражает бессмысленную связь между двумя не зависящими друг от друга со­ бытиями.

Примеры необъяснимых правил:

zz люди, которые носят красные рубашки, как правило, лучше сдают экзамены; zz зеленые велосипеды воруют с большей частотой;

zz люди, которые покупают соленые огурцы, в итоге покупают также и под­ гузники.

Полезные правила

Полезные правила (actionable rule) — это и есть клад, за которым мы охотимся. Они понятны бизнесу и ведут к новым идеям. Это отличный инструмент для выявления причин тех или иных явлений в бизнесе. Например, полезные пра­ вила, касающиеся покупательских привычек, помогут выбрать лучшее распо­ ложение товара в магазине. Они подскажут, какие товары стоит разместить на одной полке, чтобы увеличить шансы на продажу, поскольку их обычно поку­ пают вместе.

Ниже приведены примеры полезных правил и соответствующих решений:

zz Правило 1. Показ рекламы в аккаунтах пользователей в социальных сетях повышает вероятность продаж.

Полезное применение. Внедрение альтернативных способов рекламы про­ дукта.

zz Правило 2. Создание большего количества позиций в прайс-листе увеличи­ вает вероятность продаж.

Полезное применение. Один товар может участвовать в распродаже, в то время как цена на другой товар повышается.