8860
.pdfРис. 9. Выбор способа отображения данных в виде куба На 3 и 4 шаге «Мастера настройки отображения» нужно указать системе,
какие измерения и факты включать в куб (рис. 10, 11).
Рис. 10. Настройка назначений полей куба
31
Рис. 11. Настройка размещений полей куба На последнем шаге нужно выбрать, какие факты нужно отображать в ку-
бе на пересечении измерений и варианты агрегации их значений (рис. 12).
Рис. 12. Настройка отображения фактов Для отображения фактов предусмотрено 8 способов объединения (агреги-
рования):
Сумма – вычисляется сумма объединяемых фактов;
Минимум – среди всех объединяемых фактов в таблице отображается только минимальный;
32
Максимум – среди всех объединяемых фактов в таблице отображается только максимальный;
Среднее – вычисляется среднее значение объединяемых фактов;
Количество – в кубе будет отображаться количество объединенных фак-
тов;
Стандартное отклонение;
Сумма квадратов;
Количество пропусков;
Кроме того, всегда присутствует факт Количество, который рассчитывает число записей, соответствующих совокупности измерений.
Изменять расположение измерений можно, используя операцию транспо-
нирования таблицы. В результате транспонирования данные, ранее отображав-
шиеся в строках, отображаются в столбцах, а данные в столбцах преобразуются в строки. Транспонирование во многих случаях позволяет оперативно сделать таблицу более удобной для восприятия.
Куб можно сортировать как по измерениям, так и по фактам. В первом случае на помощь приходит кнопка Сортировать значения измерений (по умолчанию значения измерений следуют в алфавитном порядке), во втором – щелчок мышью по заголовку факта, как это показано ниже.
Еще одной полезной возможностью является фильтрация. Чтобы осуще-
ствить фильтрацию по значениям измерений, нужно нажать кнопку в заго-
ловке измерения. Раскроется список всех уникальных значений данного изме-
рения, в котором при помощи флажков можно включить/отключить нужные
(рис. 13). Если включены не все значения, заголовок измерения в кубе поменяет цвет с синего на красный.
33
Рис. 13. Фильтрация по значениям измерения Чтобы осуществить фильтрацию по значениям фактов необходимо во
всплывающем меню или на панели инструментов нажать кнопку , после чего будет открыто окно селектора (рис. 14).
Рис. 14. Окно селектора Слева отображаются все измерения куба и поле Факты, означающее
фильтрацию по фактам. Справа находятся элементы:
Измерение. Фильтрация подразумевает, что в таблице останется лишь часть значений некоторого измерения. Это поле как раз и задает измере-
ние, значения которого будут отфильтрованы;
Факты и варианты агрегации. В кубе может содержаться один и более фактов. Фильтрация будет происходить по значениям выбранного здесь факта. Для факта выбирается функция агрегации, в соответствии с кото-
рой отбираются записи.
34
Условие – условие отбора записей по значениям выбранного факта.
Условие может принимать различные значения, перечислим некоторые из них.
Первые N. Значения измерения сортируются в порядке убывания факта и выбираются первые N значений измерений. Таким образом, можно,
например, выделить 5 загрязнителей, больше всех превышающих ПДК или 10 наиболее продаваемых товаров, или первые 5 наиболее удачных дней.
Последние N. Значения измерения сортируются в порядке убывания факта и выбираются последние N значений измерений. Например, 10 наименее популярных товаров.
Доля от общего. Значения измерения сортируются в порядке убывания факта. В этой последовательности выбирается столько первых значений измерения, сколько в сумме дадут заданную долю от общей суммы.
Например, можно отобрать клиентов, приносящих 80% прибыли, или то-
вары, дающие 50 % объема продаж.
Диапазон, Больше, Меньше – отбираются записи, для которых значение соответствующего факта лежит в заданном диапазоне, больше или мень-
ше указанного значения.
2.3.3. Раздел 3. Применение современных методов обработки данных
для решения прикладных задач
Информационный подход к анализу данных получил распространение в таких методиках извлечения знаний, как KDD (Knowledge Discovery in Databases, извлечение знаний из баз данных) и Data Mining (интеллектуальный ана-
лиз данных). Сегодня на базе этих методик создается большинство прикладных аналитических решений в бизнесе и многих других областях. KDD включает в себя этапы подготовки данных, выбора информативных признаков, очистки,
построения моделей, постобработки и интерпретации полученных результатов.
35
Ядром или шагом процесса KDD являются методы Data Mining, позволяющие обнаруживать закономерности и знания.
Knowledge Discovery in Databases – процесс получения из данных знаний в виде зависимостей, правил, моделей, обычно состоящий из таких этапов, как выборка данных, их очистка и трансформация, моделирование и интерпретация полученных результатов.
Data Mining (DM) – обнаружение в «сырых» данных ранее неизвестных,
нетривиальных, практически полезных и доступных интерпретации знаний, не-
обходимых для принятия решений в различных сферах человеческой деятель-
ности. К базовым методам интеллектуального анализа данных прежде всего от-
носят нейронные сети, деревья решений, логистическую регрессию, ассоциа-
тивные правила.
Выделяют пять основных типов задач, решаемых методами Data Mining:
1.Классификация – это установление зависимости дискретной выходной переменной от входных переменных.
2.Регрессия – это установление зависимости непрерывной выходной пере-
менной от входных переменных.
3.Кластеризация – это группировка объектов (наблюдений, событий) на основе данных, описывающих свойства объектов. Объекты внутри кла-
стера должны быть похожими друг на друга и отличаться от других, ко-
торые вошли в другие кластеры.
4.Ассоциация – выявление закономерностей между связанными события-
ми. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциатив-
ными. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее называют анализом рыночной корзины (market basket analysis). Если же нас интересует последовательность происходящих событий, то можно го-
ворить о последовательных шаблонах – установлении закономерностей
36
между связанными во времени событиями. Примером такой закономер-
ности служит правило, указывающее, что из события X спустя время t по-
следует событие Y.
5. Прогнозирование – определение некоторой неизвестной величины по набору связанных с ней значений. Выполняется с помощью таких задач
Data Mining, как регрессия, классификация и кластеризация.
Прогнозирование – одна из самых востребованных задач анализа данных.
Зная, пусть даже с определенной погрешностью, характер развития событий в будущем, можно принимать более обоснованные управленческие решения, пла-
нировать деятельность, разрабатывать соответствующие комплексы мероприя-
тий, эффективно распределять ресурсы и т.д.
Существует множество методов, позволяющих сделать прогноз. Среди статистических методов достаточно эффективными считаются методы регрес-
сионного анализа. Их суть заключается в определении кривой, наиболее точно описывающей связь между двумя параметрами на основании существующих статистических данных. Развитие методов прогнозирования непосредственно связано с развитием информационных технологий, в частности, с ростом объе-
мов хранимых данных и усложнением методов и алгоритмов прогнозирования,
реализованных в инструментах интеллектуального анализа данных – Data Mining.
Ввиду того, что Data Mining развивается на стыке таких дисциплин, как математика, статистика, теория информации, Анализ данных, теория баз дан-
ных, программирование, параллельные вычисления, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе подходов, применяемых в этих дисциплинах.
Аспекты проблемы анализа и необходимые для их разрешения функции нашли выражение в соответствующих программных продуктах. Соответствен-
но средства автоматизации анализа представлены в различных видах. Имеются комплексные информационно-аналитические системы, выполняющие в той или
37
иной степени функции в соответствии с рассмотренными аспектами. Представ-
лены на рынке программных продуктов и целевые программные системы, вы-
полняющие в увеличенном объеме, расширенном составе и повышенной слож-
ности какие-либо функции, например, оперативного или интеллектуального анализа: SAP Business Objects (разработчик – компания SAP AG), Oracle OLAP (разработчик – Oracle Corporation), ПРОГНОЗ (разработчик – компания «Про-
гноз»), Deductor (разработчик – компания BaseGroup Labs), SPSS, STATISTIKA Data Miner, PolyAnalyst и др.
2.4 Контрольные вопросы
Контрольные вопросы к разделу 1.
1.Предмет, метод и задачи статистичесчкого анализа данных.
2.Формы, виды и способы статистического наблюдения.
3.Статистическая обработка данных (сводка группировка).
4.Статистические ряды.
5.Графическое представление статистических данных.
6.Степенные и структурные средние.
7.Что характеризует мода и медиана.
8.Показатели вариации.
9.Свойства нормального распределения.
10.Что такое функциональная и корреляционная связь?
11.Критерии проверки гипотезы о форме распределения.
12.Показатели корреляции для количественных признаков.
13.Показатели корреляции для качественных признаков.
14.Парная регрессия на основе метода наименьших квадратов.
Контрольные вопросы к разделу 2.
1.Как вы понимаете термин «качество данных»?
2.Почему оценке качества данных уделяют большое внимание на всех эта-
пах подготовки данных к анализу?
38
3.Каковы основные цели оценки качества данных?
4.Какие выводы о качестве данных могут быть сделаны по результатам его оценки?
5.Какие аспекты качества данных можно оценить с помощью профайлинга?
6.Какие проблемы в данных можно выявить с помощью графиков и диа-
грамм?
7.Зачем необходимо выполнять очистку данных?
8.Что включает в себя трансформация данных?
9.В чем отличие трансформации данных от предобработки и очистки?
10.Что понимается в данных под пропущенным значением?
11.Почему пропущенные значения в анализируемых данных необходимо восстанавливать?
12.Анализ структурированной информации с помощью статистических и математических методов: отбор признаков, стратификация, кластериза-
ция, ассоциации, визуализация, регрессия, прогнозирование временных рядов
13.Каковы цели и задачи визуализации данных в аналитических технологи-
ях?
14.Чем отличаются средства визуализации общего назначения от специали-
зированных?
15.Какие средства визуализации данных относят к визуализаторам общего назначения и почему?
16.По какому принципу строится гистограмма, и какую информацию о по-
ведении исследуемой величины из нее можно извлечь?
17.Для каких целей служит визуализатор Статистика?
18.Почему визуализация многомерных данных может оказаться проблема-
тичной c точки зрения пользователя?
19.В чем заключается OLAP-анализ и каковы его цели?
20.Какова структура OLAP-куба?
39
21.Какие манипуляции с измерениями можно производить, чтобы сделать представление куба более информативным?
22.В чем заключаются операции транспонирования и детализации, каковы их цели?
23.Что такое кросс-диаграмма, и для каких целей она используется?
Контрольные вопросы к разделу 3.
1.Укажите особенности бизнес-данных, накопленных в компаниях.
2.Методы оценки эффективности и точности классификационных и регрес-
сионных моделей.
3.Дайте определения KDD и Data Mining.
4.Дайте определения задачам Data Mining (классификация, регрессия, кла-
стеризация, ассоциативные правила).
5.Методика АBC-XYZ-анализа продаж. Использование OLAP-анализа и работа с кубом.
6.Прогнозирование в торговле и логистике. Построение аналитического решения для прогнозирования сбыта продукции.
7.Типовые проблемы, с которыми может столкнуться аналитик, возможные варианты их решения.
8.Ассоциативные правила для стимулирования розничных продаж. Выяв-
ление ассоциаций. Интерпретация ассоциативных правил. Рекомендации
по их использованию.
9.Основные этапы решения бизнес-задачи повышения лояльности клиен-
тов.
10.Построение цепочки принятия решений о выдаче кредита, используя возможности АП.Deductor.
40