Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

8860

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
1.97 Mб
Скачать

Рис. 9. Выбор способа отображения данных в виде куба На 3 и 4 шаге «Мастера настройки отображения» нужно указать системе,

какие измерения и факты включать в куб (рис. 10, 11).

Рис. 10. Настройка назначений полей куба

31

Рис. 11. Настройка размещений полей куба На последнем шаге нужно выбрать, какие факты нужно отображать в ку-

бе на пересечении измерений и варианты агрегации их значений (рис. 12).

Рис. 12. Настройка отображения фактов Для отображения фактов предусмотрено 8 способов объединения (агреги-

рования):

Сумма – вычисляется сумма объединяемых фактов;

Минимум – среди всех объединяемых фактов в таблице отображается только минимальный;

32

Максимум – среди всех объединяемых фактов в таблице отображается только максимальный;

Среднее – вычисляется среднее значение объединяемых фактов;

Количество – в кубе будет отображаться количество объединенных фак-

тов;

Стандартное отклонение;

Сумма квадратов;

Количество пропусков;

Кроме того, всегда присутствует факт Количество, который рассчитывает число записей, соответствующих совокупности измерений.

Изменять расположение измерений можно, используя операцию транспо-

нирования таблицы. В результате транспонирования данные, ранее отображав-

шиеся в строках, отображаются в столбцах, а данные в столбцах преобразуются в строки. Транспонирование во многих случаях позволяет оперативно сделать таблицу более удобной для восприятия.

Куб можно сортировать как по измерениям, так и по фактам. В первом случае на помощь приходит кнопка Сортировать значения измерений (по умолчанию значения измерений следуют в алфавитном порядке), во втором – щелчок мышью по заголовку факта, как это показано ниже.

Еще одной полезной возможностью является фильтрация. Чтобы осуще-

ствить фильтрацию по значениям измерений, нужно нажать кнопку в заго-

ловке измерения. Раскроется список всех уникальных значений данного изме-

рения, в котором при помощи флажков можно включить/отключить нужные

(рис. 13). Если включены не все значения, заголовок измерения в кубе поменяет цвет с синего на красный.

33

Рис. 13. Фильтрация по значениям измерения Чтобы осуществить фильтрацию по значениям фактов необходимо во

всплывающем меню или на панели инструментов нажать кнопку , после чего будет открыто окно селектора (рис. 14).

Рис. 14. Окно селектора Слева отображаются все измерения куба и поле Факты, означающее

фильтрацию по фактам. Справа находятся элементы:

Измерение. Фильтрация подразумевает, что в таблице останется лишь часть значений некоторого измерения. Это поле как раз и задает измере-

ние, значения которого будут отфильтрованы;

Факты и варианты агрегации. В кубе может содержаться один и более фактов. Фильтрация будет происходить по значениям выбранного здесь факта. Для факта выбирается функция агрегации, в соответствии с кото-

рой отбираются записи.

34

Условие – условие отбора записей по значениям выбранного факта.

Условие может принимать различные значения, перечислим некоторые из них.

Первые N. Значения измерения сортируются в порядке убывания факта и выбираются первые N значений измерений. Таким образом, можно,

например, выделить 5 загрязнителей, больше всех превышающих ПДК или 10 наиболее продаваемых товаров, или первые 5 наиболее удачных дней.

Последние N. Значения измерения сортируются в порядке убывания факта и выбираются последние N значений измерений. Например, 10 наименее популярных товаров.

Доля от общего. Значения измерения сортируются в порядке убывания факта. В этой последовательности выбирается столько первых значений измерения, сколько в сумме дадут заданную долю от общей суммы.

Например, можно отобрать клиентов, приносящих 80% прибыли, или то-

вары, дающие 50 % объема продаж.

Диапазон, Больше, Меньше – отбираются записи, для которых значение соответствующего факта лежит в заданном диапазоне, больше или мень-

ше указанного значения.

2.3.3. Раздел 3. Применение современных методов обработки данных

для решения прикладных задач

Информационный подход к анализу данных получил распространение в таких методиках извлечения знаний, как KDD (Knowledge Discovery in Databases, извлечение знаний из баз данных) и Data Mining (интеллектуальный ана-

лиз данных). Сегодня на базе этих методик создается большинство прикладных аналитических решений в бизнесе и многих других областях. KDD включает в себя этапы подготовки данных, выбора информативных признаков, очистки,

построения моделей, постобработки и интерпретации полученных результатов.

35

Ядром или шагом процесса KDD являются методы Data Mining, позволяющие обнаруживать закономерности и знания.

Knowledge Discovery in Databases – процесс получения из данных знаний в виде зависимостей, правил, моделей, обычно состоящий из таких этапов, как выборка данных, их очистка и трансформация, моделирование и интерпретация полученных результатов.

Data Mining (DM) – обнаружение в «сырых» данных ранее неизвестных,

нетривиальных, практически полезных и доступных интерпретации знаний, не-

обходимых для принятия решений в различных сферах человеческой деятель-

ности. К базовым методам интеллектуального анализа данных прежде всего от-

носят нейронные сети, деревья решений, логистическую регрессию, ассоциа-

тивные правила.

Выделяют пять основных типов задач, решаемых методами Data Mining:

1.Классификация – это установление зависимости дискретной выходной переменной от входных переменных.

2.Регрессия – это установление зависимости непрерывной выходной пере-

менной от входных переменных.

3.Кластеризация – это группировка объектов (наблюдений, событий) на основе данных, описывающих свойства объектов. Объекты внутри кла-

стера должны быть похожими друг на друга и отличаться от других, ко-

торые вошли в другие кластеры.

4.Ассоциация – выявление закономерностей между связанными события-

ми. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциатив-

ными. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее называют анализом рыночной корзины (market basket analysis). Если же нас интересует последовательность происходящих событий, то можно го-

ворить о последовательных шаблонах – установлении закономерностей

36

между связанными во времени событиями. Примером такой закономер-

ности служит правило, указывающее, что из события X спустя время t по-

следует событие Y.

5. Прогнозирование – определение некоторой неизвестной величины по набору связанных с ней значений. Выполняется с помощью таких задач

Data Mining, как регрессия, классификация и кластеризация.

Прогнозирование – одна из самых востребованных задач анализа данных.

Зная, пусть даже с определенной погрешностью, характер развития событий в будущем, можно принимать более обоснованные управленческие решения, пла-

нировать деятельность, разрабатывать соответствующие комплексы мероприя-

тий, эффективно распределять ресурсы и т.д.

Существует множество методов, позволяющих сделать прогноз. Среди статистических методов достаточно эффективными считаются методы регрес-

сионного анализа. Их суть заключается в определении кривой, наиболее точно описывающей связь между двумя параметрами на основании существующих статистических данных. Развитие методов прогнозирования непосредственно связано с развитием информационных технологий, в частности, с ростом объе-

мов хранимых данных и усложнением методов и алгоритмов прогнозирования,

реализованных в инструментах интеллектуального анализа данных – Data Mining.

Ввиду того, что Data Mining развивается на стыке таких дисциплин, как математика, статистика, теория информации, Анализ данных, теория баз дан-

ных, программирование, параллельные вычисления, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе подходов, применяемых в этих дисциплинах.

Аспекты проблемы анализа и необходимые для их разрешения функции нашли выражение в соответствующих программных продуктах. Соответствен-

но средства автоматизации анализа представлены в различных видах. Имеются комплексные информационно-аналитические системы, выполняющие в той или

37

иной степени функции в соответствии с рассмотренными аспектами. Представ-

лены на рынке программных продуктов и целевые программные системы, вы-

полняющие в увеличенном объеме, расширенном составе и повышенной слож-

ности какие-либо функции, например, оперативного или интеллектуального анализа: SAP Business Objects (разработчик – компания SAP AG), Oracle OLAP (разработчик – Oracle Corporation), ПРОГНОЗ (разработчик – компания «Про-

гноз»), Deductor (разработчик – компания BaseGroup Labs), SPSS, STATISTIKA Data Miner, PolyAnalyst и др.

2.4 Контрольные вопросы

Контрольные вопросы к разделу 1.

1.Предмет, метод и задачи статистичесчкого анализа данных.

2.Формы, виды и способы статистического наблюдения.

3.Статистическая обработка данных (сводка группировка).

4.Статистические ряды.

5.Графическое представление статистических данных.

6.Степенные и структурные средние.

7.Что характеризует мода и медиана.

8.Показатели вариации.

9.Свойства нормального распределения.

10.Что такое функциональная и корреляционная связь?

11.Критерии проверки гипотезы о форме распределения.

12.Показатели корреляции для количественных признаков.

13.Показатели корреляции для качественных признаков.

14.Парная регрессия на основе метода наименьших квадратов.

Контрольные вопросы к разделу 2.

1.Как вы понимаете термин «качество данных»?

2.Почему оценке качества данных уделяют большое внимание на всех эта-

пах подготовки данных к анализу?

38

3.Каковы основные цели оценки качества данных?

4.Какие выводы о качестве данных могут быть сделаны по результатам его оценки?

5.Какие аспекты качества данных можно оценить с помощью профайлинга?

6.Какие проблемы в данных можно выявить с помощью графиков и диа-

грамм?

7.Зачем необходимо выполнять очистку данных?

8.Что включает в себя трансформация данных?

9.В чем отличие трансформации данных от предобработки и очистки?

10.Что понимается в данных под пропущенным значением?

11.Почему пропущенные значения в анализируемых данных необходимо восстанавливать?

12.Анализ структурированной информации с помощью статистических и математических методов: отбор признаков, стратификация, кластериза-

ция, ассоциации, визуализация, регрессия, прогнозирование временных рядов

13.Каковы цели и задачи визуализации данных в аналитических технологи-

ях?

14.Чем отличаются средства визуализации общего назначения от специали-

зированных?

15.Какие средства визуализации данных относят к визуализаторам общего назначения и почему?

16.По какому принципу строится гистограмма, и какую информацию о по-

ведении исследуемой величины из нее можно извлечь?

17.Для каких целей служит визуализатор Статистика?

18.Почему визуализация многомерных данных может оказаться проблема-

тичной c точки зрения пользователя?

19.В чем заключается OLAP-анализ и каковы его цели?

20.Какова структура OLAP-куба?

39

21.Какие манипуляции с измерениями можно производить, чтобы сделать представление куба более информативным?

22.В чем заключаются операции транспонирования и детализации, каковы их цели?

23.Что такое кросс-диаграмма, и для каких целей она используется?

Контрольные вопросы к разделу 3.

1.Укажите особенности бизнес-данных, накопленных в компаниях.

2.Методы оценки эффективности и точности классификационных и регрес-

сионных моделей.

3.Дайте определения KDD и Data Mining.

4.Дайте определения задачам Data Mining (классификация, регрессия, кла-

стеризация, ассоциативные правила).

5.Методика АBC-XYZ-анализа продаж. Использование OLAP-анализа и работа с кубом.

6.Прогнозирование в торговле и логистике. Построение аналитического решения для прогнозирования сбыта продукции.

7.Типовые проблемы, с которыми может столкнуться аналитик, возможные варианты их решения.

8.Ассоциативные правила для стимулирования розничных продаж. Выяв-

ление ассоциаций. Интерпретация ассоциативных правил. Рекомендации

по их использованию.

9.Основные этапы решения бизнес-задачи повышения лояльности клиен-

тов.

10.Построение цепочки принятия решений о выдаче кредита, используя возможности АП.Deductor.

40

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]