Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9068

.pdf
Скачиваний:
1
Добавлен:
25.11.2023
Размер:
2.21 Mб
Скачать

1. Удалить противоречия, используя обработчик Фильтрация с условием «Противо-

речие=ложь».

2. Отфильтровать все дубликаты и сгруппировать их по измерениям Дубликат и Группа дубликатов, остальные поля будут фактами с функцией агрегации первый. В

результате мы получим по 1 записи для каждой группы дубликатов.

3. К отфильтрованному набору данных, не содержащему дубликатов при помощи объединения (обработчик Слияние) добавить набор данных, полученный на шаге 2.

Фрагмент сценария, осуществляющего эти действия, приведен на рис. 24.

Рис. 24. Устранение противоречий и дубликатов

Шаг 3 – восстановление пропусков

Пропуски содержат 2 поля, причем доля пропусков составляет 13,7%. В этих условиях предпочтительнее выбрать их восстановление.

Для автоматизации этого процесса предназначен специальный многофункци-

ональный обработчик Парциальная обработка. Он также находится в группе узлов

Очистка данных мастера обработки.

Парциальная обработка служит для восстановления пропущенных данных,

редактирования аномальных значений и сглаживания данных.

61

Рис. 25. Задание вариантов обработки пропусков Параметры восстановления задаются на первом шаге Мастера. Для каждого

поля на выбор предлагается три варианта обработки пропусков (рис. 25). В нашем примере все поля с пропусками относятся к типу неупорядоченных. Остальные два шага Мастера пропустим, т.к. они относятся к очистке и сглаживанию временных рядов.

После выполнения обработчика в таблице можно убедиться, что значения восста-

новлены (рис. 26).

Рис. 26. Восстановленные значения

62

Алгоритм подставил наиболее вероятное значение (строится плотность рас-

пределения вероятностей, и отсутствующие данные заменяются значением, соответ-

ствующим ее максимуму).

Шаг 4 – выявление аномалий

Анализ визуализатора Статистика (минимальные и максимальные значения полей) позволил сделать вывод об отсутствии аномальных выбросов в данных файла

сотовые операторы.txt.

Перед выявлением аномалий полезно также изучить распределение данных

(гистограмму), и те поля, в которых оно нормальное, проанализировать на выбросы методом «сигм»: любые значения ряда, отличающиеся от среднего больше чем на три среднеквадратических отклонения, являются потенциальными аномалиями.

Потенциальные аномалии можно обнаружить и на графике, для чего исполь-

зуют визуализатор Диаграмма (для аномальных точек используют один цвет,

например, красный цвет, для не аномальных – белый).

Шаг 5 – фильтрация

Фильтрация в очистке и предобработке используется для получения очищен-

ной выборки после принятия решений о судьбе «грязных» записей и для вспомога-

тельных действий.

В рассматриваемом примере фильтрация использовалась для исключения дуб-

ликатов и противоречий (см. сценарий на рис. 2.17).

Шаг 6 – совокупная оценка качества

Всего записей: до очистки – 607, после очистки – 557, удалено 8,24%.

Выводы: в целом качество данных можно признать очень хорошим; проблемы, воз-

никшие с пропущенными и аномальными данными, были решены стандартными ме-

тодами.

Задания для раздела 2.

Задание 1. Требуется разработать систему аналитической отчетности в Deductor на основе созданного ранее хранилища данных ВОДА. Все требуемые отчеты должны быть вынесены на Панель отчетов.

63

1.Постройте отчет–диаграмму «Динамика показателя содержания ХПК (хи-

мическое потребление кислорода) в реке Ока», используя все имеющиеся данные.

Рис. 27. Временной ряд загрязнителя ХПК

2.Постройте отчет–гистограмму распределения показателя «ХПК» в реке Бе-

ленькая за последние 5 месяцев от имеющихся данных. Назовите отчет «Ги-

стограмма показателя ХПК»

Рис. 28. Гистограмма показателя ХПК

3.Постройте куб (и кросс-диаграмму) по двум измерениям Створ и Название загрязнителя, в ячейках которого указаны средние значения показателей,

имеющихся в ХД ВОДА. Определите, у какого загрязнителя наибольшее среднее значение. Назовите отчет «Средние значения загрязнителей»

64

Рис. 29. Отчет «Средние значения загрязнителей»

4.Из ХД ВОДА выгружена информация по экологическим показателям объек-

тов Нижегородской области (фрагмент данных в таблице).

Используя визуализатор OLAP-куб, требуется получить отчет в виде приведенной ниже таблицы (указан фрагмент).

Таблица

Дополнительно: требуется сделать преобразование (трансформацию) дан-

ных так, чтобы на выходе была указанная таблица. Какие обработчики нуж-

но использовать в сценарии для решения этой задачи?

65

5.Построить отчет-диаграмму «Индекс загрязнения воды (ИЗВ)» для всех рас-

сматриваемых водных объектов и сделать вывод, какой объект является са-

мым загрязненным.

Рис. 30. Отчет «ИЗВ»

Указание: Для составления данного отчета должна быть произведена фильтрация по каждому водному объекту и шести загрязнителям, относящимся к конкретному водному объекту. С помощью внешнего левого соединения для каждого водного объекта нужно составить таблицу, содержащую информацию о загрязнителях, их значениях и ПДК (предельно допустимая концентрация). Далее с помощью калькулятора в таблицу добавить поле «Отношение», которое вычисляется путем деления столбца «Значение загрязнителя» на столбец «ПДК». После вычисления данного столбца произвести группировку по измерениям

«Наименование объекта» и «Дата», а в качестве агрегации факта «Отношение» выбрать. Затем с помощью калькулятора в полученную таблицу добавить поле

«ИЗВ», которое вычисляется по формуле (2), и вывести диаграмму на панель отчетов.

 

n

 

/

ПДК

i

ИЗВ

i 1Ci

 

 

 

N

 

 

 

 

 

 

Сi - концентрация компонента;

N – число показателей, используемых для расчета индекса;

ПДКi – установленная величина для соответствующего типа водного объекта.

66

6. Написать сценарий и получить отчет «Отношение к ПДК» (рис. 31).

Отчет представляет собой сводную таблицу, в которой представлено отно-

шение каждого загрязнителя к уровню его ПДК. Данные значения являются относи-

тельными, то есть не имеют единиц измерения, поэтому их можно использовать для корреляционного анализа.

Рис. 31. Отчет «Отношение к ПДК» (фрагмент)

Задание 2. Требуется разработать систему аналитической отчетности в Deductor на основе созданного ранее хранилища данных Регион. Все требуемые отчеты должны быть вынесены на Панель отчетов (рис. 32). При помощи операций транс-

понирование измерений, фильтрация и агрегирование фактов, сформировать отчеты и ответить на вопросы в заданиях.

Используемые обозначения основных социально-экономических показателей:

Показатель промышленность – объем произведенной продукции (работ,

услуг) в действующих ценах соответствующих лет по крупным и средним предприятиям, млн.руб.;

Показатель с/х – продукция сельского хозяйства в хозяйствах всех категорий

(в фактически действовавших ценах), тыс.руб.;

Показатель инвестиции – инвестиции в основной капитал крупных и средних предприятий, тыс.руб.;

Показатель зарплата – среднемесячная заработная плата работающих на крупных и средних предприятиях, руб.;

Показатель безработица – уровень официально зарегистрированной безработицы (в % от экономически активного населения);

Показатель доход – доходы бюджета, млн.руб.;

Показатель расход – расходы бюджета, млн.руб.

67

Рис. 32. Отчеты по данным ХД Регион

1. Сформировать многомерные отчеты и соответствующие им кросс-

диаграммы для показателя промышленность, в которых будут указаны 5

лучших районов по объем произведенной продукции, 5 худших и районы,

дающие 50% от общего объема произведенной продукции в Нижегород-

ском регионе.

Последовательность выполнения задания

1)Подключить ХД Регион, извлечь имеющуюся там информацию и от-

корректировать названия полей, используя обработчик Настройка набора данных.

2)Запустить мастер визуализации и указать способ отображения дан-

ных в виде куба.

3)Произвести настройку назначений полей куба: измерения – дата

(размещаем в строки), код_региона-название (размещаем в колонки),

код региона – информационный, остальные поля – факты (с агрегаци-

ей – сумма).

68

4)В полученной кросс-таблице осуществить фильтрацию, выбрав факт промышленность, измерение код_региона-название и

а) условие «Первые N», значение «5»;

б) условие «Последние N», значение «5»;

в) условие «Доля от общего», значение «50».

2.Сформировать многомерные отчеты и соответствующие им кросс-

диаграммы для показателя с/х, в которых будут указаны 5 лучших районов по уровню с/х, 5 худших.

3.Определить первые 5 районов по инвестициям и 5 последних.

4.Определить районы с самым высоким и самым низким уровнем безработицы.

5.Определить районы с самым высоким и самым низким уровнем зарплаты.

6.Определить 5 самых доходных районов, 5 районов с самым низким уровнем доходов и районы, дающие 80% дохода бюджета всего Нижегородского региона.

7.Определить районы с наибольшим и наименьшим расходом бюджета.

Задание для раздела 3.

Пример построения классифицирующего дерева решений для оценки не-

движимости в аналитической платформе Deductor Studio Academic.

Рассмотрим построение модели классификации, относящей объекты недвижимости на основе их признаков к одному из трех классов «дорогие, средние, дешевые квартиры».

Таблица. Входные атрибуты, влияющие на оценку жилья.

Наименование

Описание

Тип значений

 

 

 

 

 

1

2

3

4

 

 

 

 

 

1

№ п/п

номер по порядку

целый

 

 

 

 

 

2

Адрес

название улицы

строковый

 

 

 

 

 

3

Общая площадь

общая площадь квартиры, кв. м

вещественный

 

 

 

 

 

69

4

Кухня

площадь кухни, кв. м

 

вещественный

 

 

 

 

 

 

 

 

5

Жилая площадь

жилая площадь, кв. м

 

вещественный

 

 

 

 

 

 

 

 

6

Остальная

остальная площадь, кв. м

 

вещественный

площадь

 

 

 

 

 

 

 

 

 

 

материал стен дома:

 

 

 

 

 

кирпич – 4

 

 

7

Стены

 

монолитный – 3

 

целый

 

 

 

 

 

 

 

 

 

 

панельный- 2

 

 

 

 

шлакоблочный – 1

 

 

 

 

 

 

 

 

 

этаж дома:

 

 

8

Этаж

первый/последний - 0

 

целый

 

 

 

 

 

 

 

 

 

 

остальные - 1

 

 

 

 

 

 

 

 

 

наличие балкона:

 

 

 

 

 

лоджия - 2

 

 

9

Балкон

 

простой - 1

 

целый

 

 

 

 

 

 

 

 

 

нет – 0

 

 

 

 

 

 

 

 

 

 

 

 

окончание таблицы 7

1

2

 

3

 

4

 

 

 

 

 

 

 

 

 

 

наличие санузла:

 

 

10

Санузел

 

раздельный - 1

 

целый

 

 

 

 

 

 

 

 

 

 

совмещенный – 0

 

 

 

 

 

 

 

 

 

наличие телефона:

 

 

11

Телефон

 

есть -1

 

целый

 

 

 

 

 

 

 

 

 

 

нет – 0

 

 

 

 

 

 

 

 

 

Оценка состояния помещения:

 

 

 

 

 

нежилое - 0

 

 

 

 

 

без отделки - 1

 

 

12

Состояние

 

удовлетворительное -2

 

целый

 

 

 

 

 

 

 

 

 

хорошее- 3

 

 

 

 

 

отличное – 4

 

 

 

 

 

 

 

 

70

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]