Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
книги хакеры / DAMA_DMBOK_Свод_знаний_по_управлению_данными.pdf
Скачиваний:
18
Добавлен:
19.04.2024
Размер:
13.88 Mб
Скачать

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

4. МЕТОДЫ

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-x cha

 

 

 

 

4.1 Превентивные меры

Лучшая гарантия создания данных высокого качества — не допускать проникновения в орга низацию некачественных данных. Превентивные меры избавляют, как минимум, от риска по вторения известных ошибок. Кроме того, проверять данные после того, как они успели попасть в среду эксплуатации, поздно: качество уже пострадало. Подходы к профилактике появления некачественных данных включают следующее.

Контроль на входе. Создайте правила отбраковки, исключающие ввод или поступление не кондиционных данных в систему.

Подготовка персонала, осуществляющего производство данных. Нужно гарантировать, что сотрудники, работающие с информационными системами, понимают степень значимости данных, поставляемых ими пользователям и другим системам. Внедрите систему стимули рования или аттестационные оценки, учитывающие точность и полноту данных, а не только скорость их ввода.

Определение и обеспечение соблюдения правил. Создайте подобие межсетевого экрана, ко торый содержит сводную таблицу всех бизнес-правил качества данных и проверяет качество данных перед их использованием приложениями — например, центральным хранилищем данных. Такой фильтр данных может, например, автоматически проверять уровень качества данных, обработанных приложением, и, если он окажется ниже установленного значения, на правлять уведомление аналитику данных о возникновении проблемы.

Контроль качества данных из внешних источников. Изучите реализованные у поставщика данных процессы c целью проверки структур данных, используемых определений, а также происхождения и источников данных. Такая практика позволит оценить степень интегрируе мости внешних данных с вашими системами и данными, а также отсечь попадание в вашу организацию данных сомнительного происхождения и/или качества, не говоря уже о данных, использование которых не было санкционировано правообладателем.

Внедрение практики руководства и распоряжения данными. Убедитесь, что роли, обязан ности и полномочия четко определены, и строго следите за соблюдением правил привлечения к работам, принятия решений и распределения ответственности за эффективное управление данными и информационными ресурсами (McGilvray, 2008). Совместно с распорядителями данных проведите полную ревизию процессов и механизмов генерирования, отправки и по

лучения данных.

Формализованный контроль изменений. Необходимо обеспечить обязательное предвари тельное тестирование всех изменений в хранимых данных до их переноса в среду эксплуа тации. Во избежание внесения прямых изменений в обход нормальных рабочих процессов реализуйте все необходимые процедуры проверки.

610

Г Л А В А 13

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

4.2 Корректирующие меры

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-x cha

 

 

 

 

Корректирующие меры предусматриваются на случай возникновения и выявления проблем. Диагностика несоответствий данных критериям качества должна вестись систематически, а вы явленные проблемы искореняться на уровне первопричин с целью минимизации издержек и ри сков, которыми чревато регулярное исправление рецидивов. Решать проблему по месту ее воз никновения — самая лучшая практика управления качеством данных. Обычно она подразуме вает применение таких превентивных мер, которые устранят не просто причины выявленных проблем с качеством данных, но и саму возможность их повторного возникновения.

Общепринятыми являются три способа исправления данных.

Автоматизированное исправление включает стандартизацию на основе правил, нормализацию и собственно исправление значений; при этом исправленные значения рассчитыва ются или генерируются и вносятся в поля данных также автоматически, безо всякого вмеша тельства человека. Пример: программа автоматизированного исправления почтовых адресов, отправляющая выявленные некорректные адреса в модуль стандартизации, который и при водит их в соответствие с нормами, используя правила, алгоритмы синтаксического анали за и стандартизации, а также справочные таблицы. Автоматическое исправление возможно только в средах с детально проработанными стандартами, едиными правилами и хорошо из вестной структурой распространенных ошибок. Объемы автоматических исправлений в та ких системах со временем могут снижаться, если в среде реализована обратная связь с систе мами выше по потоку и туда отправляются сведения о выявленных ошибках и исправлениях.

Полуавтоматическое исправление (с ручным подтверждением) отличается от первого под хода тем, что после автоматизированного исправления данные проходят этап ручной про верки и подтверждения перед сохранением. Можно настроить правила исправления адресов и фамилий/имен с определенным уровнем разрешающей способности при распознавании, чтобы исправления, в целом, вносились автоматически, но с присвоением некой оценки сте пени уверенности в их корректности. Исправления с оценкой уверенности выше пороговой могут сохраняться без проверки человеком, а остальные отправляются на утверждение рас порядителю данных. Изучая структуру прошедших и не прошедших утверждение автомати ческих исправлений, по мере необходимости корректируйте правила и пороговое значение. Среды, где административный надзор требуется в силу чувствительности части данных в на борах (например, в системах MDM), служат хорошим примером показания к применению полуавтоматического исправления с ручным подтверждением.

Ручное исправление. Случаются ситуации, когда полностью ручное исправление ошибок в данных — единственный доступный вариант либо по причине отсутствия технических средств автоматизации, либо по причине чрезвычайной чувствительности или важности данных, не допускающих внесения в них каких-либо правок без надзора уполномоченных лиц. В таких случаях для внесения исправлений в ручном режиме лучше предусмотреть

Качество данных

611

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

специальный интерфейс с элементами управления и полями редактирования, а также кон трольный журнал регистрации всех правок. Вариант с отправкой исправленных записей сра зу же в среду эксплуатации в таких ситуациях использовать чрезвычайно рискованно. Поста райтесь его избегать.

4.3 Программные модули проверки и аудита качества

Создавайте общедоступные повторно используемые программные модули многоцелевого назна чения для поддержки регулярно повторяющихся процессов проверки и аудита качества данных и включайте их в библиотеку для разработчиков. В случае внесения изменений в функциональ ность модуля обновится и функциональность всех использующих его приложений. Подобные модули значительно упрощают сопровождение систем. Хорошо спроектированные блоки про граммного кода способствуют предотвращению множества проблем с качеством данных. Не ме нее важно и то, что такой подход обеспечивает согласованность выполняемых процессов. Там, где законодательством или отраслевыми регламентами предусмотрена обязательная отчетность, соответствующая строго определенному набору показателей качества, часто требуется еще и до кументированное подтверждение происхождения предъявляемых надзорным органам резуль татов. Модули проверки качества пригодны и для этого. Для предоставления в общий доступ данных со спорными параметрами качества или, напротив, высоко котирующихся данных ис пользуйте модули с полями примечаний для описания качественных характеристик и рейтинга ми достоверности.

4.4 Эффективные метрики качества данных

Критически важным компонентом управления качеством данных является разработка метрик, информирующих потребителей о характеристиках качества, которые наиболее важны для оцен ки степени пригодности данных к использованию. Измеримых параметров всегда имеется в из бытке, но далеко не все из них актуальны и стоят времени и труда, затрачиваемых на их измерение и учет. Разрабатывая метрики, аналитикам качества данных следует учитывать следующие характеристики.

Измеримость. Параметры качества должны быть измеримыми. К примеру, та же «актуаль ность» данных остается абстрактным и никак не проверяемым свойством, если отсутству ют четкие критерии определения степени актуальности информации. Даже столь очевидная характеристика, как «полнота» данных, также нуждается в определении объективной меры. Ожидаемые результаты должны поддаваться количественному определению в рамках дис кретного диапазона значений.

Значимость для бизнеса. Из множества доступных для измерения параметров далеко не все переводятся в полезные для бизнеса метрики. Прежде всего, результаты измерений долж ны интересовать потребителей данных. Ценность метрики с точки зрения бизнеса будет весьма сомнительной, если измеряемая величина никак не привязана ни к одному аспекту

612

Г Л А В А 13

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

бизнес-операций или производительности. Каждая метрика качества данных должна так или

иначе отражать влияние данных на ключевые показатели бизнеса.

Приемлемость для бизнеса. Измерения качества данных задают рамки бизнес-требований к качеству данных. Определение количественных показателей, увязанных с измерениями качества, позволяет предъявить потребителям самые веские доказательства соответствия данных всем предъявляемым требованиям. Соответствие должно определяться пороговы ми уровнями приемлемости. Если оценка данных по какому-либо параметру не ниже поро говой, данные приемлемы для бизнеса. Если ниже, они не соответствуют предъявляемым требованиям.

Ответственность/Распоряжение. Метрики должны быть понятны ключевым заинтересо ванным лицам (владельцам и распорядителям данных) и одобрены ими. Они должны опе ративно уведомляться о выходе значений параметров качества за допустимые пределы, по скольку это означает, что данные перестали соответствовать ожиданиям. При этом владелец данных несет ответственность за сложившуюся ситуацию, а распорядитель — за принятие мер по исправлению.

Контролируемость. Метрики должны отражать аспекты бизнеса, поддающиеся контролю. Иными словами, при выходе значения измеряемого параметра за пределы установленного до пуска должна инициироваться процедура улучшения данных. Если же метрика не обеспечи вает контроля ситуации, то она, возможно, является излишней.

Отслеживание тенденций. Метрики дают организации возможность оценивать изменения качества данных с течением времени. Отслеживание изменений позволяет команде качества данных проводить мониторинг соблюдения условий SLA и соглашений о совместном исполь зовании данных, а также наглядно подтверждать эффективность принимаемых мер по обес печению надлежащего качества данных и услуг по их предоставлению. После стабилизации процессов работы с данными можно переходить к применению методов статистического управления процессами. Они позволяют не только выявлять текущие тенденции, но и состав лять незаменимые в любом бизнесе прогнозы на будущее.

4.5 Статистическое управление процессами

Статистическое управление процессами (Statistical Process Control, SPC) — разработанный в 1920 х годах метод технического контроля качества промышленной продукции по вводным, промежуточным и выходным параметрам технологических процессов1. Впоследствии алгоритм SPC получил широкое распространение в самых разных отраслях и входит в стандартный набор методов управления качеством — в том числе и качеством данных2. Применительно к качеству данных процесс определяется просто как последовательность исполняемых операций (шагов) по

1 Концепцию SPC (сокр. от англ. Statistical Process Control), основанную на использовании описанных ниже контроль ных карт, разработал в 1924 г. создатель теории непрерывного управления качеством Уолтер Шухарт. — Примеч. пер.

2 См.: Redman (1996 и 2001), Loshin (2000), Sebastian-Coleman (2013), Jugulum (2014)

Качество данных

613

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

преобразованию входных данных в выходные. Основополагающий постулат SPC: согласованный процесс обработки согласованных входных данных дает согласованные результаты (данные) на выходе. В рамках применения метода измеряется некое текущее усредненное значение (например, среднее арифметическое, медиана, среднестатистическое) и некий показатель разброса вокруг него (например, диапазон, дисперсия, среднеквадратичное отклонение). Для них определяются допуски.

Записей со значениями по умолчанию (%)

Пример данных стабилизированного (в пределах допуска) процесса

0,21 UCL=0,21061

0,20

0,19 ͞x=0.1885

0,18

0,17

LCL=0,16639

0,16

TGT_TBL_ETL_DT

Рисунок 95. Контрольная карта Шухарта

Основной инструмент SPC — контрольная карта (см. рис. 95), которая представляет собой не что иное, как график динамического ряда контрольных значений с рассчитанным по ним сред ним значением (x) и предельно допустимыми (контрольными) отклонениями. В рамках стабиль ного процесса выход результатов измерений за пределы контрольного допуска сигнализирует об особом случае.

SPC позволяет отличать предсказуемые результаты от непредсказуемых по степени отклоне ния внутренних показателей процессов. Отклонения в процессе подразделяются на обусловлен ные общими причинами, заложенными в самом процессе, и особыми причинами, привнесенны ми извне и потому непредсказуемыми или возникающими спорадически. При отсутствии особых причин среди источников разброса значений система считается устойчивой и статистически кон тролируемой, что и позволяет вычислять среднее значение и диапазон стандартных отклонений, по которым затем и выявляются аномальные изменения.

Применение SPC к измерениям показателей качества данных подразумевает, что данные рас сматриваются как продукт некоторого процесса. Иногда процесс создания данных описывается

614

Г Л А В А 13