Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
книги хакеры / DAMA_DMBOK_Свод_знаний_по_управлению_данными.pdf
Скачиваний:
18
Добавлен:
19.04.2024
Размер:
13.88 Mб
Скачать

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

данных — таблицы, всевозможные линейные и круговые, плоскостные и объемные, столбчатые и полосчатые графики, гистограммы. С ростом спроса на наглядные данные безостановочно со вершенствуются средства их визуализации.

По мере роста зрелости информационной аналитики новые способы визуального отображе ния данных становятся важным стратегическим преимуществом. Новый взгляд на данные позво ляет выявить новые связи и закономерности, а следовательно, и новые возможности для бизнеса. По мере дальнейшего развития и совершенствования средств визуализации организациям при дется взращивать такие команды бизнес-аналитиков, которые смогут обеспечивать им конкурен тоспособность во всё более компьютерно-управляемом в потоковом режиме мире. И вот тогда бизнес-аналитическими отделами будут крайне востребованы эксперты с навыками визуализа ции — знатоки данных, художники данных, визионеры данных, — в дополнение к традиционно ценящимся архитекторам и разработчикам моделей данных. Это будет более чем оправданно, если помнить о рисках, проистекающих от искажающих восприятие обманчивых визуальных представлений (см. главу 2).

1.3.16 Объединение данных

Средства получения данных из различных источников и служб позволяют создавать различные агрегированные представления данных для нужд визуализации или анализа. Многие инструмен ты виртуализации поддерживают агрегирование через функциональность связывания данных из различных источников объединяющими элементами, то есть, по сути, тем же приемом, кото рый традиционно использовался в реляционных моделях для связывания, к примеру, объекта и описания через внешний ключ. Техническая возможность создания различных данных, напри мер, весьма полезна для получения пользовательских представлений и идеально подходит для реализации задач, которые возникают на фазах раскрытия источников или разведки ресурсов данных, позволяя получать быстрые и наглядные результаты. Этот метод может быть применен в веб-приложении, поскольку позволяет организовывать обмен защищенными нарезками, содер жащими персональные или конфиденциальные данные, между поставщиками или провайдерами информационных услуг. В сочетании с алгоритмами обучения искусственного интеллекта такие агрегированные представления помогают выявлять интернет-сервисы, оснащенные интерфейса ми с поддержкой обработки естественного языка.

2. ПРОВОДИМЫЕ РАБОТЫ

2.1 Стратегическое планирование потребностей бизнеса в больших данных

Стратегия организации в отношении сбора и анализа больших данных должна выстраиваться в согласовании с общей информационной стратегией бизнеса и являться ее неотъемлемой ча стью. Стратегическое планирование потребностей бизнеса в больших данных должно учитывать следующие критерии.

642

Г Л А В А 14

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

Какие проблемы пытается решить организация? Для каких целей нужны результаты анализа больших данных? Одно из преимуществ науки о данных — возможность взглянуть на организацию под новым углом, зафиксировать отправную точку и оценить перспективы даль нейшего развития. Организация может определить, что данные нужны ей для понимания биз неса и бизнес-среды, доказательства ценности планируемых новых продуктов, исследования или изобретения новых подходов к ведению бизнеса. Важно создать и закрепить процесс при нятия на рассмотрение, оценки, отбора и утверждения таких инициатив на различных стадиях внедрения. Ценность и целесообразность инициатив должны переоцениваться неоднократно.

Какие источники данных использовать? Внутренние источники обычно проще использо вать, но они содержат весьма ограниченные данные. Внешние источники могут быть весь ма полезными, но неподконтрольными в плане оперативного управления (находиться под управлением других организаций или вовсе никем не контролироваться, как, например, мно гие соцсети). Это обширное поле, и конкуренция на нем серьезная, а потому бывает трудно разобраться и определиться с выбором из множества предлагаемых источников нужных эле ментов или наборов данных. Единственное, что можно порекомендовать: старайтесь приоб ретать наборы данных, которые достаточно хорошо совместимы с уже накопленными, чтобы минимизировать расходы на интеграцию и освоение.

Своевременность и полнота данных. Одни элементы данных могут регистрироваться или по ступать из внешних источников в потоковом режиме, другие — в виде моментальных снимков состояний через заданные интервалы времени, третьи — и вовсе поступать в интегрированной или обобщенной форме. Оперативные данные в идеале должны поступать с минимальным за паздыванием, но только не в ущерб машинному обучению в тех случаях, когда оно предусмо трено. В целом, алгоритмы обработки динамических потоковых данных принципиально отли чаются от алгоритмов обработки статичных наборов данных. Постарайтесь придерживаться следующего правила: степень интеграции данных на стадии приема входных сигналов должна соответствовать минимальным потребностям пользовательских процессов ниже по потоку.

Согласованность с другими структурами данных. Могут потребоваться изменения в струк туре или контенте других данных с целью их согласования с наборами больших данных.

Учет влияния на существующие модели данных. Планируйте распространение полученных

врезультате анализа и обобщения больших данных знаний на модели данных, используемые

вуправлении отношениями с клиентами, планировании продуктов, маркетинге и т. п.

На основе этой стратегии разрабатывается дорожная карта использования потенциала больших данных.

2.2 Выбор источников данных

Как и в случае любого другого проекта перспективных разработок, выбор источников больших данных, необходимых для развития науки о данных, должен диктоваться проблемами, которые стремится решить организация. Главное отличие в случае больших данных состоит в крайне

Большие данные и наука о данных

643

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

широком спектре потенциальных источников. Снимаются всякие ограничения по формату, что позволяет добавлять колоссальные объемы внешних данных к и без того расширенному спектру нарабатываемых внутри организации. Однако способность инкорпорировать внешние данные во внутренние решения привносит и множественные риски. Качество и достоверность данных и надежность их источников подлежат как первичной проверке, так и последующему подтверж дению согласно запланированному графику. Среды больших данных позволяют быстро прини мать колоссальные потоки информации, но для того, чтобы накопленные данные можно было использовать и хоть как-то ими распоряжаться, всё равно требуются учет и контроль хотя бы базовых фактов, относящихся к исходным данным, включая:

происхождение;

формат;

смысл элементов данных;

связи с другими данными;

частоту обновления.

По мере появления обновленных и дополненных данных (например, демографической статисти ки, данных о спросе и продажах, спутниковых метеонаблюдений, новых наборов результатов мас штабных научных экспериментов и т. п.) входные данные подлежат проверке и оценке на предмет их ценности, надежности и достоверности. Периодического пересмотра требуют и доступные источники данных, и процессы создания этих источников, а также планы поиска и подключения новых источников. При проработке источников больших данных основное внимание надлежит уделять следующим компонентам.

Основные данные. Определите фундаментальные показатели, которые вас интересуют (на пример, продажи по каналам сбыта, если речь идет о торговле).

Детализация. В идеале данные должны собираться на максимально доступном уровне дета лизации. Обобщить их по различным параметрам и признакам вы всегда успеете, сделав это согласно требуемому назначению.

Согласованность. По возможности выбирайте источники данных таким образом, чтобы в них последовательно и согласованно отображались одни и те же показатели и применялись одни и те же ограничения. Это упростит визуализацию.

Проверка надежности источников. Старайтесь убеждаться в достоверности и регулярности обновлений данных. Используйте только авторитетные источники с хорошей репутацией.

Выявление и подключение новых источников. С одной стороны, важно своевременно вы являть ставшие доступными новые источники интересующих вас данных; с другой сторо ны, нельзя подключаться к ним без предварительной проверки их надежности. Не исключена и возможность нежелательных результатов вследствие подключения новых источников: на пример, искажения в отчетах или визуальных представлениях данных.

644

Г Л А В А 14

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

Риски, связанные с внешними источниками данных, обусловлены, в частности, необходимостью следить за соблюдением правил защиты конфиденциальных данных. Способность к быстро му усвоению и масштабной интеграции данных из множества разнородных источников делает возможным объединение исходных закрытых данных из различных защищенных, казалось бы, источников методом рекомбинации. Аналогичным образом и аналитический отчет может не вольно выдать — через вводное описание, сводные данные или моделируемое состояние — не только группу населения, к которой он относится, но и конкретных лиц. Риск подобных нежела тельных побочных эффектов особенно высок в тех случаях, когда результаты массово накоплен ной статистики применяются к узкой локальной выборке населения или граждан — и публику ются именно в таком виде. Например, демографические данные на национальном и региональ ном уровне обезличены; однако, если имеется возможность фильтрации по почтовым индексам, а тем более адресам, становятся вполне вычислимы и реальные лица, которые этими данными описываются1

Критерии выбора или фильтрации данных также сопряжены с риском. В любом случае вы борочное включение данных в интегрированную модель требует объективного обоснования

иуправления во избежание привнесения субъективных искажений. Кроме того, не исключены

инегативные последствия для визуальных представлений усеченных данных. С осторожностью следует применять и такие методы, как отбраковка данных, выходящих за пределы предельно до пустимых отклонений, и искусственное ограничение области допустимых значений, и отсев ред ких элементов. В целом, практика улучшения фокусировки входных за счет удаления откровенно выбивающихся из общего ряда результатов широко распространена, но оправданной она может считаться лишь в тех случаях, когда имеет под собой объективные основания и применяется по следовательно и единообразно2 (см. главу 2).

2.3 Определение источников и загрузка данных

После выявления источников требуемых данных нужно получить к ним доступ (иногда речь может идти и о покупке или платной подписке) и загрузить исходные наборы данных, а также наладить бесперебойную загрузку обновлений в среду больших данных. В процессе этого не за бывайте регистрировать все необходимые метаданные об источнике (происхождение, размер, да тировку и прочие доступные сведения о контенте). Многие системы обработки вводных данных генерируют, как минимум, часть метаданных автоматически. После поступления данных в озеро их можно оценивать на пригодность к использованию для анализа различными методами. По скольку построение моделей в рамках науки о данных — процесс по определению итерационный, поэтапно происходит и освоение данных. Шаг за шагом выявляйте пробелы в имеющихся масси вах, ищите и подключайте ресурсы, необходимые для их заполнения. Для определения доступных

1 В этом плане интересной представляется мысль Мартина Фаулера (Martin Fowler) о «прореживании данных» (нем. Da tensparsamkeit), то есть об избавлении от бюрократической привычки собирать «полные данные». См.: http://bit.ly/1f9Nq8K

2 Подробнее о систематических ошибках наблюдения или регистрации данных и их пагубном влиянии на интерпрета цию результатов см.: http://bit.ly/2sANQRW, http://bit.ly/2oz2o5H и http://bit.ly/1rjAmHX

Большие данные и наука о данных

645