Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
книги хакеры / DAMA_DMBOK_Свод_знаний_по_управлению_данными.pdf
Скачиваний:
18
Добавлен:
19.04.2024
Размер:
13.88 Mб
Скачать

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

1.3 Основные понятия и концепции

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-x cha

 

 

 

 

1.3.1 Наука о данных

Как уже отмечалось во введении, наука о данных объединяет статистический анализ, машинное обучение, интеграцию и моделирование данных для построения прогнозных моделей и выявле ния структурных закономерностей в содержании данных.

Иногда науку о данных трактуют более узко, относя к ней только предиктивное моделиро вание, что не лишено оснований в том смысле, что именно на стадиях моделирования и про гнозирования аналитики больших данных придерживаются естественно-научной методологии в строгом понимании.

Аналитик данных выдвигает гипотезу о возможном наблюдаемом поведении предметов ста тистического описания еще до начала каких-либо действий. Например, часто бывает, что покупка предмета потребления одной категории с высокой вероятностью влечет за собой покупку пред мета потребления другой (пример: покупка жилья влечет за собой покупку мебели). Затем ана литик исследует большие объемы исторических данных с целью проверки справедливости этой гипотезы и определения статистической корреляции между двумя параметрами модели. Если гипотеза подтверждается, а корреляция (показатель обусловленности второго события первым) достаточно высока, модель может стать основной для практического применения в целях прогно зирования поведения или даже использования ее в режиме реального времени — например, для контекстной рекламы.

Разработка решений в науке о данных ведется методом итеративного подключения к модели всё новых и новых источников данных по мере наработки статистически значимых результатов с целью углубления и детализации полученных выводов. Эффективность практического приме нения методологии науки о данных зависит от следующих факторов.

Богатство исходных данных как признак потенциала выявления в них скрытых закономер

ностей и тенденций в поведении организаций или потребителей.

Сопоставление и анализ информации: технические приемы, используемые для понимания смыслового наполнения данных и правильного сочетания их наборов с целью выдвижения и проверки гипотез о взаимосвязях и закономерностях.

Извлечение и выдача информации: обработка массивов данных с применением математиче ских моделей и алгоритмов и создание визуальных и иных представлений выходных данных, позволяющих выявлять глубинные закономерности и характеристики поведения.

Оформление результатов анализа данных с целью их распространения.

Таблица 32 сравнивает роль традиционной модели хранилища данных / бизнес-аналитики с мо делями прогнозной и предписывающей аналитики, которые можно реализовать в рамках мето дологии науки о данных.

Большие данные и наука о данных

627

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

Таблица 32. Прогресс аналитики

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-x cha

 

 

 

 

Традиционные средства DW/BI

 

Наука о данных

 

 

 

 

Описание

Предварительное прогнозирование

 

Предписание

 

 

 

 

Осмысление прошлого

Понимание настоящего

 

Предвидение будущего

 

 

 

 

Анализ истории: что произошло;

Модели прогнозирования:

 

Сценарный анализ: какая последовательность

как и почему это случилось?

что и с какой вероятностью произойдет?

 

действий даст желаемые результаты?

 

 

 

 

1.3.2 Процесс осуществления деятельности в области науки о данных

Рисунок 98 иллюстрирует последовательность итераций в рамках процесса осуществления дея тельности в области науки о данных (Data Science process). Результаты на выходе предыдущего эта па этого циклического процесса служат исходными данными для следующего этапа (см. раздел 2).

1. Выбор стратегии больших данных для бизнеса

7. Внедрение

2. Выбор

и мониторинг

источников

данных

6. Проработка

3. Получение

данных

и освоение

в рамках

источников

моделей

данных

5. Интеграция /

4. Выработка

согласование

гипотез

данных

и методик

для анализа

их проверки

Рисунок 98. Процесс осуществления деятельности в области науки о данных

Наука о данных следует общепринятой методологии познания посредством последователь ного приближения к объективной истине через циклы наблюдений, выдвижения и опытной про верки гипотез, накопление результатов экспериментов в рамках предложенной модели и форму лирование общих теорий, объясняющих совокупность результатов наблюдений и экспериментов.

628

Г Л А В А 14

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

В науке о данных этот процесс познания принимает форму наблюдений за данными, создания и оценки годности моделей, объясняющих их поведение.

Определение стратегии и потребностей бизнеса в области изучения больших данных

Сформулируйте требования к желаемым результатам с указанием измеримых материальных выгод от их выполнения.

Выбор источников данных. Идентифицируйте пробелы в имеющейся базе информацион ных ресурсов и изыщите источники данных, которые позволят заполнить эти пробелы.

Получение и освоение источников данных. Получите все необходимые наборы данных или доступ к их источникам с целью загрузки.

Проработка гипотез и методов их проверки средствами науки о данных. Исследуйте источ ники данных с помощью средств профилирования, визуализации, статистического анализа и т. п. с целью уточнения требований. Определите алгоритм модели и необходимые типы вводных и выходных данных или смоделируйте несколько альтернативных гипотез и методов анализа (например, сравнительный анализ группировок данных, выявленных посредством кластеризации, и т. п.).

Интеграция и согласование данных для анализа. Годность модели зависит еще и от качества источников данных. Используйте данные из надежных и достоверных источников. По мере необходимости используйте средства интеграции, очистки и доработки данных с целью по вышения качества и полезности вводимых наборов.

Исследование данных с использованием моделей. Задействуйте средства статистического анализа и алгоритмы машинного обучения для выявления закономерностей на основе ин тегрированных данных. Регулярно проверяйте валидность модели и при необходимости вносите коррективы в параметры модели и настройки алгоритмов самообучения, а по мере накопления статистики дорабатывайте и саму модель. Машинное обучение подразумевает многократные прогоны через модель больших массивов реальных данных с целью проверки гипотез и внесения корректив в настройки алгоритмов (например, выявления выпадающих из общего статистического ряда значений). В процессе такой проработки окончательно уточ няются и требования. Эволюция модели выверяется по изначально определенным метрикам пригодности/реалистичности результатов. С появлением новых гипотез могут потребоваться дополнительные наборы данных, а по результатам их проверки — новые модели, выходные данные и даже требования.

Внедрение и мониторинг. Модели, которые выдают полезную информацию, можно перено сить в производственную среду и использовать для текущего мониторинга ситуации с целью получения данных или, напротив, появления нежелательных тенденций, ставящих под угрозу эффективность текущей бизнес-модели. На этой стадии проекты по изучению данных пре вращаются в обычные рабочие проекты хранилища данных / бизнес-анализа и в среде храни лища обрастают всеми необходимыми техническими доработками и компонентами (проце дурами ETL, DQ, основными данными и т. д.).

Большие данные и наука о данных

629

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

1.3.3 Большие данные

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-x cha

 

 

 

 

На ранней стадии формирования этого понятия большие данные определялись по признаку соответствия трем «V-характеристикам»: Volume — объем, Velocity — скорость, Variety — раз нообразие (Laney, 2001). Вместе с широким распространением этой концепции в организациях, стремящихся сполна реализовать потенциал колоссальных массивов слабо структурированной информации, число V-характеристик в мнемоническом правиле определения понятия больших данных удвоилось. В наши дни к ним относят данные со следующими характерными свойствами.

Volume объем как мера количества данных: большие данные включают миллиарды полей или записей, описывающих тысячи сущностей или элементов.

Velocity скорость регистрации/генерирования, обработки или распространения: большие данные зачастую не только создаются, но и распространяются и даже анализируются в режи

 

ме реального времени или близком к нему.

 

Variety/Variability разнообразие/вариативность формы или представления: большие дан

 

ные сохраняются во всевозможных форматах, а их структура зачастую бывает несогласован

 

ной не только между наборами, но и внутри отдельно взятых наборов данных.

 

Viscosity

вязкость: большие данные крайне трудно поддаются как вычленению из общей

 

массы, так и анализу и интеграции с целью практического использования.

 

Volatility

волатильность как мера непостоянства: большие данные крайне переменчивы,

 

что весьма ограничивает сроки годности полученных с их использованием результатов.

 

Veracity

правдоподобие по критериям проверки подлинности источника.

Но главной отличительной особенностью больших данных являются колоссальные объемы за нимаемой ими памяти: сегодня под большими данными по умолчанию понимают нечто свыше 100 терабайт, а то и петабайты или эксабайты данных. В обычных средах с централизованной ар хитектурой DW/BI обработка подобных объемов становится весьма проблематичной, поскольку требует ЦОДа с серьезными серверными мощностями и пропускной способностью каналов связи для их загрузки, моделирования, очистки и анализа. Проблему часто решают за счет массивнопараллельной архитектуры обработки данных или сочетания параллельной обработки с распре деленными вычислениями и облачными хранилищами. Однако всё это не более чем локальные и временные решения, поскольку проблемы, обусловленные нарастанием объемов и потоков больших данных, имеют гораздо более широкие и далеко идущие последствия. Колоссальные размеры наборов данных требуют от нас изменений в общем подходе к хранению данных, досту пу к данным, в концептуальном представлении о данных (в частности, отказа от традиционного мышления категориями структур данных, описываемых реляционными моделями), а также в ме тодах управления данными (Adams, 2009).

Рисунок 99 позволяет составить наглядное представление о расширении спектра данных, ко торые стали доступны благодаря технологиям сбора и анализа больших данных, и о последствиях этого информационного разнообразия с точки зрения емкости требуемых хранилищ данных.

630

Г Л А В А 14

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

Эксабайты

Петабайты

Терабайты

Гигабайты

Объемы данных

Интернет вещей

Соцсети и форумы

Сенсоры/сканеры

Аудио/видео

 

Web 2.0

Файлы регистрации

Мобильные

 

 

Маркетинг Электронная

 

приложения

 

 

 

торговля

Блоги

EWD/BW

 

Веб-журналы

 

 

Клиенты

 

 

Вики

Продукты

 

Сотрудничество

 

 

 

GPS

 

 

 

Партнеры

 

Реклама

Тексты/изображения

 

 

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-x cha

 

 

 

 

Скорость Разнообразие Правдоподобие

Места хранения:

EDW/BW

Web 2.0

Интернет вещей

 

 

 

 

Рисунок 99. Масштабы задач в области хранения данных1

1.3.4 Компоненты архитектуры больших данных

Для правильного выбора, установки и конфигурации средств сбора и анализа больших данных требуются опытные специалисты. Необходимо разработать дополнительный комплекс архитек турных решений, его согласование с существующими средствами сбора и анализа данных и обо снование необходимости новых приобретений.

Рисунок 100 описывает концептуальную архитектуру рабочей среды для областей DW/BI и больших данных (о DW/BI подробнее в главе 11). Ключевое различие между средами рабо ты с большими данных и традиционного хранилища заключается в порядке операций: в среде DW/BI реализуется последовательность ETL (извлечение → преобразование → загрузка), а в среде больших данных — алгоритм ELT (извлечение → загрузка → преобразование). Это важнейший момент, поскольку большие данные загружаются до их приведения к совместимому с имеющейся структурой данных виду, что необходимо для интеграции. Во многих случаях интеграции в тра диционном смысле приведения к общей модели большим данным и не требуется. Вместо подго товки их к использованию в составе общего комплекса интегрированных данных применяется метод выборочного включения этих данных в процессы, для которых они могут быть полезными (например, в процессе построения модели прогнозирования могут потребоваться какие-то кон кретные наборы данных, — только они и будут интегрированы).

1 Источник: Robert Abate / EMC Corporation. Используется с разрешения правообладателей.

Большие данные и наука о данных

631

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

Концептуальная архитектуры DW/BI и среды обработки больших данных

Источники

 

 

 

 

 

 

Хранилище данных

 

 

 

 

 

BI

 

 

Приложения

 

 

Подготовка данных

 

 

 

 

 

 

Операционная

 

 

Повышение качества

 

 

 

 

 

 

отчетность

 

 

Обогащение и дополнение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Зависимые

 

 

 

 

 

 

Временное

 

 

 

 

 

Операционная отчетность

 

 

 

 

 

хранение

 

 

 

 

 

 

 

хранилища

и аналитика

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Оперативные

 

Очистка

 

 

 

 

 

 

ODS

Геопространственная

 

 

Интеграция

 

 

 

 

 

 

и демографическая аналитика

 

 

Центральное

 

 

 

системы

 

Обогащение

 

 

 

 

 

 

 

 

 

 

 

Стандартизация

 

 

хранилище

 

Управление

 

 

 

 

 

 

 

 

 

 

 

 

 

Витрины

эффективностью

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Предметно-ориентированные

 

 

 

DaaS

 

 

 

Неизменяющиеся

 

Визуализация данных

 

 

 

C привязкой ко времени

 

 

 

Справочные

 

 

Результаты

 

 

Атомарные

 

Data & Text

 

и основные данные

 

обработки

MDM

Исторические данные

 

Кубы

Mining

больших

 

 

Конформные

 

 

 

 

измерения

 

 

 

 

данных

 

 

 

 

 

Анализ

 

 

 

 

 

 

 

 

 

 

Большие данные

 

 

неструктурированных данных

Email

 

 

 

 

 

 

 

Мультимедиа

 

 

 

 

 

 

Предиктивный анализ

Датчики

 

 

 

 

 

Модель

 

 

 

 

 

 

Интернет вещей

Прием

Озеро

Интеграция

Изучение

 

Соцсети

оценки

 

 

 

данных

 

 

 

Web DaaS

 

 

 

 

 

Машинное обучение

DW

 

 

 

 

 

 

 

 

 

 

 

 

 

Рисунок 100. Концепция рабочей среды для областей DW/BI и больших данных

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-x cha

 

 

 

 

Обучение Прогноз Оценка Сравнение Настройка Отчетность

Различия между обработкой данных по схемам ETL и ELT столь значительны, что влияют и на систему управления данными. Например, схема ELT позволяет обойтись вовсе без модели рования данных предприятия. Однако подобное упрощение рискует обернуться утерей большей части информативного содержания обрабатываемых данных в процессе беспорядочного освое ния. Отсюда вытекает еще и обязательность управляемого сбора метаданных о накапливаемых данных, чтобы со временем не утрачивалось понимание их смысла и назначения.

Далее в настоящем разделе описываются источники больших данных, структура озер данных (хранилище большого объема неструктурированных данных) и средства их реализации, а в раз деле 2 — основные направления работ по освоению, интеграции, изучению и оценке результатов анализа больших данных.

1.3.5 Источники больших данных

Значительная часть человеческой деятельности в современном мире осуществляется в электрон ной форме, а значит, ежедневно накапливаются огромные массивы дополнительной информа ции, появление которой обусловлено нашими передвижениями по миру, взаимодействиями друг с другом и всевозможными бизнес-транзакциями. Мы непрестанно генерируем большие данные, отправляя электронные письма, высказываясь в соцмедиа, оформляя онлайн-заказы и даже про сто играя в сетевые видеоигры. Данные генерируются не только компьютерами и смартфонами, но

632

Г Л А В А 14

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

и кассовыми терминалами, системами видеонаблюдения, сенсорными датчиками транспортных систем, системами медицинского наблюдения, промышленными, коммунальными, спутниковы ми системами, не говоря уже о военной технике. Например, за один регулярный рейс современ ный гражданский пассажирский самолет генерирует до терабайта данных. Значительную долю больших данных создают всевозможные устройства с интернет-подключением, обменивающиеся информацией с владельцами или между собой, — этот феномен иногда называют интернетом вещей (Internet of Things, IoT).

1.3.6 Озёра данных

Озеро данных — среда накопления массы разнородных по типу и структуре данных, откуда они могут черпаться для сохранения, оценки или анализа. Озёра данных могут создаваться в различ ных целях. Вот лишь некоторые примеры их функционального назначения:

среда для работы специалистов по анализу данных методами науки о данных;

центральное хранилище — накопитель сырых данных, иногда с функцией минимальной предварительной обработки;

альтернативное хранилище детальных архивных версий DW/BI;

онлайн-архив записей;

среда для обработки входящих потоковых данных с функцией автоматического распознава ния структуры.

Озеро данных может быть реализовано в сложной конфигурации с использованием продвину тых средств обработки данных, включая системы управления хранилищами (например, Hadoop), службы кластеризации, преобразования и интеграции данных. Все подобные обработчики озер ных данных специально ориентированы на работу на базе распределенной инфраструктуры хра нения данных и имеют аналитическую оснастку, позволяющую собирать данные согласно задан ной структурной конфигурации.

Главный риск при использовании озера данных заключается в том, что оно имеет тенден цию к быстрому превращению в болото — грязное, запущенное, вязкое и непрозрачное. Чтобы этого не допустить, нужен учет содержания наполнения озера, а для учета содержания — не прерывная маркировка вводимых данных метаданными прямо на входе, что делает управление метаданными важнейшей задачей сопровождения озера данных. Для того чтобы понять характер связей — хотя бы ассоциативных — между данными в озере, архитекторы и проектировщики часто используют уникальные ключи или иные технические приемы (например, семантические или топонимические модели данных), чтобы аналитики и иные разработчики средств визуализа ции данных имели хотя бы приблизительное представление о том, что за информация стекается в озеро данных и как ее можно использовать (см. главу 9).

Большие данные и наука о данных

633

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

1.3.7 Архитектура на основе сервисов

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-x cha

 

 

 

 

В последнее время набирает популярность архитектура на основе сервисов (SBA1), позволяющая поначалу немедленно выдавать потребителям данные без гарантии их точности или полноты, а параллельно вести доработку данных из того же источника, чтобы затем сохранить их в полном и точном историческом наборе (Abate, Aiken, Burke, 1997). Архитектура SBA представляет собой вариант архитектуры DW с немедленной отправкой данных, поступающих из операционных си стем, в хранилище операционных данных (ODS) и одновременной доработкой этих данных в об ласти подготовки с последующей отправкой данных в главное DW, где накапливается история. Архитектура SBA предусматривает наличие трех слоев данных — пакетного, скоростного и слоя выдачи (см. рис. 101).

Пакетный слой реализован в среде озера данных, где ведется полная обработка поступающих данных и хранятся как последние, так и исторические данные.

Скоростной слой содержит только текущие данные, поступающие в режиме реального вре мени.

Слой выдачи интерфейс представления сводных данных (текущих и полных).

Скоростной слой

в реальном времени без истории

Источник

данных

Пакетный слой

полная обработка, ведение истории

Рисунок 101. Архитектура на основе сервисов (SBA)

Слой выдачи

сводное

представление

Данные загружаются одновременно в пакетный и скоростной слои. Все аналитические вычис ления производятся и в скоростном, и в пакетном слоях, что требует, как правило, двух раздельных систем обработки. Решение проблем синхронизации путем подбора оптимального компромисса между полнотой, задержкой, точностью и детализацией сводного представления осуществляется через определение параметров слоя выдачи. Для определения требуемого баланса между, например,

1 сокр. от англ. services-based architecture. — Примеч. пер.

634

Г Л А В А 14

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

временем запаздывания и точностью или полнотой отображаемых данных, а также стоимостью и сложностью решения, как правило, используется сравнительная оценка издержек/выгод.

Пакетный слой часто называют также накопительным по времени компонентом, поскольку транзакции туда последовательно дописываются, а скоростной слой — хранилищем операцион ных данных (ODS), поскольку там представлены лишь последние транзакции (или, если требует ся, только правки, дельты, приращения и т. п.). Ресурсоемкость подобной архитектуры оправды вает себя там, где требуется исключить всякую возможность рассинхронизации текущего пред ставления с данными в источнике в текущем слое за счет вынесения строгой обработки данных в исторический слой. Слой выдачи данных или служб данных при такой архитектуре извлекает и сводит данные из обоих слоев, используя метаданные. Сервисы данных определяют согласно заданным правилам, из какого слоя какие данные брать для «выдачи» в ответ на те или иные за просы потребителей данных.

1.3.8 Машинное обучение

Машинное обучение исследует методы построения алгоритмов, реализованных в программном обеспечении. Можно рассматривать машинное обучение как синтез методов неконтролируемого самообучения (часто называемых «извлечением информации» — data mining) и методов контро лируемого или управляемого обучения, которые имеют глубокие математические корни, в том числе из статистики, комбинаторики и оптимизации систем. Начала формироваться и третья ветвь — так называемое обучение с подкреплением без учителя: задаются целевые параметры,

исистема упражняется в их соблюдении (пример: автопилот транспортного средства). Програм мирование машин на быстрое усвоение повторяющихся структур запросов и адаптацию к из менениям наборов данных привело к появлению одноименного раздела «машинное обучение»

ив области больших данных, где эта концепция получила совершенно новое применение1. Про цессы прогоняются, результаты сохраняются, а затем используются при последующих прогонах для уточненной настройки процесса, и такие итерации повторяются до получения результата же лаемого уровня точности и детализации.

Машинное обучение занимается структурным построением алгоритмов познания и усвоения знаний. Выделяют три типа таких алгоритмов.

Обучение с учителем основано на применении обобщенных правил (пример: настраиваемый фильтр спама в почтовом приложении).

Обучение без учителя основано на выявлении скрытых паттернов, связей, закономерностей (то есть собственно интеллектуальный анализ данных).

Обучение с подкреплением основано на достижении цели (например, выигрыша шахматной партии).

1 См., например, «Периодическую таблицу методов визуализации» (http://bit.ly/IX1bvI) — интерактивный путево дитель по различным платформам, доступным разработчикам, теоретикам и практикам обучения машин распозна ванию данных.

Большие данные и наука о данных

635

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

Статистическое моделирование и машинное обучение используют также для автоматизации не реализуемых или слишком затратных процессов в рамках исследовательских и проектных работ, когда требуется, например, методом проб и ошибок подобрать ключ к огромному набору данных, повторяя цикл экспериментальной обработки, анализа результатов и исправления ошибок. Та кой подход позволяет значительно ускорить получение ответа, что и стимулирует организации к инициативам по поиску глубинных закономерностей посредством многократного повторения затратно эффективных процессов. Например, CIVDDD1 использует машинное обучения и ком плексные средства визуализации научных данных с целью оказания помощи государственным органам и миротворческим силам в противостоянии принявшим массовый характер информа ционным угрозам.

Хотя машинное обучение и использует весьма новые способы получения данных, в этой новой области знания должны соблюдаться все традиционные принципы этичного обращения с данны ми, в частности и прежде всего — принцип прозрачности. Появились научные доказательства того, что метод обучения нейронных сетей методом глубокого погружения работает. Они учатся и постигают мир. Однако не всегда ясны механизмы их обучаемости. Чем сложнее становятся алгоритмы, лежащие в основе этих процессов, тем менее они прозрачны — и начинают функцио нировать в режиме «черного ящика». Чем больше переменных учитывают самообучаемые ней ронные сети и чем более абстрактными делаются сами эти переменные, тем больше реализуемые ими алгоритмы испытывают пределы возможностей человека понимать и интерпретировать ло гику машинного мышления (Davenport, 2017). Необходимость обеспечения прозрачности приня тия решений по мере дальнейшего совершенствования функциональности неконтролируемого самообучения и его применения во всё более широком спектре ситуаций, вероятно, будет только возрастать (см. главу 2).

1.3.9 Анализ настроений

Мониторинг медиа и анализ текста относятся к автоматизированным методам извлечения анали тической информации из больших массивов неструктурированных и слабо структурированных данных, включая страницы отзывов, соцмедиа, блоги, новостные веб-сайты и т. п. Делается это для того, чтобы понять и обобщить мнения людей и выявить преобладающее в различных со циальных группах отношение к брендам, продуктам или услугам, а также любым другим темам или явлениям. Используя алгоритмы обработки естественного языка, синтаксического и лекси ческого разбора предложений или формулировок, средства семантического анализа позволяют выявлять не только доминирующую в высказываниях эмоциональную окраску, но и динамику ее изменения во времени, что открывает возможность предсказывать вероятные сценарии дальней шего развития событий.

1 CIVDDD (сокр. от англ. the Centre for Innovation in Information and Data-Driven Design — «Центр инноваций в инфор мационном проектировании») — субсидируемая межуниверситетская программа по изысканию возможностей для использования средств анализа и визуализации больших данных в прикладных информационно-технологических решениях нового поколения, включая новые вычислительные средства, стратегии и интерфейсы представления данных.

636

Г Л А В А 14

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

Проиллюстрируем этот подход на простейшем примере поиска и подсчета статистики ча стоты употребления ключевых слов в опубликованных отзывах о продукте. Если в комментарии присутствуют слова «отличный», «восторг», «замечательно» и т. п., вероятно, это позитивный отклик, а присутствие слов «плохой», «дрянь», «гадость» может служить признаком негативного отношения. Распределив отзывы по категориям, можно выяснить преобладающее в целевом со обществе (например, в данной соцсети, блоге и т. п.) отношение. Но, к слову, реальные чувства и эмоции, вызываемые предметом обсуждения, не так легко бывает уловить по причине того, что любое ключевое слово, будучи вырванным из контекста, может быть интерпретировано неверно. Например, слово «ужасно» вроде бы указывает на негативное отношение к ресторану, а в отзыве написано: «Ужасно вкусно!» А формально позитивную характеристику «сказочно» можно най ти в возмущенном отзыве: «Сказочно нерасторопное обслуживание!» Поэтому семантический анализ эмоциональной окраски должен интерпретировать слова только в контексте. А это уже требует понимания смыслового значения всего отзыва или комментария. Для правильной интер претации смысла написанного часто требуются функции обработки естественного языка, реали зованные на сегодняшний день лишь в суперсистемах уровня IBM Watson.

1.3.10 Интеллектуальный анализ данных и текстов

Интеллектуальным анализом данных (или извлечением информации — data mining) принято называть применение к массивам разнородных данных разнообразных алгоритмов выявления скрытых структурных закономерностей. Интеллектуальный анализ данных постепенно отделил ся от машинного обучения и сделался отдельной подобластью исследований по созданию искус ственного интеллекта. Теория интеллектуального анализа данных формально относится к ме тодологии статистического анализа, известной под названием «обучение без учителя», которая предусматривает применение к набору данных неких алгоритмов изучения, никак не связанных с ожидаемым или желаемым результатом. В то время как стандартные средства генерации запро сов и отчетов формулируют вполне конкретные требования к данным, средства интеллектуаль ного анализа данных помогают раскрывать неизвестные ранее взаимосвязи через выявление по вторяющихся структур (паттернов). Извлечение данных — ключевое направление работ на этапе первичного изыскания возможностей, поскольку позволяет оперативно идентифицировать под дающиеся изучению элементы обрабатываемого массива данных, выявлять ранее неизвестные и уточнять нечеткие или неклассифицированные связи, закладывая структурную основу класси фикации элементов изучаемых данных.

В сочетании с семантическим и структурно-лингвистическим анализом текстовой инфор мации интеллектуальный анализ данных позволяет автоматически классифицировать дан ные по признакам их содержания и интегрировать полученные классификации в онтологии, составляемые по мере накопления данных под общим руководством экспертов в предметной области. Таким образом, появляется возможность анализа электронных текстов в различных средах и форматах без их реструктурирования или конвертирования. Накапливаемые онто логии можно подключать к информационно-поисковым системам, что даст пользователям

Большие данные и наука о данных

637

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

и приложениям возможность получать доступ к этим документам через поисковые запросы (см. главу 9).

Извлечение данных и интеллектуальный анализ текстов основаны на использовании ряда стандартных технических приемов, включая описанные ниже.

Профилирование заключается в описании характерных типов поведения людей, групп или ор ганизаций и используется для определения признаков нормального поведения с целью выявле ния серьезных отклонений от нормы — например, в приложениях по отслеживанию мошенни ческих операций или попыток проникновения в системы. Результаты профилирования служат входными данными для многих компонентов, работающих по принципу самообучения.

Сокращение избыточных данных позволяет заменять исходные, излишне детализирован

ные наборы данных обобщенными, где сохраняются лишь ключевые характеристики или ка тегории, что заметно ускоряет и упрощает обработку и анализ.

Ассоциирование часто встречающихся в связке друг с другом элементов — еще один стан дартный алгоритм выявления взаимосвязей, применяемый в интеллектуальном анализе дан ных. Ассоциативные связи могут использоваться, например, для накопления статистики ча сто встречающихся наборов элементов, выявления скрытых правил, анализа конъюнктуры локальных рынков. Ну и рекомендательные системы в интернете без использования подоб ных алгоритмов, понятно, не обходятся.

Кластеризация: группировка элементов в кластеры по признаку близкого сродства или общно сти неких характеристик упрощает и ускоряет статистический анализ типичных схем и стерео типов поведения. Классический пример кластеризации — сегментация потребительского рынка.

Самоорганизующиеся карты метод кластерного анализа нейронных сетей, известный также под названием самоорганизующихся карт Кохонена1 или топологически упорядочен ных карт. Их использование позволяет снизить размерность пространства оценки без ущерба для результатов аппроксимации. Устранение избыточных пространственных измерений, от метим, по эффективности не уступает изъятию вырожденных переменных из алгебраических уравнений — и решать проще, и результат нагляднее.

1.3.11 Предиктивная аналитика

Предиктивной аналитикой называют подраздел обучения с учителем, в рамках которого поль зователи пытаются смоделировать элементы данных и предсказать будущие исходы по оцени ваемым вероятностям событий. В методах теории вероятностей и математической статистики прогнозная аналитика, однако, имеет много общего с обучением без учителя в части прописыва ния, например, предельно допустимых отклонений полученных результатов от предполагаемых, после чего требуется пересмотр гипотез.

1 Теуво Калеви Кохонен (фин. Teuvo Kalevi Kohonen, р. 1934) — финский теоретик искусственных нейронных сетей и алгоритмов машинного обучения. Самоорганизующиеся карты — частный случай векторного квантования сети ней ронов в так называемом слое Кохонена, где закрепляются алгоритмы, приводящие к успеху. — Примеч. пер.

638

Г Л А В А 14

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

Таким образом, предиктивная аналитика основана на использовании обычных вероятност ных (стохастических) моделей обработки вводных данных (включая исторические) для определения вероятности будущих событий (покупок, ценовых изменений и т. п.). При получении ин формации, выходящей за рамки текущей модели, сама же модель и запрашивает у организации порядок дальнейших действий. Фактором запуска может служить любое событие: заказ в ин тернет-магазине, текст в новостной ленте, образ в системе распознавания лиц, непредвиденный всплеск спроса на услуги. Пусковым моментом могут являться и внешние факторы. Например, появление негативных материалов о компании в СМИ — верный признак скорого снижения бир жевых котировок ее акций. А способность прогнозировать динамику биржевых котировок по но востям — отличное функциональное свойство средств аналитики данных с точки зрения игроков на фондовых рынках.

Зачастую превышение критического порога потока каких-либо характерных данных в режи ме реального времени (например, биржевых сделок или обращений в экстренную службу) служит причиной для запуска цепи всевозможных последствий в динамично меняющейся и нестабиль ной среде. Мониторинг потока событийных данных позволяет устанавливать пороги счетчиков критических событий, определяемых в рамках модели и служащих сигналом для выдачи преду преждения или запуска каких-либо действий.

Запас времени, которое остается в распоряжении у получателей сигнала о прогнозируемом событии до фактического наступления этого события, нередко бывает мизерным (вплоть до долей секунды). Поэтому инвестиции в технологии быстрого реагирования (в частности, рези дентные базы данных, широкополосные каналы связи и даже физический перенос ЦОД в непо средственную близость к объекту — источнику данных) оправдываются, если позволяют реально повысить способность к прогнозированию и оперативному реагированию на прогноз.

Простейшая модель прогнозирования — статистическая. Существует множество методик статистического прогнозирования, основанных на выявлении тенденций с экстраполяцией, ре грессионном анализе и т. п., но в любом случае требуется сглаживание. Простейший вариант сглаживания данных реализуется путем расчета скользящего среднего или средневзвешенного значения. В специфических случаях могут применяться более сложные техники сглаживания, такие как расчет экспоненциального скользящего среднего, что позволяет управлять коэффи циентом сглаживания (фильтрации флуктуаций). Для начала можно применить один из методов регрессионного анализа — метод наименьших квадратов, но в любом случае требуется несколько пробных прогонов для подбора оптимального коэффициента сглаживания. Существуют модели с двумя и более фильтрами экспоненциального сглаживания, позволяющие учитывать, напри мер, недельные колебания на фоне сезонных.

1.3.12 Предписывающая аналитика

Предписывающим анализом называют прогнозный анализ, дополненный определениями коррек тирующих воздействий на ситуацию с целью изменения конечных результатов, а не ограничиваю щийся простым их прогнозированием. Таким образом, предписывающая аналитика позволяет

Большие данные и наука о данных

639

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

предсказывать, что случится, когда это случится и — главное — по совокупности каких факторов это случится. Будучи способным демонстрировать последствия различных сочетаний решений, предписывающий анализ позволяет моделировать их комбинации с целью максимизации выиг рыша или минимизации риска. Методы предписывающего анализа удобны тем, что предусма тривают возможность непрерывной подачи на вход скорректированных вводных и перерасчета прогнозов с выдачей скорректированных предписаний. Это повышает и точность прогноза, и ре зультативность предписаний.

1.3.13 Методы анализа неструктурированных данных

Анализ неструктурированных данных основан на сочетании различных методов анализа тек стов, ассоциаций, кластеров и прочих вышеописанных методов обучения без учителя, помогаю щих кодифицировать большие наборы слабо структурированных данных. Могут использоваться и методы обучения с учителем: например, для того чтобы задать направление, ориентацию и на ставления машинному мышлению на правильный подход к кодированию выявляемых структур ных зависимостей, — и часто лишь человеческое вмешательство позволяет избежать невнятно сти формулировок или разрешить неоднозначности.

Значение анализа неструктурированных данных возрастает пропорционально нарастанию их доли в мировом информационном пространстве. Бывает, что анализ какого-либо явления просто невозможен без включения в аналитическую модель неструктурированных данных. Однако ана лиз неструктурированных данных осложняется необходимостью предварительного отделения интересующих исследователей данных от лишних элементов.

Сканирование и тегирование — единственный способ «выуживания» полезных неструктури рованных данных из озера, позволяющий отфильтровать их от «воды» и привязать к структури рованным данным. Тем не менее тут возникает следующая проблема: какими тегами маркировать данные, не зная заранее их содержания, и как определить условия тегирования? Ответ может быть получен только итерационным путем: по мере выявления реальных условий тегирования уточняются и начинают присваиваться теги, а по мере поглощения и освоения тегированных дан ных аналитики проверяют правильность условий тегирования, анализируют выловленные дан ные — и постепенно уточняются и согласуются все условия тегирования и структура тегов, а по мере надобности могут добавляться и новые теги.

1.3.14 Операционная аналитика

Концепция операционной аналитики (она же операционная BI, бизнес-аналитика, потоковая аналитика данных и т. п.) появилась в результате интеграции в операционную деятельность функций анализа данных в режиме реального времени. Средства операционного анализа вклю чают сегментацию пользователей, анализ эмоциональной окраски, геокодирование и другие приемы потоковой обработки данных в целях анализа эффективности маркетинговых кам паний, охвата рынков, популярности продуктов, оптимизации ресурсов, управления рисками и т. д. и т. п.

640

Г Л А В А 14

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

Операционная аналитика предусматривает встраивание средств слежения в потоки опера тивной информации в режиме реального времени, обработку сигналов алгоритмами моделей прогнозирования поведения и запуск автоматических откликов или сигналов тревоги. Разработ ка модели, триггеров и откликов требует предварительного анализа данных. Проект операци онно-аналитического решения должен включать подготовку исторических данных для предва рительного задания начальных значений в моделях поведения. Например, в модели розничной торговли требуется оценить типичные наборы взаимодополняющих продуктов в покупательских корзинах. В моделях прогнозирования фондового рынка обычно используются исторические данные о котировках и динамике их изменения. Расчеты пороговых значений запуска отклика на основании предварительно заполненных полей также обычно производятся заранее.

После подтверждения полезности и окупаемости прогностических моделей ретроспективные данные в них начинают дополняться и замещаться текущими (включая поступающие в режиме реального времени и потоковые, структурированные и неструктурированные). Решение должно гарантировать корректную обработку потоков оперативных данных согласно правилам модели, безошибочное срабатывание сигнализаций о выходах измеряемых параметров за пределы допу сков и защиту от ложных срабатываний автоматики.

1.3.15 Визуализация данных1

Визуализация данных — процесс интерпретации концепций, идей и фактов через наглядные пред ставления, включая фотографии, рисунки, коллажи и всевозможные графики и схемы. Визуали зация упрощает понимание иллюстрируемых данных, обеспечивая наглядность и лаконичность их сводного (например, графического) представления. Визуализация позволяет предельно сжато и доходчиво отображать наиболее характерные данные с целью навести зрителей на полезные выводы о скрытых возможностях, рисках или смыслах.

Визуальные представления могут быть как статичными (например, в формате иллюстриро ванного отчета), так и анимированными, динамично обновляемыми и даже интерактивными, то есть позволяющими конечному пользователю переходить на различные уровни детализации, накладывать фильтры и иным образом упрощать себе визуальный анализ данных. В качестве варианта может предусматриваться и переключение пользователем режима отображения данных в инновационные форматы, такие как интерактивные географические карты и динамические ландшафтные пейзажи данных.

Анализ данных уже давно немыслим без средств визуализации. Все традиционные инструмен ты бизнес-анализа обязательно включают широкий выбор средств визуального представления

1 Визуализация данных — динамично развивающаяся область прикладной науки. Принципы визуального представ ления данных, в целом, основываются на принципах инженерного проектирования (см.: Tufte, 2001; McCandless, 2012). В интернете можно найти множество ресурсов с примерами, как подтверждающими, так и опровергающими справедливость такого представления. См. также «Периодическую таблицу методов визуализации» (http://bit.ly/IX1bvI) и другие ресурсы, опубликованные на сайте швейцарского межуниверситетского проекта визуального ликбеза visualliteracy.org.

Большие данные и наука о данных

641