Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
книги хакеры / DAMA_DMBOK_Свод_знаний_по_управлению_данными.pdf
Скачиваний:
18
Добавлен:
19.04.2024
Размер:
13.88 Mб
Скачать

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

3.2 Базы данных на основе распределенных файловых систем

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-x cha

 

 

 

 

Технологические решения на основе распределенных файловых систем, подобные HDFS (Hadoop Distributed File System), служат недорогим способом хранения больших объемов разнородных данных. В HDFS можно сохранять файлы любого размера, формата и типа — структурированные, частично структурированные и не структурированные вовсе. Как и в MPP-архитектуре, файлы данных распределяются между серверами. Решение идеально подходит для надежного хранения данных (поскольку файлы реплицируются), а вот с доступом к ним с помощью структурирован ных запросов (наподобие SQL) и, как следствие, с онлайновым анализом данных, хранящихся в распределенных файловых системах, возникнут серьезные проблемы.

Благодаря относительно низкой стоимости Hadoop стала популярной перевалочной базой, выбираемой многими организациями. А из Hadoop данные затем можно по мере надобности пе реносить в поддерживающие обработку аналитических запросов среды базы данных, например в MPP. Впрочем, некоторые организации, не особо озабоченные оперативностью, обрабатывают сложные запросы в рамках проектов науки о данных и прямо в Hadoop; правда, на получение результата в этом случае уходят часы и сутки, а не минуты, как в MPP.

В распределенных файловых системах используется специфическая терминология модели MapReduce1. Три основных этапа аналитической обработки больших данных на этом языке на

зываются так:

 

Map

отображение: идентификация и получение данных для анализа;

 

Shuffle

перетасовка: выборка и компоновка в соответствии с выбранной схемой анализа;

 

Reduce

свёртка: вычистка дублей или агрегирование данных с целью радикального умень

 

шения объема данных в полученном результате и сохранения в нем только нужных элементов.

Эти этапы могут в различных сочетаниях, последовательно или параллельно, включаться во мно гие аналитические инструменты, что обеспечивает возможность весьма сложных манипуляций с данными.

3.3 Алгоритмы «в базе данных»

Алгоритм «в базе данных» основан на принципе полностью независимой обработки каждым процессором в архитектуре MPP своего собственного аналитического алгоритма, что открыва ет возможность нового подхода к анализу больших данных по принципу раздельной реализа ции различных математических или статистических функций на уровне вычислительных узлов. Открытые библиотеки встраиваемых в масштабируемые БД алгоритмов машинного обучения, решения статистических и аналитических задач как в ядре, так и во внешней памяти разрабо таны для различных архитектур, включая MPP самых современных СУБД, что обеспечивает

1 MapReduce (~ «отображение-свёртка») — модель и язык распределенных параллельных вычислений на больших дан ных, предлагаемые компанией Google. — Примеч. пер.

Большие данные и наука о данных

655

 

 

 

 

hang

e

 

 

 

 

 

 

 

C

 

E

 

 

 

 

X

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

F

 

 

 

 

 

 

t

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

r

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

to

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

.

 

 

 

 

 

.c

 

 

 

p

 

 

 

 

g

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

-xcha

 

 

 

 

 

 

 

 

 

hang

e

 

 

 

 

 

 

 

 

C

 

E

 

 

 

 

 

X

 

 

 

 

 

 

 

-

 

 

 

 

 

d

 

 

 

F

 

 

 

 

 

 

t

 

 

 

D

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

r

 

P

 

 

 

 

 

NOW!

o

 

 

 

 

 

 

 

 

 

 

 

 

 

 

BUY

 

 

 

 

 

 

 

to

 

 

 

 

 

 

w Click

 

 

 

 

 

m

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

o

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

.c

 

 

 

 

p

 

 

 

 

g

 

 

 

 

 

 

df

 

 

n

e

 

 

 

 

 

 

-x cha

 

 

 

 

максимальное приближение вычислений к данным. А чем ближе вычислительные мощности к данным, тем меньше непродуктивные затраты времени и больше возможностей для расчетов по сложным алгоритмам (таким, как кластеризация по k-средним, линейная или логистическая регрессия, U-критерий Манна — Уитни, расчет сопряженных градиентов, анализ когорт и т. д).

3.4 Облачные хранилища больших данных

Ряд поставщиков предлагают облачные решения для хранения и интеграции больших данных, иногда с поддержкой аналитических возможностей. Руководствуясь стандартами, определяемыми такими провайдерами, клиенты загружают свои данные в облачную среду, после чего постав щик решения может дополнительно дорабатывать данные, распоряжаясь ими либо как откры тыми наборами, либо на условиях, определяемых подключенными к облачному хранилищу ор ганизациями. В итоге любой клиент получает возможность изучать и анализировать весь массив больших данных, накопленный в облаке. Пример применения: агрегирование розничных пред ложений по предметным областям в сочетании с географическими профилями спроса и продаж в обмен на бонусные мили авиакомпаний — участников схемы, предлагаемые всем покупателям, соглашающимся на использование их данных подобным образом.

3.5 Языки статистических вычислений и графических представлений

Упоминавшийся уже в разделе 2.6.2 проект R предлагает всем желающим язык написания сцена риев и бесплатную среду для статистических вычислений и графического представления их ре зультатов. Язык R позволяет реализовывать широкий спектр методов статистического анализа данных, включая линейное и нелинейное моделирование, классические статистические испыта ния, анализ временных рядов, классификацию и кластеризацию данных в неизученных массивах. Поскольку это язык сценарного анализа, модели, разработанные на R, можно затем реализовывать в самых разнообразных средах и на различных платформах, что открывает широкие возможности для совместной работы и интеграционных усилий поверх географических и организационных гра ниц. Плюс к тому среда R поддерживает графопостроение на уровне, пригодном для публикации без доработок, а также математические символы и формулы, доступные конечным пользователям.

3.6 Средства визуализации данных

Традиционные средства визуализации данных включают два компонента — численное и графи ческое представления. Продвинутые средства визуализации и раскрытия данных используют оп тимизированную для обработки в оперативной памяти архитектуру поддержки интерактивного взаимодействия пользователя с данными. Закономерности и связи в больших наборах данных в численном представлении бывают трудноуловимыми, а вот при выборе сложного графического режима визуализации динамики загрузки данных даже с тысячами точек любые неравномерно сти сразу бросаются в глаза и вызывают желание их проанализировать.

Инфографика (как теперь принято называть эффектные стилизованные наглядные графиче скиепредставленияданных)такжеможетбытьсделанаинтерактивнойдлябольшейдоходчивости.

656

Г Л А В А 14