Добавил:

Anonymhacker Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Пензенский Государственный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

книги хакеры / DAMA_DMBOK_Свод_знаний_по_управлению_данными.pdf

Скачиваний:

Добавлен:

19.04.2024

Размер:

13.88 Mб

Скачать

☆

<<< < Предыдущая 112 113 114 115 116 117 118 119 120 121 122 123124 / 162124 125 126 127 128 129 130 131 132 133 134 135 136 > Следующая >>>

				hang		e
			C			e	E
		X					E
	-							d
	F								t
	D								i
	D								r
P						NOW!			o
P
					BUY
				to	BUY
w Click				to						m
w Click										m
w
	w								o
	.							.c
		p					g
			df			n		e
				-xcha

3.2 Базы данных на основе распределенных файловых систем

				hang		e
			C			e	E
		X					E
	-							d
	F								t
	D								i
	D								r
P						NOW!			o
P
					BUY
				to	BUY
w Click				to						m
w Click										m
w
	w								o
	.							.c
		p					g
			df			n		e
				-x cha

Технологические решения на основе распределенных файловых систем, подобные HDFS (Hadoop Distributed File System), служат недорогим способом хранения больших объемов разнородных данных. В HDFS можно сохранять файлы любого размера, формата и типа — структурированные, частично структурированные и не структурированные вовсе. Как и в MPP-архитектуре, файлы данных распределяются между серверами. Решение идеально подходит для надежного хранения данных (поскольку файлы реплицируются), а вот с доступом к ним с помощью структурирован ных запросов (наподобие SQL) и, как следствие, с онлайновым анализом данных, хранящихся в распределенных файловых системах, возникнут серьезные проблемы.

Благодаря относительно низкой стоимости Hadoop стала популярной перевалочной базой, выбираемой многими организациями. А из Hadoop данные затем можно по мере надобности пе реносить в поддерживающие обработку аналитических запросов среды базы данных, например в MPP. Впрочем, некоторые организации, не особо озабоченные оперативностью, обрабатывают сложные запросы в рамках проектов науки о данных и прямо в Hadoop; правда, на получение результата в этом случае уходят часы и сутки, а не минуты, как в MPP.

В распределенных файловых системах используется специфическая терминология модели MapReduce1. Три основных этапа аналитической обработки больших данных на этом языке на

зываются так:

	Map	отображение: идентификация и получение данных для анализа;
	Shuffle	перетасовка: выборка и компоновка в соответствии с выбранной схемой анализа;
	Reduce	свёртка: вычистка дублей или агрегирование данных с целью радикального умень
	шения объема данных в полученном результате и сохранения в нем только нужных элементов.

Эти этапы могут в различных сочетаниях, последовательно или параллельно, включаться во мно гие аналитические инструменты, что обеспечивает возможность весьма сложных манипуляций с данными.

3.3 Алгоритмы «в базе данных»

Алгоритм «в базе данных» основан на принципе полностью независимой обработки каждым процессором в архитектуре MPP своего собственного аналитического алгоритма, что открыва ет возможность нового подхода к анализу больших данных по принципу раздельной реализа ции различных математических или статистических функций на уровне вычислительных узлов. Открытые библиотеки встраиваемых в масштабируемые БД алгоритмов машинного обучения, решения статистических и аналитических задач как в ядре, так и во внешней памяти разрабо таны для различных архитектур, включая MPP самых современных СУБД, что обеспечивает

1 MapReduce (~ «отображение-свёртка») — модель и язык распределенных параллельных вычислений на больших дан ных, предлагаемые компанией Google. — Примеч. пер.

Большие данные и наука о данных

655

				hang		e
			C			e	E
		X					E
	-							d
	F								t
	D								i
	D								r
P						NOW!			o
P
					BUY
				to	BUY
w Click				to						m
w Click										m
w
	w								o
	.							.c
		p					g
			df			n		e
				-xcha

					hang		e
				C			e	E
			X					E
		-							d
		F								t
		D								i
		D								r
	P						NOW!			o
	P
						BUY
					to	BUY
	w Click				to						m
	w Click										m
w
		w								o
		w								o
		.							.c
			p					g
				df			n		e
					-x cha

максимальное приближение вычислений к данным. А чем ближе вычислительные мощности к данным, тем меньше непродуктивные затраты времени и больше возможностей для расчетов по сложным алгоритмам (таким, как кластеризация по k-средним, линейная или логистическая регрессия, U-критерий Манна — Уитни, расчет сопряженных градиентов, анализ когорт и т. д).

3.4 Облачные хранилища больших данных

Ряд поставщиков предлагают облачные решения для хранения и интеграции больших данных, иногда с поддержкой аналитических возможностей. Руководствуясь стандартами, определяемыми такими провайдерами, клиенты загружают свои данные в облачную среду, после чего постав щик решения может дополнительно дорабатывать данные, распоряжаясь ими либо как откры тыми наборами, либо на условиях, определяемых подключенными к облачному хранилищу ор ганизациями. В итоге любой клиент получает возможность изучать и анализировать весь массив больших данных, накопленный в облаке. Пример применения: агрегирование розничных пред ложений по предметным областям в сочетании с географическими профилями спроса и продаж в обмен на бонусные мили авиакомпаний — участников схемы, предлагаемые всем покупателям, соглашающимся на использование их данных подобным образом.

3.5 Языки статистических вычислений и графических представлений

Упоминавшийся уже в разделе 2.6.2 проект R предлагает всем желающим язык написания сцена риев и бесплатную среду для статистических вычислений и графического представления их ре зультатов. Язык R позволяет реализовывать широкий спектр методов статистического анализа данных, включая линейное и нелинейное моделирование, классические статистические испыта ния, анализ временных рядов, классификацию и кластеризацию данных в неизученных массивах. Поскольку это язык сценарного анализа, модели, разработанные на R, можно затем реализовывать в самых разнообразных средах и на различных платформах, что открывает широкие возможности для совместной работы и интеграционных усилий поверх географических и организационных гра ниц. Плюс к тому среда R поддерживает графопостроение на уровне, пригодном для публикации без доработок, а также математические символы и формулы, доступные конечным пользователям.

3.6 Средства визуализации данных

Традиционные средства визуализации данных включают два компонента — численное и графи ческое представления. Продвинутые средства визуализации и раскрытия данных используют оп тимизированную для обработки в оперативной памяти архитектуру поддержки интерактивного взаимодействия пользователя с данными. Закономерности и связи в больших наборах данных в численном представлении бывают трудноуловимыми, а вот при выборе сложного графического режима визуализации динамики загрузки данных даже с тысячами точек любые неравномерно сти сразу бросаются в глаза и вызывают желание их проанализировать.

Инфографика (как теперь принято называть эффектные стилизованные наглядные графиче скиепредставленияданных)такжеможетбытьсделанаинтерактивнойдлябольшейдоходчивости.

656	Г Л А В А 14

<<< < Предыдущая 112 113 114 115 116 117 118 119 120 121 122 123124 / 162124 125 126 127 128 129 130 131 132 133 134 135 136 > Следующая >>>

Соседние файлы в папке книги хакеры

#
19.04.20241.11 Mб14Anonymous.pdf
#
19.04.202434.25 Mб16Babin_-_Laboratoria_khakera.pdf
#
19.04.202419.84 Mб20cennost-vashih-dannyh.pdf
#
19.04.20242.64 Mб15Chat GPT и Революция ИИ.pdf
#
19.04.202413.88 Mб18DAMA_DMBOK_Свод_знаний_по_управлению_данными.pdf
#
19.04.202444.03 Mб19darkbook.pdf
#
19.04.20241.78 Mб18dark_side_of_internet.pdf
#
19.04.2024758.51 Кб14DDOS.pdf
#
19.04.20249.61 Mб21How to AI ChatGPT и Midjourney.pdf
#
19.04.202442.8 Mб17Iskusstvo_legalnogo_anonimnogo_i_bezopasnogo_dostupa_k_resursam.pdf