8860
.pdfМинистерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования
«Нижегородский государственный архитектурно-строительный университет»
Прокопенко Н.Ю.
АНАЛИЗ ДАННЫХ
Учебно-методическое пособие по подготовке к лекциям, практическим занятиям
(включая рекомендации по организации самостоятельной работы)
для обучающихся по дисциплине «Анализ данных» по направлению подготовки 09.03.04 Программная инженерия
профиль 09.03.04 Разработка программно-информационных систем
Нижний Новгород
2018
УДК
Прокопенко Н.Ю. / Анализ данных [Электронный ресурс]: учеб.-метод. пос. / Н.Ю. Прокопенко; Нижегор. гос. архитектур. - строит. ун-т – Н. Новгород: ННГАСУ, 2018. – 101 с.– 1 электрон. опт. диск (CD-RW).
В настоящем учебно-методическом пособии по дисциплине «Анализ данных» даются конкретные рекомендации учащимся для освоения как основного, так и дополнительного материала дисциплины и тем самым способствующие достижению целей, обозначенных в учебной программе дисциплины. Цель учебно-методического пособия – это помощь в усвоении лекций и в подготовке к практическим занятиям.
Учебно-методическое пособие предназначено для обучающихся в ННГАСУ по дисциплине «Анализ данных» по направлению подготовки 09.03.04 Программная инженерия, профиль 09.03.04 Разработка программноинформационных систем.
Учебно-методическое пособие ориентировано на обучение в соответствии с календарным учебным графиком и учебным планом по основной профессиональной образовательной программе направления 09.03.04 Программная инженерия, профиль 09.03.04 Разработка программно-информационных систем, утверждённым решением учёного совета ННГАСУ от 02.03.2018 г. (протокол № 3).
© Н.Ю. Прокопенко, 2018 © ННГАСУ, 2018
2
Оглавление
1.Общие положения……………………………………………………………..…4
1.1Цели изучения дисциплины и результаты обучения………………….…..4
1.2Содержание дисциплины……………………………………………………4
1.3Порядок освоения материала……………………………………………..…5
2.Методические указания по подготовке к лекциям…………………………..…6
2.1Общие рекомендации по работе на лекциях………………………………..6
2.2Общие рекомендации при работе с конспектом лекций…………………...6
2.3Краткое содержание лекций…………………………………………………7
2.3.1. Раздел 1. Предмет и методы статистического анализа данных..……….7 2.3.2. Раздел 2. Предмет и методы интеллектуального анализа данных………
Предварительный разведочный анализ данных ……………………………...17
2.3.3. Раздел 3. Применение современных методов обработки данных ……...
для решения прикладных задач ……………….……………………………….35
2.4Контрольные вопросы………………………………………………………38
3.Методические указания по подготовке к практическим занятиям…………..41
3.1Общие рекомендации по подготовке к практическим занятиям…………41
3.2Примеры задач для практических занятий…………………………...……78
4.Методические указания по организации самостоятельной работы……….....81
4.1Общие рекомендации для самостоятельной работы………………………81
4.2Темы для самостоятельного изучения……………………………………...81
4.3.Темы расчетно-графических работ………………………………………...82
4.4.Учебно-методическое обеспечение самостоятельной работы…………...82
4.5Задания для самостоятельной работы……………………...……………....83
3
1. Общие положения
1.1 Цели изучения дисциплины и результаты обучения
Основными целями освоения учебной дисциплины «Анализ данных» яв-
ляются формирование теоретических и практических компетенций в области целостного представления, понимания места и роли, а также применения мето-
дов статистического и интеллектуального анализа данных, а также обучение студентов современным программным средствам, в которых реализованы мо-
дули, осуществляющие решение задач анализа данных.
В процессе освоения дисциплины студент должен Знать:
системный подход к решению задач обработки и анализа данных, основ-
ные понятия и определения статистики и эконометрики, информационные си-
стемы и пакеты статистических программ, их возможности для решения при-
кладных управленческих и бизнесзадач.
Уметь:
выполнять оценку пригодности данных для анализа, профайлинг данных,
самостоятельно провести необходимую работу с данными, определить тип за-
дачи (классификация, кластеризация, прогнозирование, поиск зависимостей и т.п.), решить ее адекватно выбранным методом.
Владеть:
практическими приёмами и методами реализации различных стратегий об-
работки данных и объяснения полученных результатов, навыками работы с конкретной АП Deductor.
1.2 Содержание дисциплины
Материал дисциплины сгруппирован по следующим разделам:
1. Предмет и методы статистического анализа данных.
Сферы применения анализа данных. Этапы анализа данных. Методы ста-
тистической обработки данных. Подготовка данных для анализа. Методы полу-
4
чения выборок. Группировка данных. Ряды распределения. Использование группировок и классификаций в практике статистики. Анализ группировок.
Показатели описательной статистики. Причинно-следственные отношения со-
циально-экономических явлений. Основные этапы статистического изучения взаимосвязи и взаимозависимости. Признак определения связи явлений, виды связей: прямые и обратные, прямолинейные и криволинейные, однофакторные и многофакторные, функциональные и корреляционные. Задачи и предпосылки применения корреляционно-регрессивного анализа. Основные условия исполь-
зования и порядок. Оценка существенности связи по коэффициентам. Понятие и классификация рядов динамики. Виды динамических рядов.
2. Предмет и методы интеллектуального анализа данных. Предварительный разведочный анализ данных.
Подготовка данных для анализа: выявление пропусков, дубликатов, противо-
речий, аномалий; восстановление пропущенных значений; редактирование аномальных значений; представление их в виде, пригодном для дальнейшего анализа.
Многомерное представление данных On-line Analytical Processing (OLAP).
Визуализация данных и манипуляция с данными на основе графического изоб-
ражения (диаграммы, гистограммы, OLAP-кубы).
Основы анализа многомерных данных. Классификация. Базовые сведения.
Постановка задачи. Типы классов. Проверка гипотез. Обучение и проверка.
Классификация «с учителем». Классификация «без учителя». Основы логисти-
ческой регрессии. Интерпретация логистической регрессии. Простой байесов-
ский классификатор.
Анализ и прогнозирование временных рядов. Цели и задачи анализа вре-
менных рядов. Модели временных рядов. Анализ и прогнозирование времен-
ных рядов и автоматизация процедуры получения прогноза по временным ря-
дам.
3. Применение современных методов обработки данных для решения при-
5
кладных задач.
Роль и место анализа в процессе принятия решения. Решение бизнес задач из области анализа обеспечения ресурсами, из области логистики.
Виды ансамблей моделей. Методы комбинирования результатов. Алгорит-
мы формирования моделей. Оценка эффективности и сравнение моделей. По-
строение ансамблей моделей в АП Deductor. Процедуры бэггинга и бустинга.
Оценка эффективности и сравнение моделей.
1.3 Порядок освоения материала
Материал дисциплины изучается в соответствии с порядком, определён-
ным в следующей таблице: Таблица 1
Порядок освоения дисциплины
№ |
Раздел дисциплины |
№№ предшествую- |
|
|
щих разделов |
|
|
|
1 |
Предмет и методы статистического анализа дан- |
- |
|
ных. |
|
|
|
|
2 |
Предмет и методы интеллектуального анализа |
1 |
|
данных. Предварительный разведочный анализ |
|
|
данных. |
|
|
|
|
3 |
Применение современных методов обработки дан- |
1,2 |
|
ных для решения прикладных задач. |
|
|
|
|
2. Методические указания по подготовке к лекциям
2.1 Общие рекомендации по работе на лекциях
Лекция является главным звеном дидактического цикла обучения. Ее цель
– формирование основы для последующего усвоения учебного материала. В
ходе лекции преподаватель в устной форме, а также с помощью презентаций передает обучаемым знания по основным, фундаментальным вопросам изучае-
мой дисциплины.
Назначение лекции состоит в том, чтобы доходчиво изложить основные положения изучаемой дисциплины, ориентировать на наиболее важные вопро-
сы учебной дисциплины и оказать помощь в овладении необходимых знаний и
6
применения их на практике.
Личное общение на лекции преподавателя со студентами предоставляет большие возможности для реализации образовательных и воспитательных це-
лей.
При подготовке к лекционным занятиям студенты должны ознакомиться с презентаций, предлагаемой преподавателем, отметить непонятные термины и положения, подготовить вопросы с целью уточнения правильности понимания.
Рекомендуется приходить на лекцию подготовленным, так как в этом случае лекция может быть проведена в интерактивном режиме, что способствует по-
вышению эффективности лекционных занятий.
2.2Общие рекомендации при работе с конспектом лекций
Входе лекционных занятий необходимо вести конспектирование учебного материала. Конспект помогает внимательно слушать, лучше запоминать в про-
цессе осмысленного записывания, обеспечивает наличие опорных материалов при подготовке к семинару, зачету, экзамену.
Полезно оставить в рабочих конспектах поля, на которых делать пометки из рекомендованной литературы, дополняющие материал прослушанной лек-
ции, а также подчеркивающие особую важность тех или иных теоретических положений.
В случае неясности по тем или иным вопросам необходимо задавать пре-
подавателю уточняющие вопросы. Следует ясно понимать, что отсутствие во-
просов без обсуждения означает в большинстве случаев неусвоенность матери-
ала дисциплины.
2.3 Краткое содержание лекций.
2.3.1. Предмет и методы статистического анализа данных
Проведение анализа данных связано с изучением свойств различных со-
вокупностей однотипных объектов (людей, предприятий, товаров и т.п.). При
7
этом каждый объект, входящий в состав совокупности, характеризуется неко-
торым числом – величиной изучаемого признака X. Для обозначения таких со-
вокупностей вводится понятие генеральной совокупности.
Под генеральной совокупностью понимается вся совокупность однотип-
ных объектов, которые изучаются в данном исследовании.
Пример генеральной совокупности – данные о доходах всех жителей ка-
кой-либо страны; о результатах голосования населения по какому-либо вопросу и т.д.
Однако на практике в большинстве случаев мы имеем дело только с ча-
стью возможных наблюдений, взятых из генеральной совокупности.
Выборка (выборочная совокупность) – это совокупность случайно ото-
бранных объектов, составляющих лишь часть генеральной совокупности.
Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности.
В зависимости от способов отбора объектов из генеральной совокупности различают несколько типов выборок. Их типы, определения, свойства, примеры использования рекомендуется изучить самостоятельно.
Пусть из генеральной совокупности извлечена выборка, причем х1
k |
|
наблюдалось n1 раз, x2 – n2 раз,..., хk – nk раз и ni |
n – объем выборки. |
i 1 |
|
Наблюдаемые значения хi называют вариантами, а последовательность вариант,
записанных в возрастающем порядке – вариационным рядом. Числа наблюде-
ний (ni) называют частотами, а их отношения к объему выборки nni wi – отно-
сительными частотами.
Статистическим распределением выборки называют перечень вариант xi
и соответствующих им частот ni или относительных частот wi (причем сумма всех частот равна объему выборки, а сумма всех относительных частот равна
1).
8
xi |
|
x1 |
|
x2 |
|
…. |
|
xk |
ni |
|
n1 |
|
n2 |
|
…. |
|
nk |
|
|
|
|
или |
|
|
|
|
|
|
|
|
|
|
|
|
|
xi |
|
x1 |
|
x2 |
|
…. |
|
xk |
|
|
|
|
|||||
wi |
|
w1 |
|
w2 |
|
…. |
|
wk |
|
|
|
|
|
|
|
|
|
Вариационный ряд, заданный в таком виде, называют дискретным. Геометри-
ческой характеристикой дискретного вариационного ряда является полигон ча-
стот.
Полигоном частот называют ломаную, отрезки которой соединяют точки
(х1,n1), (х2,n2), …, (хk,nk), где хi – варианты выборки, а ni – соответствующие им частоты.
Статистическое распределение можно задать также в виде последова-
тельности интервалов и соответствующих им частот. Для непрерывно распре-
деленного признака весь интервал, в котором заключены все наблюдаемые зна-
чения признака, разбивают на ряд частичных интервалов длины h и находят ni –
сумму частот вариант попавших в i-й интервал. Такое распределение называют
интервальным вариационным рядом.
Геометрической характеристикой интервального вариационного ряда яв-
ляется гистограмма частот.
Гистограммой частот называется ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длины h,
а высоты равны отношению nhi .
Статистические оценки параметров распределения
Пусть требуется изучить количественный признак генеральной совокуп-
ности. Располагая лишь выборочными значениями признака, можно оценить, а
не определить точно, значения параметров; эти оценки будут случайными и меняться от выборки к выборке. Поэтому важно не только знать оценки пара-
метров, определенные на основе выборочных данных, но и понимать меры их надежности.
9
Цель любого оценивания – получить как можно более точное значение неизвестной характеристики генеральной совокупности по данным выборочно-
го наблюдения.
Статистической оценкой неизвестного параметра теоретического рас-
пределения называют функцию от наблюдаемых случайных величин.
В зависимости от способа выражения оценки делятся на точечные оцен-
ки, выражаемые одним числом, и интервальные оценки, определяющие число-
вой интервал, внутри которого может находиться оцениваемый параметр гене-
ральной совокупности.
Генеральная совокупность характеризуется двумя сторонами:
1) видом распределения (например, равномерное, нормальное, Пуассонов-
ское и т.д.); 2) параметрами распределения (например, математическое ожидание, среднее квадратическое отклонение и т.п.).
Всвязи с этим существует два класса оценок: оценки вида распределения
иоценки параметров распределения.
Оценка * должна быть несмещенной, эффективной, состоятельной.
Определения несмещенной, эффективной, состоятельной оценок рекомендуется
изучить самостоятельно.
Несмещенной, состоятельной и эффективной оценкой генеральной сред-
ней (математического ожидания признака X генеральной совокупности) явля-
|
|
|
|
|
|
|
|
ется выборочная средняя хв |
– среднее арифметическое значений признака в |
||||||
выборке: |
|
|
|
||||
|
|
|
x1 x2 |
xк |
|
|
|
|
xв |
, |
(1) |
||||
|
|
n |
|||||
|
|
|
|
|
|
|
где n – объем выборки, xi – значение признака в выборке. Если результаты вы-
борки представлены в виде дискретного распределения:
xi |
x1 |
x2 |
…. |
xk |
ni |
n1 |
n2 |
…. |
nk |
|
|
|
|
|
то
10