Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Нижегородский Государственный Архитектурно-Строительный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

9068

.pdf

Скачиваний:

Добавлен:

25.11.2023

Размер:

2.21 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 126 7 8 9 10 11 12 > Следующая >>>

Пример. Выполним 3 цикла прямого и обратного прохода ИНС, используя ал-

горитм обратного распространения ошибок для входного образца (0,1; 0,9) и целево-

го выходного значения 0,9 в предположении, что сеть имеет архитектуру 2 – 3 – 1 c

весовыми коэффициентами:
для первого слоя:									для второго слоя:
	0,1		0,1						0,2
	0,2		0,1						0,2

			0,3
	0,1		0,3							0,3

Параметры обучения: 1							и 0,1.
Cделать вывод: уменьшается ли ошибка Е?
Решение.
							1-я итерация:
						n		1
Прямой проход:				S		х w , f (s)
Прямой проход:				S		х w , f (s)
					j	i 1 i	ij	1 e as
S3=		0,1			y(S3)=		0,524977		E=		0,047575
S4=		-0,11			y(S4)=		0,472531
S5=		0,28			y(S5)=		0,569539
S6=		0,370363			y(S6)=		0,591537

Обратный проход:

6=	0,074531	∆w36=	0,003913	wнов36=	0,203913
3=	0,003717	∆w46=	0,003522	wнов46=	0,203522
4=	0,003715	∆w56=	0,004245	wнов56=	0,304245
5=	0,005482	∆w13=	0,000037	wнов13=	0,100037
		∆w14=	0,000037	wнов14=	–0,19996
		∆w15=	0,000055	wнов15=	0,100055
		∆w23=	0,000335	wнов23=	0,100335
		∆w24=	0,000334	wнов24=	–0,09967
		∆w25=	0,000493	wнов25=	0,300493
			51

			2-я итерация:
Прямой проход:

S3=	0,100309	y(S3)=	0,525054	E=	0,047114
S4=	–0,10969	y(S4)=	0,472607
S5=	0,280453	y(S5)=	0,56965
S6=	0,376564	y(S6)=	0,593035

Обратный проход:

6=	0,074084	∆w36=	0,00389	wнов36=	0,207803
3=	0,003767	∆w46=	0,003501	wнов46=	0,207023
4=	0,003758	∆w56=	0,00422	wнов56=	0,308465
5=	0,005526	∆w13=	0,000038	wнов13=	0,100075
		∆w14=	0,000038	wнов14=	–0,19992
		∆w15=	0,000055	wнов15=	0,100111
		∆w23=	0,000339	wнов23=	0,100678
		∆w24=	0,000338	wнов24=	–0,09932
		∆w25=	0,000497	wнов25=	0,300995

			3-я итерация:
Прямой проход:

S3=	0,100622	y(S3)=	0,525132	E=	0,046658
S4=	–0,10938	y(S4)=	0,472685
S5=	0,28091	y(S5)=	0,569762
S6=	0,382732	y(S6)=	0,594522

Обратный проход:

6=	0,07364	∆w36=	0,003867	wнов36=	0,21167
3=	0,003816	∆w46=	0,003481	wнов46=	0,210504
4=	0,0038	∆w56=	0,004196	wнов56=	0,312661
5=	0,005568	∆w13=	0,000038	wнов13=	0,100114
		∆w14=	0,000038	wнов14=	–0,19989
		∆w15=	0,000056	wнов15=	0,100167
		∆w23=	0,000343	wнов23=	0,101026
		∆w24=	0,000342	wнов24=	–0,09898
		∆w25=	0,000501	wнов25=	0,3015

Вывод: с каждой итерацией ошибка уменьшается

2.4 Контрольные вопросы

Контрольные вопросы к разделу 1.

1.Области применения методов машинного обучения.

2.Характерные особенности и Data Mining (DM):

3.Knowledge Discovery in Databases (KDD).

4.Причины распространения KDD и Data Mining.

5.Как вы понимаете термин «качество данных»?

6.Почему оценке качества данных уделяют большое внимание на всех этапах подготовки данных к анализу?

7.Каковы основные цели оценки качества данных?

8.Какие выводы о качестве данных могут быть сделаны по результатам его оценки?

9.Какие аспекты качества данных можно оценить с помощью профайлинга?

10.Какие приемы можно использовать для визуальной оценки качества данных с помощью таблиц?

11.Какие проблемы в данных можно выявить с помощью графиков и диаграмм?

12.Зачем необходимо выполнять очистку данных?

13.Что включает в себя трансформация данных?

14.В чем отличие трансформации данных от предобработки и очистки?

15.Что понимается в данных под пропущенным значением?

16.Почему пропущенные значения в анализируемых данных необходимо восста-

навливать?

Контрольные вопросы к разделу 2.

1.Каковы цели и задачи визуализации данных в аналитических технологиях?

2.Для чего используется визуализация источников данных?

3.Зачем нужен визуальный контроль данных, после их загрузки в аналитическое приложение?

4.Чем отличаются средства визуализации общего назначения от специализиро-

ванных?

5.Какие средства визуализации данных относят к визуализаторам общего назна-

чения и почему?

6.В чем отличие графика от диаграммы? Какие виды диаграмм вам известны?

7.По какому принципу строится гистограмма, и какую информацию о поведе-

нии исследуемой величины из нее можно извлечь?

8.Для каких целей служит визуализатор Статистика?

9.Почему визуализация многомерных данных может оказаться проблематичной c точки зрения пользователя?

10.В чем заключается OLAP-анализ и каковы его цели?

11.Какова структура OLAP-куба?

12.Какие манипуляции с измерениями можно производить, чтобы сделать пред-

ставление куба более информативным?

13.В чем заключаются операции транспонирования и детализации, каковы их це-

ли?

14.Что такое кросс-диаграмма, и для каких целей она используется?

Контрольные вопросы к разделу 3.

1.Дайте определения KDD и Data Mining.

2.Дайте определения задачам Data Mining (классификация, регрессия, кластери-

зация, ассоциативные правила).

3.Какие существуют алгоритмы Data Mining.

4.Способы машинного обучения: обучение с учителем и без учителя. Методы формирования тестовой и обучающей выборки.

5.В чем суть модели Дерево решений.

6.Алгоритмы построения деревьев решений.

7.Описание алгоритмов ID3 и С4.5. Их достоинства и недостатки.

8.Каким свойством деревьев решений обусловлена их высокая объясняющая способность.

9.Критерии оптимизации деревьев решений (упрощение деревьев решений)

Контрольные вопросы к разделу 4.

1.Что такое ассоциация?

2.Что представляет собой транзакция в теории ассоциативных правил?

3.Как определяются поддержка и достоверность, и какова их роль в процессе поиска ассоциативных правил?

4.Чем определяется значимость и полезность ассоциативных правил, и какими показателями она характеризуется?

5.Почему стратегия поиска ассоциативных правил путем проверки поддержки и достоверности всех возможных ассоциаций, полученных на основе набора транзакций, неэффективна?

6.Чем определяется частота предметного набора, и какие предметные наборы называются популярными (или частыми)?

7.Какую роль играют популярные наборы в процессе поиска ассоциативных правил с помощью алгоритма a priori?

8.Какое свойство предметных наборов лежит в основе алгоритма a priori?

9.Как образуется иерархия предметов в процессе поиска ассоциативных правил?

Приведите примеры.

10.Каковы преимущества и недостатки поиска ассоциативных правил при рас-

смотрении иерархии предметов?

11.На каких иерархических уровнях чаще встречаются предметы, ассоциации между которыми имеют большую поддержку?

12.Почему, если объект встречается редко на верхних уровнях иерархии, анали-

зировать ассоциации с его потомками на нижних уровнях не имеет смысла?

13.Для каких целей применяют понижение порога минимальной поддержки для нижних уровней иерархии?

Контрольные вопросы к разделу 5.

1.Что представляет искусственная нейронная сеть?

2.Дайте определение искусственного нейрона.

3.Какая операция выполняется в теле нейрона над сигналами, поступающими по входным связям?

4.Перечислите и поясните применяемые виды активационных функций.

5.В чем заключается процесс обучения нейронной сети?

6.Что называют многослойным персептроном?

7.Какое основное отличие искусственных нейронов, которые используются для построения нейронных сетей, получивших название персептронов?

8.К какому типу алгоритмов обучения относится алгоритм обратного рас-

пространения, и в чем отличительная черта этих алгоритмов.

9.Для каких целей используется визуализация выходной ошибки модели в

процессе обучения?

10.Почему в процессе анализа данных требуется контроль качества использу-

емых аналитических моделей?

11.Для каких моделей используются таблица сопряженности и диаграмма рас-

сеяния и как с их помощью оценить точность модели?

3. Методические указания по подготовке к практическим занятиям

3.1Общие рекомендации по подготовке к практическим занятиям

Входе подготовки к практическим занятиям необходимо изучать основную ли-

тературу, познакомиться с дополнительной литературой. При этом необходимо учесть рекомендации преподавателя и требования учебной программы.

В соответствии с этими рекомендациями и подготовкой полезно дорабатывать свои конспекты лекции, делая в нем соответствующие записи из литературы, реко-

мендованной преподавателем и предусмотренной учебной программой. Целесооб-

разно также подготовить тезисы для возможных выступлений по всем учебным во-

просам, выносимым на практическое занятие.

При подготовке к занятиям можно также подготовить краткие конспекты по вопросам темы. Очень эффективным приемом является составление схем и презен-

таций.

Готовясь к докладу или реферативному сообщению, желательно обращаться за методической помощью к преподавателю. Составить план-конспект своего выступ-

ления. Продумать примеры с целью обеспечения тесной связи изучаемой теории с реальной жизнью. Своевременное и качественное выполнение самостоятельной ра-

боты базируется на соблюдении настоящих рекомендаций и изучении рекомендо-

ванной литературы.

3.2 Примеры задач для практических занятий

Задание для раздела 1.

Рассмотрим проведение аудита данных из текстового файла сотовые оперето-

ры.txt и готовый сценарий audit.ded. В этом файле представлена статистика опроса клиентов телекоммуникационных компаний, полученная в ходе исследования воз-

можности смены одного сотового оператора другим в зависимости от оценки крите-

риев предлагаемых ими услуг. Фрагмент множества данных файла сотовые опере-

торы.txt представлен в таблице.

Таблица. Фрагмент набора данных сотовые операторы.txt

Пол

ВУЗ

Место жительства

сотовые операторы

сколько лет клиент

кол-во звонков в день

кол-во мин в день

Сумма оплаты в месяц (в руб.)

пользуюсь SMS

оценка критерия стоимость

оценка критерия качество связи)

возможна смена оператора

ННГУ

обл.

МТС

более 3

более

300

да

нет

лет

ННГУ

НН

Билайн

более 3

6-10

10-30

200

нет

да

лет

ННГАСУ

НН

Теле2

более 3

более

10-30

350

да

нет

лет

ННГУ

НН

Билайн

1-3 го-

6-10

10-30

200

нет

да

НГТУ

НН

НСС

до 1

1-5

10-30

600

да

нет

года

НГГУ

обл.

Билайн

до года

6-10

до 10

300

да

нет

ННГУ

НН

МТС

более

10-30

100

да

ННГАСУ

НН

МТС

1-3 го-

6-10

10-30

200

да

нет

да

ННГУ

обл.

Теле2

1-3 го-

более

300

да

нет

да

При проведении аудита нужно ответить на следующие вопросы:

есть ли в данных дубликаты, противоречия, пропуски, аномалии?

какова доля неполных и некорректных записей в общем объеме?

какие поля представляют интерес для анализа?

интегральная оценка качества данных.

Шаг 1 – изучение статистики

Рис. 21. Статистика по набору данных сотовые опереторы.txt

В двух столбцах (рис. 21) присутствуют пропущенные значения. Это значит,

что необходимой операцией будет работа с пропусками.

Шаг 2 – дубликаты и противоречия

Противоречивыми являются группы записей, в которых содержатся строки с одинаковыми входными факторами, но разными выходными. В такой ситуации не-

понятно, какое результирующее значение верно. Противоречивые данные исключа-

ются.

Дубликаты – это записи с одинаковыми входными и выходными данными.

Такие данные приводят к избыточности, поэтому дублирующая информация исклю-

чается.

Для автоматизации процесса поиска дубликатов и противоречий предназначен специальный обработчик Дубликаты и противоречия. Он находится в группе уз-

лов Очистка данных мастера обработки.

Настройка параметров обработчика заключается в указании назначения полей.

Суть обработки состоит в том, что определяются входные и выходные поля. Алго-

ритм ищет во всем наборе записи, для которых одинаковым входным полям соот-

ветствуют одинаковые (дубликаты) или разные (противоречия) выходные поля. На основании этой информации создаются два дополнительных логических поля – Дуб-

ликат и Противоречие, принимающие значения истина или ложь, и дополнитель-

ные числовые поля Группа дубликатов и Группа противоречий, в которые записы-

ваются номер группы дубликатов и группы противоречий, содержащих данную за-

пись. Если запись не является дубликатом или противоречием, то соответствующие поля будут пустыми (null).

В нашем случае целесообразно искать дубликаты в записях со всеми столбца-

ми. Это будут входы (рис. 22). Противоречия разумнее искать по выходному полю

Возможна смена оператора, т.е. если встретятся два полностью одинаковых по ха-

рактеристикам телефонных звонков клиента, а поле Возможна смена оператора у

них будет различаться, то это сигнал о вероятной ошибке в данных.

Рис. 22. Назначения полей в обработчике Дубликаты и противоречия При использовании обработчика Дубликаты и противоречия возможно

отображение результатов обработки с помощью одноименного визуализатора Дуб-

ликаты и противоречия (рис. 23).

Рис. 23. Визуализатор «Дубликаты и противоречия» В нашем случае было найдено 27 противоречий и 22 группы дубликатов с об-

щим числом 46 записей. Примем решение удалить противоречия, а от каждой груп-

пы дубликатов оставить одну запись.

Наиболее простой способ сделать это состоит в следующем.

<<< < Предыдущая 1 2 3 4 56 / 126 7 8 9 10 11 12 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
25.11.20232.2 Mб09063.pdf
#
25.11.20232.2 Mб09064.pdf
#
25.11.20232.2 Mб09065.pdf
#
25.11.20232.21 Mб09066.pdf
#
25.11.20232.21 Mб39067.pdf
#
25.11.20232.21 Mб19068.pdf
#
25.11.20232.21 Mб19069.pdf
#
21.11.2023161.26 Кб0907.pdf
#
25.11.20232.21 Mб09070.pdf
#
25.11.20232.21 Mб09071.pdf
#
25.11.20232.21 Mб09072.pdf