Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9068

.pdf
Скачиваний:
1
Добавлен:
25.11.2023
Размер:
2.21 Mб
Скачать

Пример. Выполним 3 цикла прямого и обратного прохода ИНС, используя ал-

горитм обратного распространения ошибок для входного образца (0,1; 0,9) и целево-

го выходного значения 0,9 в предположении, что сеть имеет архитектуру 2 – 3 – 1 c

весовыми коэффициентами:

 

 

 

 

 

для первого слоя:

 

 

 

для второго слоя:

 

0,1

0,1

 

 

 

 

 

 

 

 

0,2

 

0,2

0,1

 

 

 

 

 

 

 

 

0,2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,3

 

 

 

 

 

 

 

 

0,1

 

 

 

 

 

 

 

 

 

0,3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Параметры обучения: 1

и 0,1.

 

 

 

 

 

Cделать вывод: уменьшается ли ошибка Е?

 

 

 

Решение.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1-я итерация:

 

 

 

 

 

 

 

 

 

 

n

 

 

1

 

 

 

 

Прямой проход:

S

 

х w , f (s)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

i 1 i

ij

1 e as

 

 

 

S3=

 

0,1

 

 

 

y(S3)=

 

0,524977

 

 

E=

 

0,047575

 

S4=

 

-0,11

 

 

y(S4)=

 

0,472531

 

 

 

 

 

 

S5=

 

0,28

 

 

y(S5)=

 

0,569539

 

 

 

 

 

 

S6=

 

0,370363

 

 

y(S6)=

 

0,591537

 

 

 

 

 

 

Обратный проход:

 

 

 

 

 

 

 

 

 

 

 

 

 

6=

0,074531

 

w36=

0,003913

 

wнов36=

0,203913

3=

0,003717

 

w46=

0,003522

 

wнов46=

0,203522

4=

0,003715

 

w56=

0,004245

 

wнов56=

0,304245

5=

0,005482

 

w13=

0,000037

 

wнов13=

0,100037

 

 

 

w14=

0,000037

 

wнов14=

–0,19996

 

 

 

w15=

0,000055

 

wнов15=

0,100055

 

 

 

w23=

0,000335

 

wнов23=

0,100335

 

 

 

w24=

0,000334

 

wнов24=

–0,09967

 

 

 

w25=

0,000493

 

wнов25=

0,300493

 

 

 

 

51

 

 

 

 

 

 

2-я итерация:

 

 

Прямой проход:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S3=

0,100309

y(S3)=

0,525054

 

 

E=

0,047114

S4=

–0,10969

y(S4)=

0,472607

 

 

 

 

S5=

0,280453

y(S5)=

0,56965

 

 

 

 

S6=

0,376564

y(S6)=

0,593035

 

 

 

 

Обратный проход:

 

 

 

 

 

 

 

 

 

 

 

 

 

6=

0,074084

 

w36=

0,00389

 

wнов36=

0,207803

3=

0,003767

 

w46=

0,003501

 

wнов46=

0,207023

4=

0,003758

 

w56=

0,00422

 

wнов56=

0,308465

5=

0,005526

 

w13=

0,000038

 

wнов13=

0,100075

 

 

 

w14=

0,000038

 

wнов14=

–0,19992

 

 

 

w15=

0,000055

 

wнов15=

0,100111

 

 

 

w23=

0,000339

 

wнов23=

0,100678

 

 

 

w24=

0,000338

 

wнов24=

–0,09932

 

 

 

w25=

0,000497

 

wнов25=

0,300995

 

 

 

3-я итерация:

 

Прямой проход:

 

 

 

 

 

 

 

 

 

 

 

 

S3=

0,100622

y(S3)=

0,525132

 

E=

0,046658

S4=

–0,10938

y(S4)=

0,472685

 

 

 

S5=

0,28091

y(S5)=

0,569762

 

 

 

S6=

0,382732

y(S6)=

0,594522

 

 

 

Обратный проход:

 

 

 

 

 

 

 

 

 

 

 

 

 

6=

0,07364

 

w36=

0,003867

 

wнов36=

0,21167

3=

0,003816

 

w46=

0,003481

 

wнов46=

0,210504

4=

0,0038

 

w56=

0,004196

 

wнов56=

0,312661

5=

0,005568

 

w13=

0,000038

 

wнов13=

0,100114

 

 

 

w14=

0,000038

 

wнов14=

–0,19989

 

 

 

w15=

0,000056

 

wнов15=

0,100167

 

 

 

w23=

0,000343

 

wнов23=

0,101026

 

 

 

w24=

0,000342

 

wнов24=

–0,09898

 

 

 

w25=

0,000501

 

wнов25=

0,3015

Вывод: с каждой итерацией ошибка уменьшается

52

2.4 Контрольные вопросы

Контрольные вопросы к разделу 1.

1.Области применения методов машинного обучения.

2.Характерные особенности и Data Mining (DM):

3.Knowledge Discovery in Databases (KDD).

4.Причины распространения KDD и Data Mining.

5.Как вы понимаете термин «качество данных»?

6.Почему оценке качества данных уделяют большое внимание на всех этапах подготовки данных к анализу?

7.Каковы основные цели оценки качества данных?

8.Какие выводы о качестве данных могут быть сделаны по результатам его оценки?

9.Какие аспекты качества данных можно оценить с помощью профайлинга?

10.Какие приемы можно использовать для визуальной оценки качества данных с помощью таблиц?

11.Какие проблемы в данных можно выявить с помощью графиков и диаграмм?

12.Зачем необходимо выполнять очистку данных?

13.Что включает в себя трансформация данных?

14.В чем отличие трансформации данных от предобработки и очистки?

15.Что понимается в данных под пропущенным значением?

16.Почему пропущенные значения в анализируемых данных необходимо восста-

навливать?

Контрольные вопросы к разделу 2.

1.Каковы цели и задачи визуализации данных в аналитических технологиях?

2.Для чего используется визуализация источников данных?

3.Зачем нужен визуальный контроль данных, после их загрузки в аналитическое приложение?

4.Чем отличаются средства визуализации общего назначения от специализиро-

ванных?

53

5.Какие средства визуализации данных относят к визуализаторам общего назна-

чения и почему?

6.В чем отличие графика от диаграммы? Какие виды диаграмм вам известны?

7.По какому принципу строится гистограмма, и какую информацию о поведе-

нии исследуемой величины из нее можно извлечь?

8.Для каких целей служит визуализатор Статистика?

9.Почему визуализация многомерных данных может оказаться проблематичной c точки зрения пользователя?

10.В чем заключается OLAP-анализ и каковы его цели?

11.Какова структура OLAP-куба?

12.Какие манипуляции с измерениями можно производить, чтобы сделать пред-

ставление куба более информативным?

13.В чем заключаются операции транспонирования и детализации, каковы их це-

ли?

14.Что такое кросс-диаграмма, и для каких целей она используется?

Контрольные вопросы к разделу 3.

1.Дайте определения KDD и Data Mining.

2.Дайте определения задачам Data Mining (классификация, регрессия, кластери-

зация, ассоциативные правила).

3.Какие существуют алгоритмы Data Mining.

4.Способы машинного обучения: обучение с учителем и без учителя. Методы формирования тестовой и обучающей выборки.

5.В чем суть модели Дерево решений.

6.Алгоритмы построения деревьев решений.

7.Описание алгоритмов ID3 и С4.5. Их достоинства и недостатки.

8.Каким свойством деревьев решений обусловлена их высокая объясняющая способность.

9.Критерии оптимизации деревьев решений (упрощение деревьев решений)

Контрольные вопросы к разделу 4.

54

1.Что такое ассоциация?

2.Что представляет собой транзакция в теории ассоциативных правил?

3.Как определяются поддержка и достоверность, и какова их роль в процессе поиска ассоциативных правил?

4.Чем определяется значимость и полезность ассоциативных правил, и какими показателями она характеризуется?

5.Почему стратегия поиска ассоциативных правил путем проверки поддержки и достоверности всех возможных ассоциаций, полученных на основе набора транзакций, неэффективна?

6.Чем определяется частота предметного набора, и какие предметные наборы называются популярными (или частыми)?

7.Какую роль играют популярные наборы в процессе поиска ассоциативных правил с помощью алгоритма a priori?

8.Какое свойство предметных наборов лежит в основе алгоритма a priori?

9.Как образуется иерархия предметов в процессе поиска ассоциативных правил?

Приведите примеры.

10.Каковы преимущества и недостатки поиска ассоциативных правил при рас-

смотрении иерархии предметов?

11.На каких иерархических уровнях чаще встречаются предметы, ассоциации между которыми имеют большую поддержку?

12.Почему, если объект встречается редко на верхних уровнях иерархии, анали-

зировать ассоциации с его потомками на нижних уровнях не имеет смысла?

13.Для каких целей применяют понижение порога минимальной поддержки для нижних уровней иерархии?

Контрольные вопросы к разделу 5.

1.Что представляет искусственная нейронная сеть?

2.Дайте определение искусственного нейрона.

3.Какая операция выполняется в теле нейрона над сигналами, поступающими по входным связям?

55

4.Перечислите и поясните применяемые виды активационных функций.

5.В чем заключается процесс обучения нейронной сети?

6.Что называют многослойным персептроном?

7.Какое основное отличие искусственных нейронов, которые используются для построения нейронных сетей, получивших название персептронов?

8.К какому типу алгоритмов обучения относится алгоритм обратного рас-

пространения, и в чем отличительная черта этих алгоритмов.

9.Для каких целей используется визуализация выходной ошибки модели в

процессе обучения?

10.Почему в процессе анализа данных требуется контроль качества использу-

емых аналитических моделей?

11.Для каких моделей используются таблица сопряженности и диаграмма рас-

сеяния и как с их помощью оценить точность модели?

56

3. Методические указания по подготовке к практическим занятиям

3.1Общие рекомендации по подготовке к практическим занятиям

Входе подготовки к практическим занятиям необходимо изучать основную ли-

тературу, познакомиться с дополнительной литературой. При этом необходимо учесть рекомендации преподавателя и требования учебной программы.

В соответствии с этими рекомендациями и подготовкой полезно дорабатывать свои конспекты лекции, делая в нем соответствующие записи из литературы, реко-

мендованной преподавателем и предусмотренной учебной программой. Целесооб-

разно также подготовить тезисы для возможных выступлений по всем учебным во-

просам, выносимым на практическое занятие.

При подготовке к занятиям можно также подготовить краткие конспекты по вопросам темы. Очень эффективным приемом является составление схем и презен-

таций.

Готовясь к докладу или реферативному сообщению, желательно обращаться за методической помощью к преподавателю. Составить план-конспект своего выступ-

ления. Продумать примеры с целью обеспечения тесной связи изучаемой теории с реальной жизнью. Своевременное и качественное выполнение самостоятельной ра-

боты базируется на соблюдении настоящих рекомендаций и изучении рекомендо-

ванной литературы.

3.2 Примеры задач для практических занятий

Задание для раздела 1.

Рассмотрим проведение аудита данных из текстового файла сотовые оперето-

ры.txt и готовый сценарий audit.ded. В этом файле представлена статистика опроса клиентов телекоммуникационных компаний, полученная в ходе исследования воз-

можности смены одного сотового оператора другим в зависимости от оценки крите-

риев предлагаемых ими услуг. Фрагмент множества данных файла сотовые опере-

торы.txt представлен в таблице.

57

Таблица. Фрагмент набора данных сотовые операторы.txt

Пол

ВУЗ

Место жительства

сотовые операторы

сколько лет клиент

кол-во звонков в день

кол-во мин в день

Сумма оплаты в месяц (в руб.)

пользуюсь SMS

оценка критерия стоимость

оценка критерия качество связи)

возможна смена оператора

 

 

 

 

 

 

 

 

 

 

 

 

м

ННГУ

обл.

МТС

более 3

более

более

300

да

3

4

нет

лет

10

30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

м

ННГУ

НН

Билайн

более 3

6-10

10-30

200

нет

4

4

да

лет

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

м

ННГАСУ

НН

Теле2

более 3

более

10-30

350

да

 

 

нет

лет

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

м

ННГУ

НН

Билайн

1-3 го-

6-10

10-30

200

нет

4

 

нет

да

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

м

НГТУ

НН

НСС

до 1

1-5

10-30

600

да

4

3

нет

года

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

м

НГГУ

обл.

Билайн

до года

6-10

до 10

300

да

3

4

нет

 

 

 

 

 

 

 

 

 

 

 

 

ж

ННГУ

НН

МТС

 

более

10-30

100

да

4

4

да

 

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ж

ННГАСУ

НН

МТС

1-3 го-

6-10

10-30

200

да

2

4

нет

да

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ж

ННГУ

обл.

Теле2

1-3 го-

более

более

300

да

4

4

нет

да

10

30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

При проведении аудита нужно ответить на следующие вопросы:

есть ли в данных дубликаты, противоречия, пропуски, аномалии?

какова доля неполных и некорректных записей в общем объеме?

какие поля представляют интерес для анализа?

интегральная оценка качества данных.

Шаг 1 – изучение статистики

Рис. 21. Статистика по набору данных сотовые опереторы.txt

58

В двух столбцах (рис. 21) присутствуют пропущенные значения. Это значит,

что необходимой операцией будет работа с пропусками.

Шаг 2 – дубликаты и противоречия

Противоречивыми являются группы записей, в которых содержатся строки с одинаковыми входными факторами, но разными выходными. В такой ситуации не-

понятно, какое результирующее значение верно. Противоречивые данные исключа-

ются.

Дубликаты – это записи с одинаковыми входными и выходными данными.

Такие данные приводят к избыточности, поэтому дублирующая информация исклю-

чается.

Для автоматизации процесса поиска дубликатов и противоречий предназначен специальный обработчик Дубликаты и противоречия. Он находится в группе уз-

лов Очистка данных мастера обработки.

Настройка параметров обработчика заключается в указании назначения полей.

Суть обработки состоит в том, что определяются входные и выходные поля. Алго-

ритм ищет во всем наборе записи, для которых одинаковым входным полям соот-

ветствуют одинаковые (дубликаты) или разные (противоречия) выходные поля. На основании этой информации создаются два дополнительных логических поля – Дуб-

ликат и Противоречие, принимающие значения истина или ложь, и дополнитель-

ные числовые поля Группа дубликатов и Группа противоречий, в которые записы-

ваются номер группы дубликатов и группы противоречий, содержащих данную за-

пись. Если запись не является дубликатом или противоречием, то соответствующие поля будут пустыми (null).

В нашем случае целесообразно искать дубликаты в записях со всеми столбца-

ми. Это будут входы (рис. 22). Противоречия разумнее искать по выходному полю

59

Возможна смена оператора, т.е. если встретятся два полностью одинаковых по ха-

рактеристикам телефонных звонков клиента, а поле Возможна смена оператора у

них будет различаться, то это сигнал о вероятной ошибке в данных.

Рис. 22. Назначения полей в обработчике Дубликаты и противоречия При использовании обработчика Дубликаты и противоречия возможно

отображение результатов обработки с помощью одноименного визуализатора Дуб-

ликаты и противоречия (рис. 23).

Рис. 23. Визуализатор «Дубликаты и противоречия» В нашем случае было найдено 27 противоречий и 22 группы дубликатов с об-

щим числом 46 записей. Примем решение удалить противоречия, а от каждой груп-

пы дубликатов оставить одну запись.

Наиболее простой способ сделать это состоит в следующем.

60

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]