9068
.pdfПример. Выполним 3 цикла прямого и обратного прохода ИНС, используя ал-
горитм обратного распространения ошибок для входного образца (0,1; 0,9) и целево-
го выходного значения 0,9 в предположении, что сеть имеет архитектуру 2 – 3 – 1 c
весовыми коэффициентами: |
|
|
|
|
|
||||||||||
для первого слоя: |
|
|
|
для второго слоя: |
|||||||||||
|
0,1 |
0,1 |
|
|
|
|
|
|
|
|
0,2 |
||||
|
0,2 |
0,1 |
|
|
|
|
|
|
|
|
0,2 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
0,3 |
|
|
|
|
|
|
|
|
||||
0,1 |
|
|
|
|
|
|
|
|
|
0,3 |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Параметры обучения: 1 |
и 0,1. |
|
|
|
|
|
|||||||||
Cделать вывод: уменьшается ли ошибка Е? |
|
|
|
||||||||||||
Решение. |
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
1-я итерация: |
|
|
|
|||
|
|
|
|
|
|
|
n |
|
|
1 |
|
|
|
|
|
Прямой проход: |
S |
|
х w , f (s) |
|
|
|
|
|
|||||||
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
j |
i 1 i |
ij |
1 e as |
|
|
|
|||
S3= |
|
0,1 |
|
|
|
y(S3)= |
|
0,524977 |
|
|
E= |
|
0,047575 |
|
|
S4= |
|
-0,11 |
|
|
y(S4)= |
|
0,472531 |
|
|
|
|
|
|
||
S5= |
|
0,28 |
|
|
y(S5)= |
|
0,569539 |
|
|
|
|
|
|
||
S6= |
|
0,370363 |
|
|
y(S6)= |
|
0,591537 |
|
|
|
|
|
|
Обратный проход: |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
6= |
0,074531 |
|
∆w36= |
0,003913 |
|
wнов36= |
0,203913 |
3= |
0,003717 |
|
∆w46= |
0,003522 |
|
wнов46= |
0,203522 |
4= |
0,003715 |
|
∆w56= |
0,004245 |
|
wнов56= |
0,304245 |
5= |
0,005482 |
|
∆w13= |
0,000037 |
|
wнов13= |
0,100037 |
|
|
|
∆w14= |
0,000037 |
|
wнов14= |
–0,19996 |
|
|
|
∆w15= |
0,000055 |
|
wнов15= |
0,100055 |
|
|
|
∆w23= |
0,000335 |
|
wнов23= |
0,100335 |
|
|
|
∆w24= |
0,000334 |
|
wнов24= |
–0,09967 |
|
|
|
∆w25= |
0,000493 |
|
wнов25= |
0,300493 |
|
|
|
|
51 |
|
|
|
|
|
|
2-я итерация: |
|
|
||
Прямой проход: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
S3= |
0,100309 |
y(S3)= |
0,525054 |
|
|
E= |
0,047114 |
S4= |
–0,10969 |
y(S4)= |
0,472607 |
|
|
|
|
S5= |
0,280453 |
y(S5)= |
0,56965 |
|
|
|
|
S6= |
0,376564 |
y(S6)= |
0,593035 |
|
|
|
|
Обратный проход: |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
6= |
0,074084 |
|
∆w36= |
0,00389 |
|
wнов36= |
0,207803 |
3= |
0,003767 |
|
∆w46= |
0,003501 |
|
wнов46= |
0,207023 |
4= |
0,003758 |
|
∆w56= |
0,00422 |
|
wнов56= |
0,308465 |
5= |
0,005526 |
|
∆w13= |
0,000038 |
|
wнов13= |
0,100075 |
|
|
|
∆w14= |
0,000038 |
|
wнов14= |
–0,19992 |
|
|
|
∆w15= |
0,000055 |
|
wнов15= |
0,100111 |
|
|
|
∆w23= |
0,000339 |
|
wнов23= |
0,100678 |
|
|
|
∆w24= |
0,000338 |
|
wнов24= |
–0,09932 |
|
|
|
∆w25= |
0,000497 |
|
wнов25= |
0,300995 |
|
|
|
3-я итерация: |
|
||
Прямой проход: |
|
|
|
|
|
|
|
|
|
|
|
|
|
S3= |
0,100622 |
y(S3)= |
0,525132 |
|
E= |
0,046658 |
S4= |
–0,10938 |
y(S4)= |
0,472685 |
|
|
|
S5= |
0,28091 |
y(S5)= |
0,569762 |
|
|
|
S6= |
0,382732 |
y(S6)= |
0,594522 |
|
|
|
Обратный проход: |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
6= |
0,07364 |
|
∆w36= |
0,003867 |
|
wнов36= |
0,21167 |
3= |
0,003816 |
|
∆w46= |
0,003481 |
|
wнов46= |
0,210504 |
4= |
0,0038 |
|
∆w56= |
0,004196 |
|
wнов56= |
0,312661 |
5= |
0,005568 |
|
∆w13= |
0,000038 |
|
wнов13= |
0,100114 |
|
|
|
∆w14= |
0,000038 |
|
wнов14= |
–0,19989 |
|
|
|
∆w15= |
0,000056 |
|
wнов15= |
0,100167 |
|
|
|
∆w23= |
0,000343 |
|
wнов23= |
0,101026 |
|
|
|
∆w24= |
0,000342 |
|
wнов24= |
–0,09898 |
|
|
|
∆w25= |
0,000501 |
|
wнов25= |
0,3015 |
Вывод: с каждой итерацией ошибка уменьшается
52
2.4 Контрольные вопросы
Контрольные вопросы к разделу 1.
1.Области применения методов машинного обучения.
2.Характерные особенности и Data Mining (DM):
3.Knowledge Discovery in Databases (KDD).
4.Причины распространения KDD и Data Mining.
5.Как вы понимаете термин «качество данных»?
6.Почему оценке качества данных уделяют большое внимание на всех этапах подготовки данных к анализу?
7.Каковы основные цели оценки качества данных?
8.Какие выводы о качестве данных могут быть сделаны по результатам его оценки?
9.Какие аспекты качества данных можно оценить с помощью профайлинга?
10.Какие приемы можно использовать для визуальной оценки качества данных с помощью таблиц?
11.Какие проблемы в данных можно выявить с помощью графиков и диаграмм?
12.Зачем необходимо выполнять очистку данных?
13.Что включает в себя трансформация данных?
14.В чем отличие трансформации данных от предобработки и очистки?
15.Что понимается в данных под пропущенным значением?
16.Почему пропущенные значения в анализируемых данных необходимо восста-
навливать?
Контрольные вопросы к разделу 2.
1.Каковы цели и задачи визуализации данных в аналитических технологиях?
2.Для чего используется визуализация источников данных?
3.Зачем нужен визуальный контроль данных, после их загрузки в аналитическое приложение?
4.Чем отличаются средства визуализации общего назначения от специализиро-
ванных?
53
5.Какие средства визуализации данных относят к визуализаторам общего назна-
чения и почему?
6.В чем отличие графика от диаграммы? Какие виды диаграмм вам известны?
7.По какому принципу строится гистограмма, и какую информацию о поведе-
нии исследуемой величины из нее можно извлечь?
8.Для каких целей служит визуализатор Статистика?
9.Почему визуализация многомерных данных может оказаться проблематичной c точки зрения пользователя?
10.В чем заключается OLAP-анализ и каковы его цели?
11.Какова структура OLAP-куба?
12.Какие манипуляции с измерениями можно производить, чтобы сделать пред-
ставление куба более информативным?
13.В чем заключаются операции транспонирования и детализации, каковы их це-
ли?
14.Что такое кросс-диаграмма, и для каких целей она используется?
Контрольные вопросы к разделу 3.
1.Дайте определения KDD и Data Mining.
2.Дайте определения задачам Data Mining (классификация, регрессия, кластери-
зация, ассоциативные правила).
3.Какие существуют алгоритмы Data Mining.
4.Способы машинного обучения: обучение с учителем и без учителя. Методы формирования тестовой и обучающей выборки.
5.В чем суть модели Дерево решений.
6.Алгоритмы построения деревьев решений.
7.Описание алгоритмов ID3 и С4.5. Их достоинства и недостатки.
8.Каким свойством деревьев решений обусловлена их высокая объясняющая способность.
9.Критерии оптимизации деревьев решений (упрощение деревьев решений)
Контрольные вопросы к разделу 4.
54
1.Что такое ассоциация?
2.Что представляет собой транзакция в теории ассоциативных правил?
3.Как определяются поддержка и достоверность, и какова их роль в процессе поиска ассоциативных правил?
4.Чем определяется значимость и полезность ассоциативных правил, и какими показателями она характеризуется?
5.Почему стратегия поиска ассоциативных правил путем проверки поддержки и достоверности всех возможных ассоциаций, полученных на основе набора транзакций, неэффективна?
6.Чем определяется частота предметного набора, и какие предметные наборы называются популярными (или частыми)?
7.Какую роль играют популярные наборы в процессе поиска ассоциативных правил с помощью алгоритма a priori?
8.Какое свойство предметных наборов лежит в основе алгоритма a priori?
9.Как образуется иерархия предметов в процессе поиска ассоциативных правил?
Приведите примеры.
10.Каковы преимущества и недостатки поиска ассоциативных правил при рас-
смотрении иерархии предметов?
11.На каких иерархических уровнях чаще встречаются предметы, ассоциации между которыми имеют большую поддержку?
12.Почему, если объект встречается редко на верхних уровнях иерархии, анали-
зировать ассоциации с его потомками на нижних уровнях не имеет смысла?
13.Для каких целей применяют понижение порога минимальной поддержки для нижних уровней иерархии?
Контрольные вопросы к разделу 5.
1.Что представляет искусственная нейронная сеть?
2.Дайте определение искусственного нейрона.
3.Какая операция выполняется в теле нейрона над сигналами, поступающими по входным связям?
55
4.Перечислите и поясните применяемые виды активационных функций.
5.В чем заключается процесс обучения нейронной сети?
6.Что называют многослойным персептроном?
7.Какое основное отличие искусственных нейронов, которые используются для построения нейронных сетей, получивших название персептронов?
8.К какому типу алгоритмов обучения относится алгоритм обратного рас-
пространения, и в чем отличительная черта этих алгоритмов.
9.Для каких целей используется визуализация выходной ошибки модели в
процессе обучения?
10.Почему в процессе анализа данных требуется контроль качества использу-
емых аналитических моделей?
11.Для каких моделей используются таблица сопряженности и диаграмма рас-
сеяния и как с их помощью оценить точность модели?
56
3. Методические указания по подготовке к практическим занятиям
3.1Общие рекомендации по подготовке к практическим занятиям
Входе подготовки к практическим занятиям необходимо изучать основную ли-
тературу, познакомиться с дополнительной литературой. При этом необходимо учесть рекомендации преподавателя и требования учебной программы.
В соответствии с этими рекомендациями и подготовкой полезно дорабатывать свои конспекты лекции, делая в нем соответствующие записи из литературы, реко-
мендованной преподавателем и предусмотренной учебной программой. Целесооб-
разно также подготовить тезисы для возможных выступлений по всем учебным во-
просам, выносимым на практическое занятие.
При подготовке к занятиям можно также подготовить краткие конспекты по вопросам темы. Очень эффективным приемом является составление схем и презен-
таций.
Готовясь к докладу или реферативному сообщению, желательно обращаться за методической помощью к преподавателю. Составить план-конспект своего выступ-
ления. Продумать примеры с целью обеспечения тесной связи изучаемой теории с реальной жизнью. Своевременное и качественное выполнение самостоятельной ра-
боты базируется на соблюдении настоящих рекомендаций и изучении рекомендо-
ванной литературы.
3.2 Примеры задач для практических занятий
Задание для раздела 1.
Рассмотрим проведение аудита данных из текстового файла сотовые оперето-
ры.txt и готовый сценарий audit.ded. В этом файле представлена статистика опроса клиентов телекоммуникационных компаний, полученная в ходе исследования воз-
можности смены одного сотового оператора другим в зависимости от оценки крите-
риев предлагаемых ими услуг. Фрагмент множества данных файла сотовые опере-
торы.txt представлен в таблице.
57
Таблица. Фрагмент набора данных сотовые операторы.txt
Пол |
ВУЗ |
Место жительства |
сотовые операторы |
сколько лет клиент |
кол-во звонков в день |
кол-во мин в день |
Сумма оплаты в месяц (в руб.) |
пользуюсь SMS |
оценка критерия стоимость |
оценка критерия качество связи) |
возможна смена оператора |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
м |
ННГУ |
обл. |
МТС |
более 3 |
более |
более |
300 |
да |
3 |
4 |
нет |
|
лет |
10 |
30 |
||||||||||
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
м |
ННГУ |
НН |
Билайн |
более 3 |
6-10 |
10-30 |
200 |
нет |
4 |
4 |
да |
|
лет |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
м |
ННГАСУ |
НН |
Теле2 |
более 3 |
более |
10-30 |
350 |
да |
|
|
нет |
|
лет |
10 |
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
м |
ННГУ |
НН |
Билайн |
1-3 го- |
6-10 |
10-30 |
200 |
нет |
4 |
|
нет |
|
да |
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
м |
НГТУ |
НН |
НСС |
до 1 |
1-5 |
10-30 |
600 |
да |
4 |
3 |
нет |
|
года |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
м |
НГГУ |
обл. |
Билайн |
до года |
6-10 |
до 10 |
300 |
да |
3 |
4 |
нет |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ж |
ННГУ |
НН |
МТС |
|
более |
10-30 |
100 |
да |
4 |
4 |
да |
|
|
10 |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
ж |
ННГАСУ |
НН |
МТС |
1-3 го- |
6-10 |
10-30 |
200 |
да |
2 |
4 |
нет |
|
да |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
ж |
ННГУ |
обл. |
Теле2 |
1-3 го- |
более |
более |
300 |
да |
4 |
4 |
нет |
|
да |
10 |
30 |
||||||||||
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
При проведении аудита нужно ответить на следующие вопросы:
есть ли в данных дубликаты, противоречия, пропуски, аномалии?
какова доля неполных и некорректных записей в общем объеме?
какие поля представляют интерес для анализа?
интегральная оценка качества данных.
Шаг 1 – изучение статистики
Рис. 21. Статистика по набору данных сотовые опереторы.txt
58
В двух столбцах (рис. 21) присутствуют пропущенные значения. Это значит,
что необходимой операцией будет работа с пропусками.
Шаг 2 – дубликаты и противоречия
Противоречивыми являются группы записей, в которых содержатся строки с одинаковыми входными факторами, но разными выходными. В такой ситуации не-
понятно, какое результирующее значение верно. Противоречивые данные исключа-
ются.
Дубликаты – это записи с одинаковыми входными и выходными данными.
Такие данные приводят к избыточности, поэтому дублирующая информация исклю-
чается.
Для автоматизации процесса поиска дубликатов и противоречий предназначен специальный обработчик Дубликаты и противоречия. Он находится в группе уз-
лов Очистка данных мастера обработки.
Настройка параметров обработчика заключается в указании назначения полей.
Суть обработки состоит в том, что определяются входные и выходные поля. Алго-
ритм ищет во всем наборе записи, для которых одинаковым входным полям соот-
ветствуют одинаковые (дубликаты) или разные (противоречия) выходные поля. На основании этой информации создаются два дополнительных логических поля – Дуб-
ликат и Противоречие, принимающие значения истина или ложь, и дополнитель-
ные числовые поля Группа дубликатов и Группа противоречий, в которые записы-
ваются номер группы дубликатов и группы противоречий, содержащих данную за-
пись. Если запись не является дубликатом или противоречием, то соответствующие поля будут пустыми (null).
В нашем случае целесообразно искать дубликаты в записях со всеми столбца-
ми. Это будут входы (рис. 22). Противоречия разумнее искать по выходному полю
59
Возможна смена оператора, т.е. если встретятся два полностью одинаковых по ха-
рактеристикам телефонных звонков клиента, а поле Возможна смена оператора у
них будет различаться, то это сигнал о вероятной ошибке в данных.
Рис. 22. Назначения полей в обработчике Дубликаты и противоречия При использовании обработчика Дубликаты и противоречия возможно
отображение результатов обработки с помощью одноименного визуализатора Дуб-
ликаты и противоречия (рис. 23).
Рис. 23. Визуализатор «Дубликаты и противоречия» В нашем случае было найдено 27 противоречий и 22 группы дубликатов с об-
щим числом 46 записей. Примем решение удалить противоречия, а от каждой груп-
пы дубликатов оставить одну запись.
Наиболее простой способ сделать это состоит в следующем.
60