Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Нейронные сети для обработки информации

..pdf
Скачиваний:
8
Добавлен:
12.11.2023
Размер:
14.05 Mб
Скачать

<- \У + ^-[л (0 - >Ух<0][Л0>17

(7.15)

Коэффициент 17 - это константа обучения, выбираемая обычно т шпсрвала [0,7 - 0,9]. Его смысл тот же, что и в случае многослойных сетей. В отличие от обычного метола проекций метод Д-проекций предполагает многократное предъявление всех р обучающих выборок вплоть до стабилизациизначений весов. Процесс обучения завершается, когда изменения вектора весов становятся меньше априорно принятого значения толерантности е.

Созданная в Институте электротехники и электронзмерений Варшавского политехнического университета компьютерная программа Н/пе1, реализующая алгоритм, основанный на методах псевдоииверсии, продемонстрировала значительные преимущества над методом обучения по Хсббу. В режиме распознавания она правильно воспринимала значительно большие отклонения начального вектора от соответствующего ему аттрактора (одного из векторов, использованных для обучения).

7.2.3. Режим распознавания сети Хопфилда

По завершении подбора весов сети их значения “замораживаются", и есть может использоваться в режиме распознавания. О этой фазе на вход сети подается тестовый вектор х и рассчитывается ее отклик в виде

у(0 = *&п ( ^ / ( |- 1 ) )

(7-16)

(в начальный момент у(0) = х), причем итерационный процесс повторяется для последовательных значении у (0 вплоть до стабилизации отклика. Итерационный процесс стабилизации отклика системы состоит нэ определенного количества циклов и в значительной степени зависит от размеров сети и от распределения локальных минимумов.

В процессе распознавания образа по зашумленным сигналом, образующим начальное состояние нейронов сети Хопфилда, возникают проблемы с опреде­ лением искомого конечного состояния, соответствующего одному из запом­ ненных образов. Неоднократно итерационный процесс будет сходиться не к искомому, а к ошибочному решению. Этому есть много объяснений. Во-первых, значение энергетической функции, заданной выражением (7.2), зависит от произведения состояний двух нейронов и симметрично относительно поля­ ризации. Одно и то же энергетическое состояние приписывается обеим поляри­ зациям ±у(, ±у] при условии, что они одновременно изменяют свои значения на противоположные. Поэтому для трехнейронной сети состояния (+1, - I , + 1) и ( - 1, + 1 , - 1) характеризуются идентичной энергией, и оба состояния считаются одинаково хорошим решешгем задачи. Переход из одного состояния в другое возможен при простой одновременной замене поляризации всех нейронов.

Другая причина выработки сетью Хопфилда ошибочных решений заключается в возможности перемешивания различных компонентов

запомненных образов и формирования стабильного состояния, воспринимаемого как локальный минимум. Следовательно, смешанное состояние соответствует такой линейной комбинации нечетного количества образов, которая сопровождается стабильным состоянием сети. Оно характеризуется более высоким энергетическим уровнем нейронов, чем искомое состояние.

При большом количестве образов образуются косвенные локальные минимумы, не соответствующие ни одному нз запомненных образов, но определяемые сформированной структурой энергетической функции сети. Процесс распознавания может сойтись к одному из таких локальных минимумов, вследствие чего полученное решение нс будет соответствовать состоянию ли одного из нейронов, принимавших участие в процессе обучения.

П

И

Н Н И

н

н

Ш ВДЮ МИН

 

 

Рис. 7.2. Образы инфр, использованные для обучения сети Хопфнлда

На рис. 7.2 и 7.3 демонстрируется эффективность функционирования сеш Хоифилда на примере образцов 10 цифр, представленных в пиксельной форме размерностью 7x 7 . Поэтому количество нейронов сети Хопфнлда составляет 49, а количество обучающих выборок - 10. Обучение проводилось с использованием программы Н/>ге1 с применением трех описанных выше методов: по Хсббу, методов проекций и 0-проекций. На этапе обучения

И щ н щ ш

1И1т1еШ1дЕ

ШИй И рш!И Ш нН!

Рис. 73. Зашумленные образы цифр, использованные для тсстрооаши сеш Хопфнлда

обрабатывались представленные на рис. 7.2 идеальные (незашумленные) образцы, дающие безошибочное восстановление. Обученная сеть подверглась тестированию на 20 сильно зашумленных образах, показанных на рис. 7.3.

Результаты распознавания сильно отличались в зависимости от приме­ няемого метода обучения. В случое обучения по Хсббу только одни образ был распознан безошибочно, а остальные не привели к искомому решению, поскольку процесс распознавания завершался в точках локальных минимумов, очень далеких от образов, использованных для обучения. Методы проекщш и Д-проекцин дали возможность почти безошибочно распознать каждый из запомненных образов.

В завершение обсуждения сети Хопфилда следует упомянуть, «сто, помимо упомянутой выше программной реализации, существуют также се аппаратурные реализации на основе стандартных элементов микроэлектронной технологии. Исходной точкой являются описание сети в виде дифференциального уравнения (7.1) и его реализация о виде специализированном аналоговой цепи. Мы нс будем подробно останавливаться на сети Хопфилда этого типа, в интересующимся ею можно порекомендовать такие публикации, как (46, 53, 54, 55, 113, 182].

7.3. Сеть Хемминга

Предложенная Р. Липпманном в работе [91] сеть Хемминга - это трехслойная рекуррентная структура, которую можно считать развитием сети Хопфилда. Она позиционируется хак специализированное гетероассоциатнвное запоминающее устройство. Основная идея функциошфовання этой сети состоит в минимизации расстояния Хемминга между тестовым вектором, подаваемым на вход сети, и векторами обучающих выборок, закодированными в структуре сети.

На рис. 7.4 представлена обобщенная схема сети Хемминга. Первый ее слой имеет однонаправленное распространение сигналов от входа к выходу и фиксированные значения весов. Второй слой, МАХМЕТ, состоит из нейронов, связанных обратными связями по принципу "каждый с каждым", при этом в отличие от структуры Хопфилда существует ненулевая связь входа нейрона со своим собственным выходом. Веса нейронов в слое МАХЫЕТ также постоянны. Разные нейроны связаны отрицательной (подавляющей) обратной связью с весом -е, при этом обычно величина е обратно пропорцио­ нальна количеству образов. С собственным выходом нейрон связок положительной (возбуждающей) обратной связью с весом, равным +1. Весе поляризации нейронов принимают значения, соответствующие нулю. Нейроны этого слоя функционируют в режиме АУТА, при котором в каждой фикси­ рованной ситуации активизируется только один нейрон, а остальные пребы­ вают в состоянии покоя. Выходной однонаправленный слой формирует выходной вектор, соответствующий входному вектору. Веса нейронов этого слоя подбираются в зависимости от входных обучающих выборок.

В процессе функционирования сети можно выделить три фазы. В первой из них на ее вход подается Л’-элемеилсый вектор х. После предъявления этого вектора на выходах нейронов первого слоя генерируются сигналы, задающие начальные состояния нейронов второго слоя, т.е. МАХ№Т’в.

И/9

СпоаМАХЫЕТ

Во второй фазе инициировавшие МАХНЕТ сигналы удаляются, л из сформированного ими начального состояния запускается итерационный процесс внутри этого слоя. Итерационный процесс завершается в момент, коща все иейроиы, кроме одного (победителя с выходным сигналом, равным I), перейдут в нулевое состояние. Нейрон-победитель с ненулевым выходным сишалом становится представителем класса данных, к которому принадлежит входной вектор.

В третьей фазе этот же нейрон посредством весов, связывающих его с нейронами выходного слоя, формирует на выходе сети отклик в виде вектора у, соответствующий возбуждающему сектору х

Сеть Хемминга считается гетероассоцнативиым запоминающим устройством с парой связанных между собой векторов 0 *, х), где х и у - это соответственно входной н выходной биполярные векторы сети со значениями элементов ± 1 . Входные узлы с е т 1, 2, ..., -V принимают значения, задаваемые аналогичными компонентами вектора л*. Нейроны первого слоя рассчитывают расстояние

Хеммннга между фактически предъявленным входным вектором дг к каждым из р закодированных векторов-образцов л*1*, образующих веса нейронов первого слоя. Нейроны в слое МАХЫЕТ выбирают вектор с наименьшим расстоянием Хеммннга, определяя таким образом класс, к которому принадлежит предъявленный входной вектор х. Веса нейронов выходного слоя формируют вектор, соответствующий предъявленному входному вектору. При р нейронах первого слоя емкость запоминающего устройства Хеммннга также равна р, поскольку каждый нейрон представляет единственный класс.

Подбор весов сети Хсмм1шга оказывается чрезвычайно простым. Веса первого слоя соответствуют очередным векторам образов яР, поэтому

(7.17)

для /' = 1,2......р. Аналогично веса выходного слоя соответствуют очередным векторам образов у®, связанным с х Ю;

« ■ « '-у '» .

(7.18)

В случае нейронов слоя МАХЫЕГ, функционирующих в режиме \УТА, веса сети должны усиливать собственный сигнал нейрона и ослаблять остальные. Для достижения этого эффекта принимается

 

1^ = 1,

(7.19)

а также

 

 

 

(7.20)

для

/ * у. Для обеспечения абсолютной сходимости

алгоритма веса

и’У')

должны отличаться друг от друга. Р. Липомами в своей работе принял

 

Ч " ’ = - ^ Г Г + * .

(7.21)

где € - случайная величина с достаточно малой амплитудой.

Нейроны различных слоев сети Хеммннга функционируют по-разному. Нейроны первого слоя рассчитывают расстояния Хемшига между поданными но вход сети вектором х и векторами весов отдельных нейронов этого слоя (/ = 1, 2, .... р). Значения выходных сигналов этих нейронов определя­ ются но формуле (35)

.

 

(7.22)

где <///(*№ дс) обозначает расстояние Хеммннга

между

входными векторами

* и д Ч т.с. количество битов, на которое различаются эта два вектора. Значе­ ние .р*=], если х = л®, н .р/=0, если лгв -дДО. О остальных случаях значения располагаются в интервале [0, 1].

Сигналы $1 нейронов первого слоя становятся начальными состояниями нейронов слоя МАХЫЕТ на второй фазе функционирования сети. Задача нейронов этого слоя состоит в определении победителя, т.с. нейрона, уровень возбуждения которого пвнболее близок к 1. Такой нейрон указывает на вектор образа с минимальным расстоянием Хсммннга до входного вектора х. Процесс определения побед1гтеля - это рекурренти н процесс, выполняемый согласно формуле

л<*>=

-

1)|=у|л(*- 1>+Е*4''г/№—1)^»

(7.23)

при начальном значении

 

Функция активации /(у) нейронов

слоя

МАХЫЕТ задастся выражением

 

 

 

 

 

 

 

у

для у

^0

(7.24)

 

 

 

0

для у

< 0

 

 

 

 

Итерационный

процесс

(7.23)

(завершается в момент, когда состояние

нейронов стабилизируется и активность продолжает проявлять только один нейрон, тогда как остальные пребывают в нулевом состоянии. Активный нейрон

становится победителем

и через вссв

линейных нейронов выходного слоя

представляет вектор

который соответствует вектору л^, признанному слоем

МАХЫЕТ в качестве ближайшего к входному вектору л.

Важным ДОСТО1П1СТВОМ сети Хемминга считается небольшое количество взвешенных связей между нейронами. Например, 100-оходовая сеть Хопфнлда, кодирующая 10 различных векторных классов, должна содержать 10000 взвешенных связен с подбираемыми значениями весов. При построении аналогичной сети Хемминга колнчсстоо взвешенных связен уменьшается до П00, из которых 1000 весов находятся в первом слое н 100 - в слое МАХНЕТ. Выходной слой в этом случае не учитывается, поскольку сеть Хемминга, аналогичная сети Хопфнлда, является ассоциативной.

В результате многочисленных экспериментов доказано, что рекуррентная сеть Хемминга дает лучшие результаты, чем сеть Хопфнлда, особенно в ситуациях, когда взаимосвязанные векторы .с и у являются случайными. В частности, реализованная в нрогроммс Ш/МаЬ сеть Хемминга, протестированная иа 10 цифрах, изображенных на рис. 7.3, позволила почти безошибочно распознать все представленные зашумленные образы. Достигнутая эффективность распоз­ навания зашумленных образов составила 100%. На рис. 7.5 и 7.6 изображены искаженные образы цифр 0 - 9 , поданные на вход натренированной сети Хеммин­ га, и соответствующие нм образы, распознанные этой сетью. Для цифр с рис. 7.5 только искаженным образам цифр 0, 3 и 6 были ошибочно приписаны другие оригиналы. Однако такое решение не может считаться результатом неправиль­ ного функционирования сети, поскольку распознанные образы соответствовали

эталонам с наименьшим расстоянием Хсммнига до искаженных образов (после повреждения эталонов шумом они стали подобны остальным обучающим выборкам).

Рнс.7.5. Тестовые (сверху) и распознанные сетью Хеннинга (снизу) образы цифр при обработке первой группы искаженных входных данных

Рнс.7.6. Тестовые (сверху) и распознанные сетью Хеннинга (снизу) образы ияфр при обработке второй группы искаженных входных данных

Единственная проблема, связанная с сетью Хсммнигв, проявляется в случае, когда зашумленные образы находятся на одинаковом (в смысле Хемминга) расстоянии от двух или более эталонов. В этом случае выбор сетью Хсммнптп одного из этих эталонов становится совершенно случайным.

7.4.Сеть типа ВАМ

7.4.1.Описание процесса функционирования сети

Обобщением сети Хопфилда на случай двухслойной рекуррентной структуры, позволяющей кодировать множества двух взаимосвязанных векторов, считается двунаправленное ассоциативное запоминающее устройство,' называемое ВАМ (англ.: В1с1нес1опа1 АзхоЫаИх'с Метогу), предложенное Б. Коско в работе (78]. Его обобщенная структура представлена на рис. 7.7. Сигналы распространяются в двух направлениях: от входа к выходу н обратно. Функционирование имеет синхронный характер. Эю означает, что если в первом цикле сигналы вначале проходят в одну сторону для определения состояния нейронов-получателей, то в следующем цикле они сами становятся источником, высылающим сигналы в обратную сто­ рону. Этот процесс повторяется до достижения состояния равновесия.

Р кс.7.7. Структура сети ВАМ

Функция активации нейронов имеет пороговый характер: она может быть Двоичной со значениями 1 или 0 либо биполярной со значениями ±1. При нулевом сигнале возбуждения нейрона его текущее состояние остается равным предыдущему состоянию. Для обеспечения лучших характеристик сети в режиме распознавания на этапе обучения используются только биполярные сигналы. Матрица весов У/, связывающая обе части сети, является дсйств!гтслыюй и несимметричной. С учетом .симметрии связей входного н выходного слоев сети при прямом направлении распространения сигналов веса описываются матрицей \У, а при противоположном направлении - матрицей \УГ. Предположим, что входные обучающие данные определены в виде множества из /л биполярных пар

{(«г.

гАе " (°л* «а......от\, Ъ<*

[*д, Ьп.......М (векторы-строки). Этому

множеству сопоставляется множество

биполярных пор {(л*,-, у<)}, где х/ - это

биполярное представление Л;(0 —в —I, I —♦ 1 ), а б и п о л я р н о е представление д(.

В соответствии с определением Б. Коско [78] матрица весов \У формируется на основе множества {(х/,уу)] как матрица корреляции

У/ = 1 х1у,.

(7.25)

1=1

 

Показано, что использование биполярных обучающих векторов дает лучшие результаты на стадии распознавания. Определение весов межнейронных связен позволяет проследить процесс стабилизации состояния на обоих концах сети. Если допустить, что начальное состояние сети было задано парой (.то, уо). то процесс двунаправленной обработки сигналов состоит из последовательных циклов

Я*о'У> = у, -» /<Л \УГ) = ж, -* Л*,\У) = -* -» Я й ™ г ) = =2 -* Я * 2« ) - Л -»

- * Я г / » '> = * / - » Я * / * > - / / ,

врезультате чего формируются две стабильные величины х/ и у/, свидетель­ ствующие о достижении стабильного состояния сети. В случае бинарного описания начального состояния в виде (по, До) биполярным величинам (х/, у/} сопоставляются бинарные представления (а/, 6/). Каждой промежуточной точке процесса (х*,уд) можно сопоставить энергетическую функцию Еь определяемую

ввиде [78]

Ъ = - х кЩ 1

(7.26)

Доказано [78], что каждое очередное изменение состояния переходного процесса ведет х уменьшению значения энергетической функции сети вплоть до достижения локального минимума. Этот минимум достигается за конечное количество итерации, и он имеет значение

Е ^ = - х , Щ

(7.27)

Иными словами, любое другое решение (в том числе и ближайшее, отличающееся лишь на 1 в смысле меры Хемминга от (х/, у/)) будет характеризоваться большим значением энергетической функции. При выпол­

нении некоторых дополнительных условий парой (х/, у$

становится одна из

обучающих пар, участвующих в формировании матрицы

которая наиболее

подобна (наиболее близка по мере Хемминга) парс, определившей начальное состояние (х0,уо).

В качестве примера рассмотрим обучение по правилу Коско сети ВАМ, имеющей 4 входа (векторы х состоят из 4 элементов) и $ выходов (5-элсмспт- иые векторы у). Задача сети состоит в запоминании множества из пяти сопряженных векторов х иу, заданных в биполярной форме. Обучающие векторы

сгруппированы в приведенные ниже матрицы X к V. Каждая строка матрицы X представляет собой один обучающий вектор, сопряжснн и с соответствующей строкой матрицы V.

Г

I

XI

-I

V =

 

 

- 1

 

 

 

 

 

1

 

 

 

 

 

1

 

 

Матрица весов сети, сформированная согласно

формуле \У= х[уг +х2у г +

+*тГГэ + * * Л +х 1у* »«мествид:

 

 

 

 

 

3

1

-1

- 3

- 5

\У =

I

-1

- 3

- 5

-3

- I

- 3

- 5 - 3

- I

 

- 3

- 5

- 3

-1

I

В режиме распознавания при начальных значениях векторов, совпадающих с использованными при обучении, сеть распознает их безошибочно. Зиачетшя

энергии, соответствующие конечному состоянию, равны: Е, = -

- - 40,

Ег» - х 7У?у2Т= -34, Е3 = - Дз\УузГ= -32, Е* = - х^УГу/ = -34 и Е, = - х,У*у т= = - 40. При искажении значений векторов л* и у, использовавшихся в процессе распознавания, спроектированная по алгоритму Коско сеть ВАМ нс всегда способна откорректировать эти векторы, и распознает их с определенными погрешностями. Оригинальное решение, предложенное Б. Коско, характе­ ризуется относительно невысоким качеством распознавания. Если размер­

ности векторов х н у обозначить соответственно п

и р, то удовлетворительное

качество распознавания зюжно получить при

выполнении зависимости

т< ^ п п л (л ,р ).

 

7.4.2. Модифицированный алгоритм обучения сети ВАМ

О работе [161] показано, что если сопоставленная /-й обучающей паре энергия Е{ - - д,Ш ,Гнс составляет локальный минимум, то обучающая ппра (в,, не может быть распознана сетью даже тогда, когда начальные значения также равны 1, Ъ/).

Помизю того, ВАМ показывает неважные результаты, если в процессе обучеш используются не похожие друг на друга векторы (например, подобным