Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Нейронные сети для обработки информации

..pdf
Скачиваний:
8
Добавлен:
12.11.2023
Размер:
14.05 Mб
Скачать

которой эпачснке этой функции не равно нулю (точнее, превышает опреде­ ленное пороговое значение в). Подбор О} должен проводиться таким образом, чтобы области охвата всех радиальных функции накрывали все пространство входных даииых, причем любые две зоны могут перекрываться только в неэначшелыюй степени. При такой организации подбора эиачетгл щ реализуемое радиальной сетью отображение функции будет относительно монотонным.

Проще всего в качестве значения о) у-й радиальной функции принять эвклидово расстояние между у-м центром с$ и его ближойшнм соседом [154]. В другом алгоритме, учитывающем более широкое соседство, па значение <3 влияет расстояние между у-м центром 45 и его Р ближайпшми соседями. В этом случае значение О) определяется по формуле

<7; = ^ 1 1 1 ^ -0 ,1 1 "

(5.24)

! г 4=1

 

На практике значение Р обычно лежит в интервале (3 - 5].

При решении любой задачи ключевая проблема, определяющая качество отображения, состоит в предварительном подборе количества радиальных функций (скрытых нсГфонов). Как правило, при этом руководствуются общим принципом: чем больше размерность вектора лг, тем большее количество радиальных функций необходимо для получення удовлетворительного решения. Детальное описание процесса подбора количества радиальных функций будет представлено в последующих подразделах.

5.3.2.Вероятностный алгоритм подбора параметров радиальных функций

Требования к количеству скрытых нейронов можно смягчить применением сети типа НКВР, реализующей радиальное отображение с использованием

взвешенной

эвклидовой

мстрнкн. Коэффициенты

масштабирующей

матрицы

связанные

с соответствующими компонентами вектора лг,

определяющими /-ю радиальную функцию (см. рис. 5.4), представляют собой еще одну группу параметров, подлежащих подбору к облетающих аппроксимацию обучающих данных радиальной сетью. За счет увеличения количества подбираемых параметров требуемая точность может быть дос­ тигнута сетью НКВР при меньшем числе нейронов. На рис. 5.7 представлена примерная зависимость (в процентах) величины погрешности классифи­ кации 10-мсрных обучающих данных, представляющих 3 класса, от количества скрытых нейронов [154] для радиальной сети КВР (кривая, обозначенная г) и для сети НКВР с диагональной матрицей ( нижняя кривая на рисунке). Кроме заметного снижения уровня погрешности классификации, в используемой в данном примере сети НКВР количество скрытых ней­ ронов было снижено со 160 (сеть КВР) до ПО (сеть НКВР).

Оптимальные значения центров и коэффициентов <3у для каждой базисной функции могут быть подобраны с помощью модифицированного алгоритма, изменяющего одновременно и характеристики

Рис. 5.7. Иллюстрация влияния архитектуры сетей КОК и НКВР на эффективность

классификации при различном количестве радиальных нейронов

центроо, и матрицу <$. Одним иэ таких алгоритмов, разработанных для сети НКВР с диагональной масштабирующей патрицей <2, является вероятностный алгоритм, предложенный в рвботе [154]. При равномерном распределешш обучающих данных дс и при использовании диагональной масштабирующей матрицы О процесс адаптации цопров и элементов матрицы <2, описывается рекуррентными соотношениями

№+

(5.25)

 

(]-ог4) + а 4^(д-А)

Г(& I » -

 

|де ак ~ ^ ~ обозначает изменяющийся во времени коэффициент обучения, а аг<>

- константа, подбираемая из интервала [О, I] (чаще всего значение <*о лежит в пределах [0,5 -0,8]). В представляемом методе радиальная функция <р(х) определяется в онде

у (г )= ехр|’- ^ и - с ((*)]г р;|( х - с , (*))).

(5.27)

где Р( = (П аз^ц, Рц , - I Гдл']- Ее знпчсние соответствует условной вероятности того, что вектор .г принадлежит к кластеру с центром с{. При таком определении матрицы Р] она связана с масштабирующей матрицей ^^I используемой в сети НКВГ на рис. 5.4, соотношением

< }< = & /

 

(528)

Если обе матрицы имеют диагональную структуру, то

Оц =

В зависимостях (5.25) и (5.26) на каждом этапе

выполнения

алгоритма

одновременно происходит адаптация и центров, н матрицы весов Р, причем уточняются параметры всех радиальных функций сети. Это существенно отличает описываемый метод от адаптивных зависимостей, реализуемых в описанном в предыдущем подразделе алгоритме К -усреднении, в соответст­ вии с которым уточнялось значение только одного центра - победителя в конку­ рентной борьбе. Представленные формулы могут применяться и для сети КВР при условии, что Г; г 1 и что в соответствии с выражением (5.25) уточняются параметры только центра, имеющего наибольшее значение функции <р^х).

5.3.3. Гибридный алгоритм обучения радиальных сетей

В гибридном алгоритме процесс обучения разделяется на два этапа:

1)

подбор линейных параметров сети (веса выходного слоя) при использовании

 

метода пссвдоинверсии;

2 )

адаптация нелинейных параметров радиальных функции (центра с,- и ши­

 

рины а Iэтих функции).

 

Оба этапа тесно переплетаются. При фиксации конкретных значений

центров и ширины радиальных функций (в первый момент это будут начальные значения) за один шаг, с использованием декомпозиции ЗУБ, подбираются величины линейных весов выходного слоя. Такая фиксация параметров радиальных функций позволяет определить значения самих функций ф/(дг|) для / = 1, 2,.... К и к = 1 , 2 ,.... р, где г - это номер радиальной функции, в к - номер очередной обучающей пары (х*. </*). Очередные воз­ буждения х» генерируют в скрытом слое сигналы, описываемые векторами (рк = [ 1 , р|(х*), ф](х*), .... <?*(•*>)). где I обозначает единичный сигнал поляризации. Им сопутствует выходной сигнал сети ук, ук = <Ркж, причем вектор ж содержит веса выходного слоя, ж = [н'о, нц, .... и*]г. При наличии р

обучающих пар получаем

систему

уравнений

 

I

1

Р |(* |)

02 О .)

м'0

у,

 

1

? |(* 1 )

Ъ & г )

Ф А Х2) и»,

Уг

(5.29)

 

 

 

 

 

.1 * & , )

Ф2 ^ я )

 

 

 

которую в векторном виде можно записать как

С * - у .

(5.30)

При использовании гибридного метода но этапе подбора выходных весов вектор у заменяется вектором ожидаемых значений с*р]г, к образованная при этом система уравнений С*г = << решается за один шаг с использованием иссвдошшерсии

н>-<3+</.

(5.31)

В алгоритме расчета пссвдоинвсрсии применяется декомпозиция 8Уй, позволяющая приучить текущее значение вектора н> в соответствии с формулой (5.18).

Но втором этапе при зафиксированных значениях выходных весов воэбуждоющне сигналы пропускаются по сети до выходного слоя» что позволяет рассчитать величину погрешности для последовательности векторов х*. Далее происходит возврат к скрытому слою (обратное распространение). По величине погрешности определяется вектор градиента

целевой функции

отиос1гтслыю конкретных'центров су и ширины

(Ту. Для

последующего

изложения

предположим» что используется

модель

сети

типа

НКВР

с диагональной

формой

масштабирующей

матрицы

0.

Это

означает,

что

каждая радиальная

функция определяется в

общем виде как

 

 

 

 

 

 

 

 

 

 

 

= « р

( “ «а ) ,

(5.32)

где суммарный сигнал нейрона мд описывается выражением

 

 

 

 

 

 

«а - ь:-------5-------

 

р.ЗЗ)

 

 

 

 

 

 

о!

 

 

При существовании р обучвкнцих пар целевую функцию можно задать в виде

* Ц 1 ь-.

2 д*ц.м»

<*.м )

2

«=|

3

В результате дифференцирования этой функции получаем:

I -Су)

(5.35)

(5-36)

Применение гр(шие>шюго метода нанскорсйшсго спуска позволяет провести уточнение центров и ширины радиальных функций согласно формулам:

Сц(л + 1 )= сч(л) - 1? — ,

(5.37)

0сч

 

а у(»г+1)=»#( п ) - » | ^ - .

(5.38)

Уточнение нелинейных параметров радиальной функции завершает очередной цикл обучения. Многократное повторение обоих этапов ведет к полному н быстрому обучению сети» особенно когда начальные значения параметров радиальных функций бшпки к оптимальным.

На практике выделеш(ыс этапы в разной степени влияют на адаптацию параметров. Как правило, быстрее функционирует алгоритм 8 УЭ (он за одни шаг находит локальный минимум функции). Для выравнивания этой диспропорции одно уточнение линейных параметров сопровождается обычно несколькими циклами адаптации нелинейных параметров.

5.3.4. Алгоритмы обучения, основанные на обратном распространении ошибки

Обособленный класс алгоритмов обучения радиальных функций составляют градиентные методы обучения с учителем, в которых используется алгоритм обратного распространения ошибки. Так же хак н в сигмоидальных сетях, нк основу составляет целевая функция, определенная для всех р пар обучающих выборок (дгу, в виде

Для упрощения записи в дальнейшем будем учитывать только одну обучающую выборку (х, 4), вследствие чего целевая функция приш1маст вид:

Такое упрощение ничем не ограничивает общность рассуждений, поскольку оно может оэначаф обучение типа ‘'онлайн”, при котором па вход сети каждый раз подается только один обучающий вектор. Предположим, что применяется самая общая форма гауссовской радиальной функции ф,(х), соответствующей сети НЯВР, в которой

 

?Д *) = е х р [ - |ю /( х - с ,) ] г[<},<х - с ,)]] ,

(5.41)

а матрица

имеет

произвольную

структуру. Независимо

ог выбираемого

метода градиентной

оптимизации

необходимо прежде

всего получить

Рис. 5,8. Графы сети НКВР, используемые для генерации градиента:

а) исходная сеть; б) сопряженная сел»

вектор градиента целевой функции относительно всех параметров сети. Для:расчета градиента будем использовать представленный в разделе 3 метод сопряженных графов, позволяющий определить любой компонент гра­ диента на основе анализа исходного и сопряженного с ним графа сети.

П»аф сети НКВР с обозначенными

на

нем

сигналами

представлен на

рис. 5.8.

 

 

 

 

 

 

 

 

В этой

сети

реализуются две

нелинейные

функции: квадратич­

ная / ( г )-г 2

и показательная

/( и ) = схр(-0,5н).

В сопряженном графе,

соответствующем

исходному

графу,

обе

эти

функции

линеаризуются

относительно значений

н | ^ , определенных в точках решения неходкой

системы, так, как эго представлено иа рис. 5,86. Направления всех дуг в сопряженном графе противоположны их направлениям в исходном графе. В качестве источника возбуждения в сопряжениом графе выступает разностный сигнал - </), представляющий величину фактического рассогласования. Конкретные составляющие градиента определяются непосредственно по ин­ формации об этих двух графах с использованием процедуры, описанной в раз­ деле 3. Они принимают следующую форму:

ЪЕ

.

 

(5.42)

;

 

ОИ’о

 

 

 

м р (-0 ,5и1Ху-<1);

 

(5.43)

=0]л = -

;

(5.44)

= ,И

=, . еХр Н » ,) ,у ,

(X, - с'") г«>.

(5.45)

 

1-1 -

 

(5.46)

 

 

 

 

«, = х [ 4 Т

 

(5.47)

Конкретизация компонентов градиента позволяет задействовать для подбора параметров любые градиентные методы оптимизации независимо от объекта обучения - будь то вес и>/ либо центр С |\ либо коэффициент масштабирования

. Для обучения могут использоваться любые градиентные методы, предс­

тавленные в разделе 3, а также любые способы подбора коэффициента обучения. Главной проблемой, подлежащей разрешению, остается' выбор начальных значений параметров. Если процесс обучения начинается со случайных значений, то вероятность попадания в точки локальных минимумов, далеких от искомого решения, оказывается более высокой, чем для сигмоидальных сетей, из-за нелинейности показательных функций. По этой причине случайный выбор начальных параметров радиальных функций применяется редко. Он заменяется специальной процедурой 1и1нциализации, основанной на анализе информации* содержащейся во множестве обучающих данных. Этой цели служат представленные в настоящем разделе алгоритмы самоорганизации, действие которых ограничивается несколькими циклами. Получаемые в результате значения параметров радиальных функции принимаются в качестве начальных.

Стартовые величины весов щ подбираются, как правило, случайным образом, так же как и в типовом алгоритме обучения сигмоидальных сетей.

5.4. Пример использования радиальной сети

Нейронные сети с радиальными базисными функциями находят применение как при решении задач классификации либо аппроксимации функций многих переменных, так и при прогнозировании, т.е. в тех прикладных сферах, в которых сигмоидальные сети имеют завоеванные позиции уже в тсчоше многих лет. Они выполняют те же функции, что и сигмоидальные сети, однако реализуют иные методы обработки данных, связанные с локальными отображениями. Благодаря этой особенности обеспечивается значительное упрощение н, следовательно, ускорение процесса обучения.

В качестве примера рассмотрим аппроксимацию трехмерной функции, которая описывается формулой

= / ( * |, хг} я 3(1 - д-,) 2 ехр(-х,2 - (х, +1)1) +

- 1 0 ^ у -

~х\ |ехр(-л-,2 - .^ )-у х р (-(д г, +1)2 -х!)

Пусть переменные

изменяются в пределах - 3 < X] $ 3 и -3 й хг $ 3.

Обучающие данные имеют равномерное распределение в областях определения переменных Х| и хг- В общей сложностн для обучения использовалось 625 обучвющих выборок в виде пар данных ( (х|, хг). )• Для решения задачи была построена сеть со структурой 2-36-1 (2 входа для X] и хг соответственно.

Ноиер отяраци»

Рис. 5.9. График обучения радиальной сети ЯВРдля примера восстановлен] трехмерной функции

Рис. 5.10. Результаты восстановления трехмерной функции радиальной сетью КВР:

а) восстановленная поверхность; б) погрешность восстановления

36 радиальных нейронов гауссовского тина и один выходной линейный нейрон, соответствующий значению с/ функции). Применялся гибридный алгоритм обучения со случайным выбором начальных значений параметров сети. На рис. 5.9 представлен график обучения сети (кривая изменения погрешности с увеличением количества итераций). Из графика видио,, что прогресс в уменьшении погрешности достаточно велик, особенно в начальной стадии процесса.

На рис. 5.10 приведены графические представления восстановленной функции/(.Т|,Х2) и погрешности восстановления данных (характеристика обученности сети). Максимальная по1рсшность восстановления нс превысила уровня 0,06, что состаолясг около 1 % от ожидаемого значения. Сравнение скорости обучения и обобщающих способностей радиальной сети с аналогичными показателями многослойного псрссптрона однозначно свидетельствует в пользу первой. Она быстрее обучается и гораздо менее чувствительна к начальным значениям параметров как базисных функций, так и весов выходного нейрона.

5.5. Методы подбора количества базисных функций

Подбор колтщетва базисных функций, каждой из которых соответствует одни скрытый нейрон, считается основной проблемой, возникающей при корректном решении задачи аппроксимации. Как н при использовании сигмоидальных сетей, слишком малое количество нейронов не позволяет умсиьш1гть в достаточной степени погрешность обобщения множества обучающих данных, тогда как слишком большое их число увеличивает погрешность выводимого решения на множестве тестирующих данных. Подбор необходимого н достаточного количества нейронов зависит от многих факторов, в 'теле которых размерность задачи, объем обучающих данных и прежде всего - пространственная структура аппроксимируемой функции. Как правило, количество базисных функций К составляет определенную долю от объема обучающих данных р, причем фактическая величина этой доли зависит от размерности вектора х и от раз­ броса ожидаемых значений соответствующих входным векторам х; , для

1 = 1 , 2,

5.5.1. Эвристические методы

Вследствие невозможности априорного определения точного количества скрытых нейронов применяются адаптивные методы, которые позволяют добавлять пли уделять их в процессе обучения. Создано много эвристических методов, реализующих такие операции [10, 154]. Как правило, обучение с е т начинается при каком-либо изначально принятом количестве нейронов, а впоследствии контролируется как степень уменьшения среднеквадратичной погрешности, так и