Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Нейронные сети для обработки информации

..pdf
Скачиваний:
8
Добавлен:
12.11.2023
Размер:
14.05 Mб
Скачать

очередного веса и заменяет повторное обучение сети, необходимое при использовании метода СИЮ. Процедуру ОВ5 регуляризации сети можно описать

вследующем виде [4$]:

1.Обучение нейронной сети предварительно отобранной структуры вплоть до отыскания минимума целевой функции.

2. Расчет обратной гессиану матрицы 11“1 и выбор веса

имеющего

наименьшее значение показателя $ = ^ ^ т ] а- Если изменение величины

целевой функции в результате отсечения этого весь намного меньше значения Е, вес отсекается н осуществляется переход к и. 3» в противном случае отсечение завершается.

3.Коррекция значений Весов, оставшихся в сети после отсечения #-г» веса, в соответствии с формулой (4.8) с последующим возвратом к п. 2. Процесс продолжается вплоть до отсечения всех мало значащих весов.

Основное отличие метода ОВ8 от ОЕШ, помимо другого определения коэффициента асимметрии, состоит а коррекции весов после отсечения наиме­ нее важного веса без повторного обучении сети. Б методе ОВ8 всякий раз отсекается только один вес, тогда как при использовании ОВР можно на хаждом шаге отсекать произвольное количество весов. Вычислительная сложность метода ОВ8 гораздо выше. Расчет диагональных элементов гессиана в нем заменяется расчетом полной матрицы и обратной ей формы. На практике этот этап можно значительно упростить при использовании аппроксимированной формы матрицы, обратной гессиану, определяемой, например, методом переменной метрики. Однако такое упрощение вызы­ вает снижение точности расчетов и несколько ухудшает качество искомого решения.

Рис. 4.8. Графики изменения значений коэффициента ■симметрии весов (кривая х) и функции погрешности (кривая +)для различного количества весов нейронной сети, упорядоченные по возрастанию значений весов. Вертикальная прямая указывает предлагаемое количество отсекаемых весов

4.2.3. Методы редукции сети с использованием штрафной функции

Другой метод редукции весов основан на таком организации процесса обучения, которая провоцирует самостоятельное уменьшение значений весов и в результате позволяет исключить те из них, величина которых опускается ниже установленного порога. В отличие от методов учета чувствительности в обсуждаемых методах сама целевая функция модифицируется таким образом, чтобы в процессе обучения значения весов минимизировались автоматически вплоть до достижения определенного порога, при пересечешш которого значения соответствующих весов приравниваются к кулю.

Простейший метод модификации целевой функции предусматривает добавление в нее слагаемого, штрафующего за большие значения весов:

Е И = Е<°>(1м) + уХ1^.

(4.9)

ч

 

О этой формуле Е*и>(иО означает стандартно определенную целевую функ­ цию, заданную, например, в виде эвклидовой нормы, в у - коэффициент штрафа за достижение весами больших значений. При этом каждый цикл обучения складывается из двух этапов: минимизации величины функции Е*°>(иО стандартным методом обратного распространения н кор­ рекции значений весов, обусловленной модифицирующим фактором. Если значегше веса щ после первого этапа обозначить то в результате коррекции этот вес будет модифицирован по градиентному методу наиско­ рейшего спуска согласно формуле

^ = |',у<0,0 ->ГУ).

(4-Ю)

тде Г] обозначает константу обучения. Определенная таким образом штрафная функция вызывает уменьшение значений всех весов даже тоща, когда с учетом специфики решаемой задачи отдельные веса должны иметь большие значения. Уровень значений, при котором вес может быть отсечен, должен подбираться с особой тщательностью на основе многочисленных экспериментов, указывающих, при каком пороге отсечения процесс обучения сети подвергается наименьши возмущениям.

Болес приемлемые результаты, нс вызывающие уменьшения значений всех весов, можно получгпь модификацией представления целевой функции в форме

(4.11)

Минимизация этой функции вызывает не только редукцию межнейропных связей, но может также привести к исключению тех нейронов, для которых величина Х |^ | близка к нулю. Легко доказать, что правило коррекции весов

в этом случае может быть задано выражением

1 + 2

1 (1Р«')г

 

1 - 1

**/

(4.12)

 

[ н х К 1)']'

При малых значениях весов ичь подходящих к /-му нейрону, происходит дальнейшее их уменьшение. Это ведет к ослаблению выходного сигнала до нуля и в итоге к исключению его из сети. При больших значениях весов, ведущих к /-му нейрону, их коррекционная составляющая исчезающе мала и очень слабо влияет на процесс редукции сети.

Другой способ минимизации сети основан на такой модификации це­ левой функции, которая позволяет исключать скрытые нейроны, в наименьшей степени изменяющие свою активность в процессе обучения. При этом учитывается, что если выходной сигнал какого-либо нейрона при любых обучающих выборках остается неизменным (на его выходе постоянно вырабатывается 1 или 0), то его присутствие в сети излишне. И напротив, при высокой активности нейрона считается, что его функционирование дает важную информацию. Й. Шовсн в [7] предложил следующую модификацию целевой функции:

а д - Е<°>м + /I I 5е(Д Д

(4.13)

В этом выражении Л$ означает изменение значения выходного сигнала /-го нейрона для у-й обучвюшей выборки, а е(Д^3) - это корректирующий фактор целевой функции, зависящий от активности всех К скрытых нейронов для всех у (/ = 1.2, •••. Р) обучающих выборок. Коэффициент т определяет степень относительного влияния корректирующего фактора на значение целевой функции. Вид корректирующей функции подбирается так, чтобы изменение целевой функции зависело от активности скрытого нейрона, причем при высо­ кой его активности (т.е. частых изменениях значения выходного сигнала) величина ДЕ должна быть малой, а при низкой активности - большой. Это достигается применением функции е, удовлетворяющей отношению

■ Э*(д*) _ 1

«,!«>

■ ЭД* (1+Д*)“

Индекс и позволяет управлять процессом штрафования за низкую активность.

При л - 2 функция е принимает вид: е = —

Малая активность нейронов

1 +Д,

 

карается сильнее, чем высокая, что в результате может привести к полному исключению пассивных нейронов из сети.

Оба подхода к редукции сети, основанные как на учете чувствнтепыюст, так и на модификациях целевой функции, ведут к минимизации количества Ьесов и нейронов сети, уменьшая таким образом уровень се сложности и улучшая

соотношение между количеством обучающих выборок и мерой КСШт. В тоге возрастает способность сети к обобщению.

4.3. Методы наращивания сети

В алгоритмах редукции в качестве неходкой точки используется избыточная архитектура сети, которая в процессе обучения либо по его завершении упрощается путем исключения наименее значимых весов.

Противоположный подход заключается в первоначальном включении в сеть небольшого количества скрытых нейронов (часто они вообще отсутствуют), ко по мере развития процесса обучения их число постепенно увели­ чивается. Среди многих существующих методов расширения нейронной сети можно выделите»: алгоритм Мсэарда-Надола [51], алгоритм Мсрчанда (51] и метод Ли-Тофтса [86], в которых асе обучающие выборки ортогонально проецируются в одномерное пространство с последующим выбором такой гиперплоскости, которая отделила бы данные требуемого класса от остальных. Многократно повторял эту процедуру на оставшемся множестве выборок, в конечном счете можно обеспечить полное разделение данных. Мш1имиэация количества гиперплоскостей (скрытых нейронов) в методе (86] достигается применением булевой алгебры, в частности карты Карно. Перечисленные ме­ тоды имеют относительно низкую эффективность при большой размерности входного вектора и не являются серьезной альтернативой методам редукции сети.

Одним из наиболее известных методов расширения сети считается алгоритм каскадной корреляции С. Фальмана [34], который будет подробно изложен в разделе 6.

4.4.Подбор обучающих выборок

Сточки зрения цели функционирования нейронная сеть может рассматриваться как векторный классификатор, определяющий принадлежность конкретного входного лектора х к определенной группе. Каждый слой нейронов при этом выполняет в составе сети собственную функцию [99]. Нейроны первого скрытого слоя образуют гиперплоскости, разделяющие Димерное пространство данных (где N - количество входов сети) на области, содержащие данные, принадлежащие к одному и тому же классу (англ.: с/ю/ег). Нейроны выходного (либо второго скрытого) слоя представляют множество данных, составляющих конкретный кластер. При ограниченном выборе обучающих данных из универсального множества их размещение отиос1гтелыю конкретных гиперплоскостей становится

очень важным. Нанлучшие результаты достигаются в случае, когда они располагаются с разных сторон границ гиперплоскостей, разделяющих пространство данных. На рис. 4.9 представлены два различных способа выбора

обучающих данных (обведенных окружностями). Выбор, иллюстрируемый рис. 4.9л, позиолнл определить две гиперплоскости (два нейрона), однако он не решает проблему разделения двух классов данных и л’). При таком выборе потребуется еще одна гиперплоскость (т.е. еще един нейрон) для разделения областей В и О. При выборе обучающих дснпсых, лежащих на границах этих облостей (рис. 4.96), получено полное разделение обоих классов. Кроме того, области В к И не содержат обучающих данных (это пустая область пространства), что свидетельствует о возможности удаления одной гиперплоскости (сокращение скрытого слоя до одного нейрона).

X

 

Ж X

 

 

У

X АX д Иж» ь *

 

©

д

\

у ! ®

3

ж ©

\ | ®

 

 

 

 

 

 

 

*

©

/ . у ' ®

к

 

 

 

 

 

 

 

Ч

в©

 

\ з

з «

X < * ) У ' Х

/ ч

®

»

х

у

 

 

1 ©

«.

 

 

 

х

 

 

 

 

 

 

 

ч

\ *

*

 

 

 

 

 

 

/

° \

 

Рис. 4.9. Примеры выбора обучающих данных (обведены окружностями) т универсального множества: а) некорректный выбор; б) корректный выбор

При подборе обучающих данных очень важна предварительная информация о количестве областей, по которым распределены эти данные. Пространстве]П1ые границы областей задаются сегментами гиперплоскостей (при проекции но плоскость такие сегменты отображаются отрезками прямых). На рис. 4.10 представлены сегменты трех гиперплоскостей и области, образованные ^ двухмерном пространстве в результате их псрсссчсиия. Области обозначены латинскими буквами от а до у, а сегменты гиперплоскостей - цифрами от I до 9. В [99] доказвпо, что если обозначить Я (п, /V) максимальное количество областей, на которые Ммернос пространство разделяется м гиперплоскостями (л нейронами), то

* < « . * ) = х с ;

(4.15)

 

1-0

 

Л(и-г)!

для л ^ /

 

(4.16)

0

для

л < /

Если решаемая задача содержит т классов данных, то подбор мини­ мального количества нейронов должен выполняться таким образом, чтобы одновременно выполнялись условия Я(п,А0 1 к Я (п-1,Л 0< м. Выбор количества нейронов в слое (количества гиперплоскостей) позволяет определить не только

Рис. 4.10. Иллюстрация способа образования нейронной сетью гнпсрплосюстеЛ и областей данных

число областей, по н количество сегментов гиперплоскостей, ограничивающих эти области. Если обозначить количество этих сегментов А(п, АО, то в соответствии с (99]

т Ы (п^) ^ А(п,№) ^ »т(п,2Ы)

2

Н(п,Ы)*

(4.17)

2

Оценка количества сегментов гиперплоскостей очень важна для опре­ деления объема множества обучающих выборок. Принимая во внимание, что оптимально выбранные обучающие векторы должны располагаться вблизи конкретных сегментов гиперплоскостей, можно сделать вывод, что количество обучающих выборок должно быть пропорционально либо А(п, Ы), либо шш (л, АО • Я (и,Л0-

4.5. Добавление шума в обучающие выборки

Представленные в предыдущих подразделах процедуры формирования сети позволяют улучшить сс способности к обобщению эв счет воздействия на архитектуру ссш. Это основной метод, обеспечивающий достижение требуемо­ го уровня обобщения. Однако и после формирования стабильной и мини­ мальной архитектуры сети возможно дальнейшее улучшение сс способностей за счет специальной подготовки множества обучающих выборок. Для хорошо натренированной сети становится актуальной задача выработки у выходных сигналов нечувствительности х вариациям входных величин при условии, что эти вариации находятся в определенных допустимых границах, а сеть реализует монотонное отображение. Другими словами,

аналогичные входные сигналы должны вызывать аналогичные реакщш даже в случае, если они не входили в состав обучающего множества.

Для математического обоснования такого требования рассмотрим многослойную сеть с большим количеством входов и выходов. При обозначении вектора всех весов сети и\ а векторов входных и выходных сигналов соответственно х н у можно определить вектор у в общем виде как

>'=/(■■'.*)

(4.18)

либо сокращенно как у = Дх), где/ обозначен вектор, составленный из сигмои­ дальных функций активации выходных нейронов. Аргументом функции акти­ вации каждого нейрона является суммп весов, определяемая обычным способом, представленным в разделе 2 .

Для последующих рассуждений введем различные обозначения обучаю­ щего и тестирующего входного вектора: Пусть хА обозначает Ы1 обучающий, а х - тестирующий вектор. Решение задачи обучения, критерий которого определяется как минимизация целевой функции

Е =-^114 -лад»,

(4.19)

Л.1 а|

 

позволяет оптимизировать значения весов с учетом множества только обучающих, но не тестирующих выборок.

Минимизация этой функции не может гарантировать правильную реакцию сети на возбуждение вектором х, который не был элементом множества обучающих данных. Для исследования чувствительности сети к небольшим вариациям обучающего вектора хд предположим, что тестирующий вектор хд

незначительно отличается от хд. Представим это отлнчне в виде

*к=*к

<4.20)

где г = [5|, 52,..., зд]г обозначает вектор шума, составленный из случайных переменных с малой амплитудой. Можно считать, что в тестирующем векторе хд, близком к соответствующему обучающему вектору хд, содержится шум, который вызывает вариации выходного сигнала уд, определяемые выражением

 

ЬУк =/(•** + * ) - /( * * )

Э/(*д)

 

“ а

(4.21)

 

 

 

 

 

где а?

обозначен якобиан векторной функцинДх).

 

Для дальнейших рассуждений предположим, что вектор шума г имерт

математическое ожидание

< 5 >, равное

нулю, и

среднеквадратичное откло­

нение

< 55г > “ о2 Е. где Е

обозначена

единичная

матриц) размерностью Л',

а <•>

- ожидаемое статистическое .значение. Символом Я будем обозначать

относительную чувствительность сети

 

1(11 йу>II1)

* « -)

(4.22)

 

(11*11'}

отражающую степень изменения значении выходных неПронов (вектор Ду$, вызванного наличием шума (вектор 5) в тестирующих выборках. Принимая во внимание зависимости (4.20) и (4.21), функцию чувствительности можно представить в виде

/?(>*)

(4.23)

С учетом принятых допущений относительно величии математического ожидания и среднеквадратичною отклонения шума (97] упростим выражение (4.23) и приведем его к виду

(4.24)

где ||А|| означает норму Фробсннуса матрицы, |[А||* 1гасе (АА7) = На#. Очевидно, что чем меньше чувствительность Я, тем слабее реагирует сеть иа

'возмущения11 входного вехтора х по отношению к соответствующему обучающему вектору х , поэтому способность сети к обобщению усиливается. Фахгор чувствительности может учитываться на стадии обучения с е т . Для этого целевая функция должна быть модифицирована. Если определить ее в форме

«вешенной суммы

 

1(и>)= а д + а Я(и>),

(4.25)

где а> 0 - весовой коэффициент, то получим

 

Д » > -1 |м . -/(« -А Н ' +^ р ^ С | -

<4М>

Вместо минимизации модифицированной целевой функции Дм) можно принять, что отношение $ определяет среднеквадратичное отклонение неко­ торого шума, образующего вектор л • [м |, щ» —»м/у]г с нулевым ожидаемым значением <л>=0 «лк <млг>=в1. В этом случае целевую функцию Цн») удается преобразовать к виду [97]

- / А + * )!'} . (4.27)

Выражение, которым определяется мооифицированная целевая функция, имеет форму, идентичную стандартному представлению (4.19), с той розницей, что вместо входного вектора х используется зашумленный вектор х + л. В итоге

при минимизации этой функции учитывается не только слагаемое (4.19), но также н фактор чувствительности Л(и')| определяемый выражением (4.24). Следовательно, в процессе обучения должны приниматься во внимание характерные для тестовых последовательностей выборки, по которым и подбираются оптимальные значения весов. Это подтверждает вывод, что при зафиксированной архитектуре сети ее способности к обобщению можно дополнительно улучшить.

Подбор среднеквадратичного отклонения шума, при котором действительно можно повысить качество обобщения, представляет собой самостоятельную задачу. Ее теоретическое решение весьма сложно, однако относительно просто получить экспериментальную оценку. По результатам многочисленных тестов можно утверждать, что среднеквадратичное отклонение шума должно коррелировать с фактическим распределением разности между обучающими (незашумленнымн) выборками н тестовыми данными и составлять небольшой процент от нее.

4.6. Примеры использования персептронной сети

Однонаправленные нейронные с е т с сигмоидальной функцией активации широко применяются на практике, составляя важное звено процесса выработки решений. В настоящем подразделе мы ограничимся обсуждением нескольких приложений, позволяющим подчеркнуть универсальность и разнородность функций, которые они могут выполнять.

4.6.1. Распознавание и классификация образов

Распознаванием и классификацией образа будем называть его идентифика­ цию и отнесение к соответствующему классу данных. При решении этой задачи нейронная сеть может выполнять .функцию как экстрактора (опре­ делителя) свойств, так н классификатора, приписывающего образ конкретному классу. Однако чаще всего экстракция свойств производится на отдельном этапе предварительного преобразования измерительных сигналов. Для опреде­ ления свойств применяются различные методы, в том числе: метод статис­ тических моментов (81], метод преобразования Фурье [30, 151], волновое преоб­ разование [4,23,93], преобразование РСА [82], преобразование Карьюнеиа-ЛСве

[70]и т.п.

Вкачестве примера рассмотрим, как псрсептроиная нейронная сеть используется для распознавания и классификации двухмерных образов по их внешним описаниям. На этапе предварительной обработай сигналов будет применяться преобразование Фурье. Описание самого образа должно приводиться к виду, обеспечивающему его независимость от возможного перемещения, ротации и масштабирования. В результате такого преобразования

формируются значения свойств образа, подаваемые для распознавания на вход нейронной сети. Важным достоинством преобразования Фурье считается стабильность трансформации образа, которая в значительной степени обеспе­ чивает независимость распознавания от уровня шумов в исходном сигнале, а также простой и быстрый в реализации алгоритм преобразования.

Начальная обработка данных на основе быстрого преобразования Фурье (РРТ)

При распознавании образов, заданных некоторой структурой, подлежащий распознаванию элемент определяется множеством координат (х, у) его контура. Координатное описание контура представляется комплексным числом

2(л) = дг(м)+;>(«),

(4.28)

те я - номер очередной пары измерительных данных, описывающих образ. Для нх обработки будем использовать дискретное преобразование Фурье (ОРТ) в виде(64]

г , = П * )= 1 г ( и ) е * р ( - ; ^ Ь )

(4.29)

1Г=0

М

 

для к= 1, 2 , ..., М - 1 , где М означает количество точек описания структуры, а

г (л) - комплексное число, определен нос выражением

(4.28). Отдельные

компоненты преобразования Фурье образуют вектор Р.

 

.................../'дм].

ИЗО)

Этот вектор также определяет структуру образа, но в совершенно другом пространстве параметров. Компоненты этого описания позволяют легко преобразовывать данные независимо от их положения, масштаба, угла поворота, а также выбранной начальной точки к общего нх количества. Следует подчеркнуть, что знания составляющих вектора Р достаточны для полного восстановления формы кривой с помощью обратного преобразования Фурье (ЮРТ).

Нулевой компонс1гг Ро преобразования Фурье представляет собой среднее значение (центр тяжести) измерительных выборок (ху.у/), поскольку

1

м-1

^0 = 7 7

1 Ф )

М

«7=0

Приравниванием этого выражения к нулю образ, представленный вектором Р, перемещается на стандартную позицию относительно системы координат, не зависящую от фактического первоначального расположения в пространстве данных. По этой причине вектор Р после токопо преобразования имеет вид:

Рху=*(0, Р\%Р2> /\им ]. инвариантный относительно смещения.