Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Нейронные сети для обработки информации

..pdf
Скачиваний:
8
Добавлен:
12.11.2023
Размер:
14.05 Mб
Скачать

В 1962 г. была опубликована книга Ф. Розенблатта [135], в которой представлена теория динамических нейронных систем для моделирования мозговой деятельности, основанная на персепгроннон модели нервной клетки. В этой теории использовалось представление нейрона моделью МакКоллока-Пптса, в которой функция активации принимала двоичные значения 0 и I.

Ограшсченные возможности одиночного персентроиа и составляемых из таких элементов одноуровневых сетей подверглись критике в книге М. Минского н С. Пейперта [101], что вызвало резкое снижение финансирования этой сферы научных исследований и привело в результате к замедлению развития искусственных нейронных сетей. Только отдельные научные группы, сконцентрированные вокруг таких ученых, как Гроссберг, Видроу, фон дер Мальсбург, Аыари, Фукушима и Кохонен, продолжали работу в этой области. И только бурное развитие в 80-х годах технологии производства полупровод­ никовых устройств сверхвысокой степени интеграции (УЬ31) привело к резкому возрастанию интереса к средствам ппраллельной обработки информации, которыми считаются и искусственные нейронные сети. Начиная с опубли­ кованных в 1982 г. работ Дж. Хопфллда [53], теория нейронных сетей развивается в стремительном темпе, а количество научных центров, занимающихся этой междисциплинарной сферой знании, непрерывно увеличивается. Доработка или, точнее, повторное открытие принципа обратного распространения [51] в применении к обучению многослойных сетей сняли те ограиичс1П1я, которые стали главным объектом критики в книге М. Минского и С. Пейперта. Масштабное увеличение финансирования этой научной отрасли предопределило существенный прогресс как в теории, так и в практических приложениях. С учетом взрывного развития вычислительных систем это создало базу для реализации новых технологических решений в сфере технического распоз­ навания образов, восприятия и объяснения, в управлении сложными системами, для обработки речевых сообщений и т.п. В настоящее время искусственные нейронные сети представляют собой высокоразвитую (особенно в теоретическом аспекте) отрасль знаний.

1.3. Прикладные возможности нейронных сетей

Любая нейронная сеть используется в качестве самостоятельной системы представления знаний, которая в практических приложениях выступает, как правило, в качестве одного из компонентов системы управления либо модуля принятия решений, передающих результирующий сигнал на другие элементы, не связанные непосредственно с искусственной нейронной сетью. Выполняемые сетью функции можно распределить на несколько основных групп: аппроксимации и интерполяции; распознавания и классификации образов; сжатия данных; прогнозирования; идентификации; управления; ассоциации.

В каждом из названных приложений нейронная сеть играет роль универсального аппроксимагора функции от нескольких переменных [I, 56],

реализуя нелинейную функцию

У=Л*).

(1.4)

где .V - эго входной вектор» а у - реализация векторной функции нескольких переменных. Постановки значительного количества задач моделирования, идентификации и обработки сигналов могут быть сведены именно к аппроксимационному представлению.

Для классификации и распознавания образов сеть обучается важнейшим их признаком, таким, как геометрическое отображение точечной структуры изображения, относительное расположение важнейших элементов образа, компоненты преобразования Фурье и другие подобные факторы. В процессе обучения выделяются признаки, отличающие образы друг от друга, которые н составляют базу для принятия решений об отнесении образов к соответствующим классам.

При решении задач прогнозирования роль нейронной сети состоит в предсказании будущей реакции системы по ее предшествующему поведению. Обладая информацией о значениях переменной х в моменты, предшествующие прогнозированию л(А-1), х(к-2), ..., х(к-М), сеть вырабатывает решение, каким будет наиболее вс|Х>ятное значение нослсдовотслыюсти х (А) в текущий момент1 к. Для адаптации нссопых коэффициентов сети используются фактическая погрешность прогнозирования е =х(А) - х (А) и значения этой погрешности в предшествующие моменты времени.

При решении задач идентификации к управления динамическими процессами нейросеть, как правило, выполняет несколько функций. Ока представляет собой нелинейную модель этого процесса, обеспечивающую выработку соответст­ вующего управляющего воздействия. Сеть также выступает в роли следящей системы, влвптирующсйся к изменяющимся условиям окружающей среды. Очень большое значение, особенно при управлении роботами, имеет функция классификации, реализуемая при выработке решения о дальнейшем развитии процесса.

В зодачах ассоциации ненронноя сеть играет роль ассоциативного запоминающего устройства (ЗУ). Можно выделить ЗУ автоассоциативного типа, с помощью которых опрслелясгся корреляция между отдельными компонентами одного и того же входного вектора, и ЗУ гетероассоциативного типа, средствами которых устанавливается корреляция между двумя различными векторами. Нели на вход сети подастся неструктурированный вектор (например, содержащий искаженные шумом компоненты или вообще не содержащий отдельные компоненты), нейронная сеть сможет восстановить оригинальный н очищенный от шумов вектор и сгенерировать при этом полную версию ассоциированного с ним вектора.

Важнейшее свойства нейронных сетей, свидетельствующее об их огромном потенциале и широких прикладных возможностях, состоит в параллельной обработке информации одновременно всеми нейронами. Благодаря этой способности при большом количестве межненронных связей достигается

значительное ускорение процесса обработки информации. Во многих ситуациях становится возможной обработка сигналов в реальном масштабе времени.

Очень большое количество межнейронных соединений приводит к тому, что сеть становится нечувствительной к ошибкам, возникающим в отдельных контактах. Функции поврежденных соединений принимают на себя другие элементы, в результате в деятельности сети не наблюдаются заметные нарушения. Эго свойство используется, в частности, прн поиске оптимальной архитектуры нейронной сети путем разрыва отдельных связей. Алгоритм такого поиска, названный иОр#пм! Вгат Оата$е" [84], является прекрасной иллюстрацией этого свойства нейронной <?сти.

Другое не менее важное свойство нейронной сети состоит в способности к обучению н к обобщению полученных знаний. Сеть обладает чертами так называемого искусственного шгтсллскта. Натретгровамиая на ограниченном множестве обучающих выборок, она обобщает накопленную информацию и вырабатывает ожидаемую реакцию применительно к данным, не обрабатывав­ шимся в процессе обучения. Несмотря на значительное количество уже известных практических приложений искусственных нейронных сетей, возможности их дальней|иего использования для обработки сигналов не изучены окончательно, и можно высказать предположение, что нейронные сети еще в течение многих лет будут средством развития информационной техники.

Раздел 2

МОДЕЛИ НЕЙРОНОВ И МЕТОДЫ ИХ ОБУЧЕНИЯ

В соответствии с принципами функционирования биологических нейронов созданы различные математические модели, которыми в большей или меньшей степени реализуются свойства природной нервной клетки. Обобщенная схема, составляющая основу большинства таких моделей, восходит к представленной на рис. 1.3 модели МакКаллока-Пнтсв, содержащей сумматор взвешенных входных еншалов и 'нелинейный блок выработки выходного сигнала нейрона, функцио­ нально зависящего от выходного сигнала сумматора. Свойства нелинейной функции, особенно сс непрерывность, оказывают определяющее влияние на выбор.способа обучения нейрона (подбор весовых коэффициентов). Другим важным фактором становится выбор стратегии обучения. Можно выделить два подхода: обучение сучителем1(англ.: лиреЫлес![еапппв) и обучение без учителя (ашл.: игиирегуиеЛ (еапнп%).

При обучении с учителем предполагается, что, помимо входных сигналов, составляющих вектор х, известны также и ожидаемые выходные сигналы нейрона 4, составляющие вектор Л (от вит. ИезИпаИоп). В подобной ситуации подбор весовых коэффициентов должен быть организован так, чтобы фактические выходные сигналы нейрона у,- принимали бы значения, как можно более близкие к ожидаемым значениям 4. Ключевым элементом процесса обучения с учителем является эивние ожидаемых значений </,- выходного сигнала нейрона.

Если такой подход невозможен, остается выбрать стратегию обучения без учителя. Подбор весовых коэффициентов в этом случае проводится на основании либо конкуренции нейронов между собой (стратегии п1У$ипег Такел ЛИ - \УТА" (Победитель получает все) или ыШтег ТакехМох! - №ТАГ(Победитель получает больше), либо с учетом корреляции обучающих и выходных сигналов (обучение по Хсббу). При обучении без учителя на этапе адаптации нейрона мы нс можеы прогнозировать его выходные сигналы, тогда как при обучении с учителем результат обучения предопределен заранее благодаря априори заданным обучающим выборкам. В этом разделе книги обсуждаютоя наиболее репрезентативные модели, реализующие каждый из указанных подходов.

1 Обучение сучителем также называют обучением под надзора».

2.1. Персептрон

Простой персептрон - это обычная модель МакКаллока-П|ггса с соотистсгвующей стратегией обучения [51]. Структурная схема и обозначения элементов г-го нерсептрона представлены на рис. 1.3. Весовые коэффициенты входов сумматора» на которые поступают входные сигналы ху, обозначаются а пороговое значение» поступающее с тяк называемого поляризатора» - н',о. Нелинейная функция активации перссптрана представляет собой дискретную функцию ступенчатого типа, вследствие чего выходной сигнал нейрона может принимать только два значения - 0 штн 1 в соответствии с правилом

где щ обозначен выходной сигнал сумматора

(2.2)

В приведенной формуле подразумевается, что имеющий длину N вектор х дополнен нулевым членом л*о = 1, формирующим сигнал поляризации, х = [х0, Х|, ...»л'к]. Обучение нерсептрона требует наличия учителя н состоит в таком подборе весов щ , чтобы выходной сигнал у,- был наиболее близок к заданному значению ф. Это обучение гетероассоциативного типа, при котором каждой обучающей выборке, представляемой вектором х, априори поставлено в соответствие ожидаемое значение ф на выходе /-го нейрона.

Наиболее популярный метод обучения персептрона состоит в применении цравнла персептрона [1, 51, 114, 135], в соответствии с которым подбор весов осуществляется но следующему алгоритму:

При первоначально выбранных (как правило, случайным образом) значениях весов щ на вход нейрона подается обучающий вектор дг и рассчитывается

значение выходного сигнала у,-. По результатам сравнения фактически полученного значения у/ с заданным значением уточняются значения весов.

Если значе|ще у/ совпадает с ожидаемым значением ф, то весовые коэф­ фициенты щ не изменяются.

Если у\ = 0, а соответствующее заданное значение ф = 1, то значения весов

уточняются в соответствии с формулой + I) = и*///) + ху, где! обозначает номер предыдущего цикла, а (/ + I) - номер текущего цикла.

Если у< = I, а соответствующее заданное значение ф = 0, то значения весов уточняются в соответствии с формулой и»4</ + 1) = иуу(/) -ху, где / обозначает номер предыдущего цикла, а (/ + I) - номер текущего цикла.

По завершении уточнения весовых коэффициентов представляются очеред­ ной обучающий вектор х и связанное с ним ожидаемое значение ф, и значения весов уточняются заново. Этот процесс многократно повторяется на всех обучающих выборках, пока не будут минимизированы различия между всеми

значениями у,- и соответствующими нм ожидаемыми значениями ф.

Следует отмстить, что правило псрсептрона представляет собой частный случай предложенного гораздо позже правила Видроу-Хоффа [114, 166]. В соответствии с этим правилом подбор весовых коэффициентов нейрона

(необязательно перссптронного типа) проводится по формулам:

 

и'&С'+О-иДО+Дигу,

(2.3)

А’

*/«/*-у,).

(2.4)

Аналогичные соотношения используются при подборе веса поляризатора >уд),

для которого входной сигнал всегда рпвен 1, в связи с чем

 

А»'я я Ц - л Ь

(2.5)

Легка заметить, что если сигналы у( н ф принимают только двоичные значения 0 и 1, то правило Видроу-Хоффа превращается в правило нерсегттропа.

Характерная особенность как правила псрсептрона, так и обобщенного правила Видроу-Хоффа состоит в использовании для обучения информации только о текущем н ожидаемом значениях выходного сигнала. В связи с разрывностью нелинейной функции активации персентрона невозможно учитывать информацию об изменении значения у1 (т.с. ее производную). Минимизация различий между фактическими реакциями нейрона у, к ожидаемыми значениями ф может быть представлена как минимизация конкретной функции погрешности (целевой функции) Е, чаще всего определяемой как

(2.6)

где р означает количество предъявляемых обучающих выборок. Такая минимизация при использовании прапила персентрона проводится по методу безграднентной оптимизации [51]. Эффективность метода при большом количестве обучающих выборок относительно невелика, а количество циклов обучения и его длительность возрастают очень быстра, причем без всякой гарантии достижения минимума целевой функции. Устранить эти недостатки можно только в случае применения непрерывной функции активации, при которой целевая функция Е также становится непрерывкой, что дает возможность использовать в процессе обучения информацию о величине градиента.

2.2. Сигмоидальный нейрон

Нейрон сигмоидального типа (рис. 2.1) имеет структуру, подобную модели МакКаллока-Питса, с той разницей, что функция активации является непрерыв­ кой и может быть выражена в виде сигмоидальной униполярной или биполярной функции [46,114]. Униполярная функция, как правило, представляется формулой

(2.7)

тогда как биполярная функция задается в виде

 

 

Дх) =Кап1|(Дг).

(2.8)

О этих формулах параметр Р подбнростся пользователем. Его значение влия­

 

 

 

ет на форму функции активации. На

I

 

 

рис. 2.2 представлены графики сигмои­

 

 

 

дальной функции от переменной х для

 

 

 

различных значений Д, причем па рис.

 

 

 

2.2а показана униполярная, а на рис.

 

 

 

2.26 - биполярная функция. Графики

 

 

 

обеих функций сильнб зависят бт

 

 

 

значения Д. При малых величинах Д

 

 

 

график функции достаточно полоши,

 

 

 

но ко мере роста значения Д

крутизна

 

 

 

трафика увеличивается. При Д —>

Рис. 2.1. Модель сигмоидальногонейропа

сигмоидальная функция превращается

в функцию ступенчатого типа, иден­

 

 

 

 

 

 

тичную функции активации псрсепт-

роиа. На практике чаще всего дшр упрощения используется значение Д = 1.

Важным свойством сигмоидальной функции является се дифферен­

цируемость. Для униполярной функции имеем

 

 

А

- Я Ш - С * » .

(2.9)

 

 

 

 

тогда как для биполярной функции

 

 

 

 

 

 

 

(2.10)

И в первом, и во втором

случае трафик изменения производной

относи­

тельно переменной х имеет колоколообразиую форму, а его махеиыум соответст­ вует значению х * 0 (рис. 2.3).

Сигмо]|дальныЙ нейрон, как правило, обучается с учителем но принципу минимизации целевой функции, которая для единичного обучающего (сор-

тежа <дг, </>

/-го нейрона определяется

в

виде

 

 

 

 

 

 

 

 

Д = { ( л - Ч ) 8,

 

 

(2Л1)

 

 

 

 

 

 

(

N

\

 

(2.12)

 

 

 

 

л = /(И |)в /1

2 > *х/

1.

 

 

Функция

/(и/)

является

сигмоидальной,

х

эго входной

вектор,

х -

[хо, XI...... х^]г со значением

;гр = I

при наличии

поляризации и

хр = О

при

ее отсутствии,

а

г соответствующее ему ожидаемое эначсш1с на выходе

/-го нейрона. Применение непрерывной функции активации позволяет использовать при обучении градиентные методы. Проще всего реализовать

*

Рлс. 2.2. График сигмоидальной функции:

а ) униполярной; б) б1Пюл1рноЛ при различныхзначениях коэффициентаД

метод нпискорейшего спуски, в соответствии с которым уточнение вектора весов н>=[|ую, » М ||, щ#]Гпроводится 0 направлении отрицательного градиента целевой функции. Если эта функция определена выражением (2.11), /-я составляющая градиента имеет лид:

 

Ч,Е

4ГМ

(2.13)

 

 

Л ,

 

 

 

 

где е/ = (у, - 4 )

означает розницу между фактическим и ожидаемым

значе­

нием выходного

сигнала нейрона. Если

ввести

обозначение $

то

можно получить выражение, определяющееу-ю составляющую градиента в виде

(2-14)

х

Рис. 2Л . График производной от сигмоидальной функции при различи

коэффициента 0

Значения весовых коэффнцис1[тов также могут уточняться дискретный способом:

п'&.(/ + 1) = 1 ^ (/) - г?5/х; ,

(2.15)

где ^ - это коэффициент обучения, значение которого, как правило, выбирают либо эмпирически из интервала (0,1), либо решением разностного уравнения

(2.16)

в котором константа р выступает в роли, аналогичной значению г] в уравиешш (2.15). Два последних уравнения определяют алгоритм обучения нейрона. На эффективность обучения оказывает сильное влияние подбор коэффициента обучения. В существующих приложениях его величина может задаваться константой либо быть переменной величиной, значение которой изменяется в процессе обучения адаптивным способом либо подбирается иа каждом шаге но принципу направленной минимизации. Наиболее эффективным, но одновременно и наиболее трудоемким считается метод направленной минимизации, по которому коэффициент обучения подбирается па каждом шаге путем минимизации целевой функции от одной переменной в направлении цакскорсйшего уменьшения значений этой целевой функции.

Необходимо подчеркнуть, что применение градиентного метода для обучения нейрона гарантирует достижение только локальирго минимума. В случае полимодалыюй целевой функции найденный локальный минимум может быть достаточно далек от глобального минимума. Выход из окрестности локального минимума при использовании простого алгоритма наискорсйшсго спуска невозможен. Результативным может оказаться обучение с маиентаи или разбросай [51, N4]. В этом методе процесс уточнения весов определяется не

только информацией о градиенте функции, но также и фактическим трендом изменений весов. Подобный способ обучения может быть задан следующим математическим выражением, определяющим приращение значений весов:

Д|^(/+1) = —тф х, +аД1^(0 ,

(2.17)

в котором первый член соответствует обычному методу наискорейшего спуска, тогда как второй член, называемый моментам, отражает последнее изменение весов и нс зависит от фактического значения градиента. Значение коэффициента момента а, как правило, выбирается из интервала 0<<х<1. Следует обратить внимание, что влияние момента на подбор весов увеличивается с ростом значения а. Такое влияние существенным образом усиливается при непосредственной близости локального минимума, где значение градиента стремится к нулю. В этом случае возможны такие изменения весов, которые приводят к возрастанию значения целевой функции к выходу за пределы области локального минимума. Такая ситуация применительно к аппрок­ симирующей сети (выполняющей аппроксимацию входных данных) иллюст­ рируется на рис. 2.4. Отмеченные на графике точки соответствуют значениям целевой функции, получаемым ня каждом шаге обучения. Локальный минимум Р\ был покинут благодаря действию момента. Эго позволило пойти в точке Рг новый минимум с меньшим значением целевой функции, который оказался более подходящим с позиций приближения фактического значения у,- к ожидаемому значению <//.

Следует отметить, что показатель момента нс должен доминировать в процессе обучения, так как это приведет к нестабильности (расходимости) алгоритма. Как привило, в процессе обучения отслеживается значение погрешности е\ с тем, чтобы нс допустить его возрастания сверх некото­ рого допустимого предела, например 3%. В подобном случае, если

Рис. 1А. Иллюстрация влияния момента на процесс обучения нейронной сети