книги / Математические методы в системах поддержки принятия решений
..pdfу(Л+1/&+1) — оценка, основанная на наблюдениях {z(k + 1), z(k), z ( k - 1),.... z(l), г(0)}.
Известно, например [55, 81], что в условиях рассматриваемой зада чи искомая оценка является условным средним
у(к+1/к+1) = М\у(к + 1)Д(0), z( 1)...... z(k), z(k + 1)],
поэтому в основу метода ее отыскания примем апостериорную плот ность распределения вероятностей и запишем выражение для оценки на момент времени t = к
f(y(k)/z(0),z(D ,..,z(k)) =
_ f(y (k )/z (0 )^ ),...A k - W (z (k )/y (k )X O ),z (l),..,z (k - 0) f(z(k)/z(0),z(l),...,z(k - 1))
где f(y(k)/z(0), г(1),..., z(k — 1)) — нормальная условная плотность с ма
тематическим ожиданием
M\y(k)/Z(0), г(1),..., z(k - |
1)] = у ( к /к - \) = |
|
- М[ф(к, к - 1 )у(к - |
1) + G(k, к - т ( к |
- 1)/г(0), г(1),.... z(k - 1)] = |
|
= Ф ( к ,к - \) у ( к - Ц к - \ ) |
|
и ковариацией |
|
|
Р(к, к - 1) = |
М[(у(к) - у (к /к -Щ у (к ) - у(к/к - I))7] = |
= ФТ(к, к - 1)Р(к - 1/к - 1)Ф(к, к - 1) + (?Г(Л, к - 1 )Q(k - 1)G{k, к - 1)
экстраполяции оценки на один шаг;
Az(k)/y{k), z(0), z( 1),.... z(k - 1)) — нормальная условная плотность с математическим ожиданием Н(к)у(к) и ковариацией R(k);
Az(k)/z(0), г ( 1 ) , z(k - 1)) — нормальная условная плотность с ма
тематическим ожиданием
М[Н(к)у(к) + W )/z(0 ), г(1),.... z(k - 1)] = Н (к )р (к /к -1)
и ковариацией
М [ Ш - Н (к)у{к/к -\)Ш к) - Н ( к ) у { к /к - т = = 1Г(к)Р(к/к - 1)Н(к) + R(k).
Запишем выражение для апостериорной плотности в развернутом виде, пригодное для случаев описания системы векторными уравнения ми состояния и наблюдения
101
P (z(k)/y(k))P (y(k)/z(0),zQ ),zQ ),-z(k-l))
P (y(k)/z(0),zQ ),z(2),...zm
P(z(k)/z(0),z(\),z(2),...z(k-l))
где
Р Ш /у(к)) =
- |
-I |
i |
l (k)(z(k) - H(k)y(k))}, |
= (2л) 2 (det/?(£)) |
2 |
exp {-y(г(А:)- H (k)y(k))T R |
|
m k ) / z ( 0), Z(1), г ( 2 ) , Z(k - |
1)) = |
a
= (2я)"2 (det(0(fc,fc-!)/*(*- l / k -1)Фг (к ,к -1 ) +
+ G (k ,k -l)Q (k ,k -\)G T(*,* -1))“* x
xexp{~(y(£)- P(k/k -1))r}x
х Щ к ,к -1 )Р (к - l / k -\)Ф т{к ,к -\)+ G {k,k -l)Q (k -l}G T( k ,k - l) ) '1 x
* Ы к ) - И к /к - 1 ) ) т),
P (z(k)/z(0),zff),zQ ),:;Zik-l)) =
=(2n)~(det(H (k)P (k/k -1)H T{k) + R (k)))~ x
xехр{-^-(г(Л:) -H (k)y{k/k -1))r x
x(H (k )P (k /k - l)H T(k) + R(k))~' (z(k) - H (k)y(k/k -1)).n 1
Здесь P(z(k)/z(0), z ( l ) , z ( 2 ) , z ( k - 1)) не зависит от y(k), P(y(k)/z(0), z(l), z(2 ) ,...»z(k - 1)) есть нормальная плотность и искомая оценка у(к) = у(к/к) для у(к) будет непосредственно получена в резуль
тате максимизации этой плотности на допустимом множестве значений
У(к), т.е.
у(к) = arg max Р(у(Л:)/<:(0),г(1),z{2),...,z(k)),
так как эта операция при нормальной плотности приводит к тому же результату, что и операция минимизации среднеквадратической ошиб ки оценки.
Для отыскания у(к) = у(к/к) воспользуемся необходимым условием оптимальности вида
102
Э1п/»(;К^Л(0),г(1),г(2),...,г(*)) _ л
M V
согласно которому получаем следующее выражение (на момент времени t=k) для искомой оценки
H T(k)R '1(k)[z(k) - Н (к)у(к/к )] - />-' ( к / к - Ш к / к ) - у ( к /к - \) \ = О
из которого следует, что
у(к/к) = [Н т(k)R-' (к)Н (к) + Р~1(к/к - 1)]"1[Р '1(к/к - 1)у(к/к -1)+
+ H T(k)R -'(k)z(k)l
где [HT(k)R~l(k)H(k) + P~l(k/k — I)]-1 с помощью леммы об обращении
[139, 140] преобразуется к виду
Р(к/к - 1) - Р(к/к - ^ ( Щ Щ к Щ к / к - l) I f( k ) + R(k)]H(k)P(k/k - 1),
и тогда искомая оценка фазовой переменной состояния системы запи сывается в виде
у(к/к) = Ф (к,к~ Ш к - Ук -1 )+ K(k)[z(k) - Н(к)Ф (к,к -1)у (к -1Д -1)],
где К(к) — матричный коэффициент усиления фильтра |
|
|||
|
К(к) = P(k/k)H r(k)R~\k) = |
|
||
- Р(к/к - |
1)tF(k)[H(k)P(k/k - l)J f(k ) + R(k)]-'. |
|||
Р(к/к) = Р(к/к - |
1) - Р(к/к - 1)lF(k)[H (k)P(k/k - |
\)fF (k) + |
||
|
+ R(k)]~'H(k)P(k/k - |
1), |
|
|
Р(к/к - 1 ) = Ф ( к ,к - 1)Р (к - |
1/к - |
1)Фт(к, к - |
1) + |
|
+ G(k, к - 1)<2(* - |
1)СГ(Л, к - 1), |
|
и на начальный момент времени t = 0 заданы у(0/0), Р(0/0).
Эти выражения для оценки у(к/к), к = 1, 2,..., и, составляют все со
отношения фильтра Калмана—Бьюси.
Проиллюстрируем применение фильтра для оценки состояния ска лярной стационарной системы. Пусть система описывается уравнением состояния
у(к + 1) = а.у(к) + Ъ(к)
и наблюдения
z(k) = у(к) + п(к), Q(k) = Q, R(k) = R.
103
Тогда оценка состояния вычисляется по выражению
у{к/к) = а у { к - \ / к - \ ) + K { k )[ z { k )-a y { k -\/k -\)\,
коэффициент усиления |
|
Щ / к - 1) _ |
a 2 P { k - l/k - l)+ Q |
P { k /k - l)+ R |
a 2P { k - l/k - \)+ Q + R |
и дисперсия ошибки оценки |
|
|
1 |
где Р(к/к - 1) = а2Р(к - \/к - 1) + Q, а< 1 и заданы /*(0/0) = о2(0) и
у(0/0) = у(0).
Для большего подтверждения полноты получения соотношений фильтра приведем здесь и л е м м у о б о б р а щ е н и и
[W iQ R -W H ik ) + Р~'(к/к - 1)]-‘ =
=Р(к/к - 1) - Р{к/к - 1)/Гг(А:> [Н(к)Р(к/к- 1)If{ k ) + R{k)]H{k)P{k/k - 1).
Для доказательства умножим левую часть равенства на
[Щ /к - 1) - Р(к/к - \)If{k)[H {k)P{k/k - 1 )1Г(к) +
+R(k)]H(k)P(k/k - I)]-1
ивыполним несложные преобразования над левой его частью; правая часть, очевидно, равна единичной матрице Е, получаем равенства
[/ВДЛ-'ДОЖЛ) + Р~'{к/к - \)}~'[Р{к/к - 1) - Р(к/к - l)If{k ) х
х [Н(к)Р(к/к - 1) ff( k ) + R(k)]H(k)P(k/k - 1)]-' =
= {[iT W R -W H ik ) + |
Р~'(к/к - l)][Р{к/к - 1) - Р(к/к - 1)Щ к) х |
х [Н(к)Р(к/к - |
1)W {k) + R(k)]H(k)P(k/k - 1)]}-' = |
= {/ + tfR r'H P - I f {HPIP + R)~'HP - tP R r1HPHT{HPH7 + R)~'HP)-' = = {/ + IfR r'H P - If{H P H 7 + R)~'HP - IfR r '[ { H P If + R) - Л] x
x {H P If + R y'H P -'} = { I + IfR r'H P - I f {HPH7 + R)~'HP - - IfR r'H P + HrR~'R{HPHr + Rr')HP~'} = E~' = E.
Лемма доказана.
104
Введем теперь в уравнение состояния детерминированное управле ние и рассмотрим систему, описываемую уравнениями состояния
у(к + 1) = Ф(к + 1,к)у(к) + Г(к)и(к) + G(k + 1,кЩк)
и наблюдения
Z(k) = Н(к)у(к) + п(к),
■д(к) и п(к) характеризуются так же, как и выше при выводе соотноше
ний фильтра. В качестве критерия эффективности системы примем ма тематическое ожидание квадратичной функции потерь
М\УТШ 0 (п)у(п) + | > г( Щ (k)y(k)+ uT(k)Q2 (к)и(к)1
о
Требуется найти управление и(к), к = 0, 1, 2, ..., п — 1, при котором
достигается минимум критерия.
Очевидно искомое управление будет зависеть от фазовой перемен ной состояния системы, а последняя является статистикой от наблюде ний и при детерминированном управлении вычисляется по выражению
у(к/к) = Ф(к/к - 1)у(к - |
1/к - 1) + Щ /к )Р ~ \к /к - |
1)Г(к)и(к) + |
+ K(k)[z(k) - |
Н(к)Ф(к,к - 1)у(к - 1 ,к - |
1). |
Такой подход к отысканию оптимального управления справедлив только в рассматриваемом частном случае, когда система описывается линейными уравнениями состояния и наблюдения, помеховые воздей ствия в этих каналах аддитивные, критерий эффективности — квадра тичная функция и не возникает необходимость в идентификации пара метров системы, т. е. в идентификации переходной матрицы Ф(к + 1/к) и матриц Г(к), G(k), Щк). В этом случае операция минимизации крите
рия эффективности приводит к функциональному уравнению Веллмана [57], т. е. к уравнению
V m \ k ) = m in{y г (к)(Щ (к)у(к)+и г(k)Q2 (к)и(к)+Щ к,к - 1 )у(к/к - 1 ) +
и( к )
+ r(k)u(k)]rS(k + 1)[Ф(к,к - 1 )у(к + 1) + Г(к)и(к)] + trQ/k)P{k/k) + + trS(k + \)K(k)[H(k)P(k/k)lF(k) + R i k ) ] ^ ) + s(k+ 1)},
У(у(п),п) = y T(n)Q0(n)y(n),
где S(k) = Фт(к,к - l)S(k + 1)Ф(к/к - 1) + Qt(k) - № {к )Ш к ) + Г (к) х
х S(k + 1)ДЛ)]ЛГ(Л) — неотрицательно определенная матрица,
105
s(k) = s(k + 1) + trQx(k)P{k/k) + trS(k + Ц Щ а д л / И З Д +
+Щк)]1С(к).
Врезультате минимизации получаем, что оптимальное управление
вусловиях неполной информации относительно состояния системы (в уравнении наблюдения содержатся ошибки, обусловленные воздей ствием помех п(к), к =1, 2, ..., и) вычисляется так
и(к) = -N (k)y(k/k),
где Щк) = Ш к ) + r T(k)S(k + l)I\k ) ) - 'r T(k)S(k + 1)Ф(к,к - 1).
В случае наличия в каждый момент времени полной информации относительно состояния системы, т. е. о значении фазовой переменной у(к) (в канале наблюдения нет помеховых воздействий), выражение для s(k) упрощается: исключается из него последнее слагаемое и делается замена во втором слагаемом матрицы Р(к + 1/к + 1) матрицей S(k + 1);
естественно при этом фильтр Калмана—Бьюси не включается в алго ритм выработки оптимального управления и и(к) = —N(k)y(k/k).
Изложенные выражения по вычислению оптимального управления составляют основу следующей т е о р е м ы .
Теорема разделения. Оптимальное управление в линейных системах с квадратичным критерием ошибки оценки вектора состояния при по меховых воздействиях, подчиненных гауссовым распределениям, выра батывается последовательно: сначала вычисляется оптимальная оценка вектора состояния системы по выборке измерений, а затем осуществля ется выбор детерминированного оптимального решения — управления как функции от полученной оценки вектора состояния.
В заключение отметим, что выражения для фильтра Калмана—Быо- си и для ик представляют структуру алгоритма вычисления оптималь
ных оценок вектора состояния и управления на момент t = k и что при
контроле функционирования нелинейных динамических систем теоре ма разделения не приводит к выработке оптимального решения — управления.
4.4. Структуры небайесовских механизмов выбора оптимальных решений
Выведем структуры небайесовских механизмов, когда необходимые
идостаточные условия формирования механизмов не выполняются.
1.Пусть планируется проверка простой гипотезы у2 против простой альтернативы у„ т.е. Г = {yif у2}; выдвигаются нерандомизированные
функции выбора решений 8(у,|г) и 5(у2|г), где z е Z, и известны функции связи А$У\)> Д^Уг)- Однако при этом ЛПР не располагает какими-либо
сведениями о функции потерь и априорном распределении вероятности на Г. Тогда структуру механизма выбора решения можно получить со
гласно минимуму вероятности ошибки второго рода — вероятности вы бора решения о наличии гипотезы у и когда в действительности имеет
106
место гипотеза у2, при условии непревышения вероятностью ошибки первого рода допустимого уровня (вероятностью выбора решения о уг,
когда в действительности имеет место гипотеза у,). Обозначим вероятности введенных ошибок через р и а:
р = |
/Ч у , (Z)\у2) = |
| /(*1 у2Ж у 1\z)dz, |
|
r(yt) |
|
а = ДУ 2 |
(г)1У,) = JШ |
У ЖУ21z)dz, а й аг |
|
Пу2) |
|
где f(yt), Ду2) — области выбора решений и у2 в пространстве Z, ag — допустимое значение вероятности ошибки первого рода.
Функционал качества выбора решения запишем на основе принципа Лагранжа
R(8) = p + X(<x-cg,
где X — неопределенный множитель Лагранжа. Из min/?(5) находим
5
структуру искомого механизма и представляем ее следующим образом: выбирается решение
S(y2k) = 1, S(y,k) = о,
если выполняется условие Лг|Уг) ^ VU|yi)» в противном случае осуществ ляется выбор решения
5(У,к) = 1, 5(у2|г) = 0.
Получен механизм Неймана—Пирсона [56], в нем порог X вычисля
ется по выражению
|у(/(г)|у,)<// = а у,
х
где l(z) =Л*|У2)/Лг|У|)> V(^k)|yi) — плотность распределения вероятности статистики l(z), отношения функций правдоподобия.
Этот механизм обладает наибольшей мощностью (1 - Р) среди всех других, для которых уровень значимости а < аг Это свойство утвержда ется следующей леммой.
Лемма Неймана—Пирсона. Для любого ag критическая область отно шения правдоподобий является наилучшей критической областью, опреде ляемой неравенством ln/(z)^A,„ .
Д о к а з а т е л ь с т в о . Воспбльзуемся обозначениями Л, — критиче ской области, где l(z) £ X и не принимается решение в пользу гипотезы
107
Yi> и Л 1 — другой критической области выборок х = (дс,, х2, |
х„) для |
||||||
того же уровня значимости. Области Л, и Л 1 пересекаются: |
|
||||||
Л, п |
, |
Л 1 о |
Ло, |
Л, п Д} и Д, п /^ , |
|
||
здесь Л„ — дополнение Д , Д |
— дополнение Я,1. |
|
|
||||
Согласно определению вероятности (1 — РЛ ) правильного принятия |
|||||||
решения в пользу гипотезы у2 |
(у2 > у,) |
запишем соотношение |
|
||||
(1 -P ,I ) = J VK/(*)/Y2M = |
Jy(/(z)/y2)d/ + |
jy (l(z )/y 2)dl> |
|
||||
R\ |
|
|
|
nRlQ |
Л n/t| |
|
|
>X( ag) |
|
\y {l{z)/yx)dl+ |
jy (l(z)/y 2)dl = |
|
|||
|
Rx |
|
Rxn/?[ |
|
|
||
= H a g)jv (l(z )/y l)d l- X ( a g) |
fy (l(z)/y x)dl+ |
^ { l{ z ) /y 2)dl = |
|||||
R\ |
|
|
|
|
|
Л пЛ{ |
|
= X(a.g) |
jy (l(z )/y x)dl+ |
j\y(l(z)/y2)dl> |
|
||||
|
Л}пЛ0 |
|
RinR\ |
|
|
>jv (l(z )/y 2)dl+ |\у(/(г)/у2)Л = 1 - Р л1.
*J <"i«o |
Я , n«J |
1 |
Отсюда непосредственно видно, что мощность правила Нейма на-Пирсона больше мощности любого другого с одним и тем же уров нем значимости а < otg, т.е. обеспечивающего вероятность ошибки пер вого рода не больше допустимого значения ag. Структура механизма
Неймана—Пирсона сохраняется и при известном априорном распреде лении на множестве Г. Пороговый уровень в этом случае определяется
из выражения
|
*1 = М1р , |
где q = |
р = Vif(y2), q + p = 1. |
2. |
Если пороговый уровень X = Я , = 1, то механизм Неймана—Пир |
сона преобразуется в механизм максимального правдоподобия: выбира |
|
ется решение |
S(Yjk) = 1, S(Yik) = 0, |
если Д ф 2) >Дг|у,), |
в противном случае делается выбор решения |
|
6(у,|г) = 1, |
8(у2|г) = 0. |
108
3.Структура механизма Неймана—Пирсона может быть обобщена
[61]для проверки сложных гипотез с неизвестными параметрами; соот ветствующая структура механизма выбора решения представляется так: выбирается решение
m a x /^ Y i)
5(Y2k) = 1. 8(Yik) = 0. если l(z) = Тг6 * £ с,
т а х / Ш , )
в противном случае — решение
5(Yik) = l, 6(у2к) = 0, пороговое значение с, вычисляется по выражению
JW k )lY |)^ = a,>
с
где Y(/(z)lYi) — плотность распределения вероятности статистики l(z)
при условии существования гипотезы у, с параметрами Yi! — допусти мое значение вероятности ошибки первого рода; Q, и Q2 — заданные области значений параметров Yi и у2.
Раскроем выражение для l(z). Если, например, f ( z / y 2) = f { z , ,zk/ r - b ,А2 )=
ll
=(2%~2n)detK ^2detAT*2 exp{-0,5(z,- \ {)TK ;'(z, - X , ) -
-0,5(zk - x 2)TK ;'(z k -'K)}
—совместная функция плотности вероятности «-мерных векторных из мерений Zb Zb i,k = 1, 2 , ..., s , i * k при условии, что они порождены дей
ствительными параметрами X * Xj гипотезы у2 соответственно
/k / Y ,) = AZi Лк!Y, :Х = X, ,Х2) =
-1 1
= (27C"2")detA:/ 2dettft"2 ехр{-0,5(г, - \ ) тK~\zt- X ) -
-0.5(г* —Х)/Г*1(zk-X)}
— совместная функция плотности вероятности «-мерных векторных измерений zifZkпри условии, что они порождены гипотезой с парамет ром X.
Выполним преобразование выражения для l(z). Видно, что в числи теле и знаменателе имеется общий член (2л ~2”)det А"г0 5 d e t K *0; в
109
числителе максимум достигается при г, = X и zk = Х2 равен единице.
Прологарифмируем полученное выражение:
1п/(г) = пгт{(г, - X f К ;' {z, - X)+(zk - X f К ;1(zk - Х) }<2 in с.
В результате минимизации получаем
i = ( K ? + K ? r l(K ;lz ,+ K ? z ky,
Ini(z)= (zi - i f к ; 1(z, - i ) H z k - i f к ; ' (zk - i ) = ={z, - z kf ( K , +K kr '( z , - z k).
С учетом этого выражения можно установить плотность распределе ния вероятности статистики 1п/(г). Эта статистика подчинена %2- распределению с п степенями свободы; согласно ему для заданного зна чения ag вычисляется уровень порога c(ag) принятия решения при про
верке сложных гипотез.
4.5. Непараметрические механизмы выбора решений
Из полученных структур байесовских и небайесовских механизмов следует важный вывод: собственно выбор решения основывается на сравнении статистики в виде отношения функций правдоподобия с со ответствующими пороговыми значениями. При этом функции правдо подобия должны быть известными либо полностью, либо с точностью до их параметров из параметрических пространств. Однако на практике возникают задачи выбора решений, когда параметры гипотез и парамет рические множества не могут быть заданы. Тогда остается возможность либо сформировать взамен допустимых функций связи эмпирические функции распределения по выборкам z е Z и сравнивать их с гипоте
тическими, построенными в зависимости от знания помеховых воз мущений, сопутствующих получению выборки z t Z, либо применять
эвристические тесты-правила выбора решений. В этих случаях соответ ствующие механизмы выбора решений будут непараметрическими - свободными от распределений, вида функций правдоподобия.
К настоящему времени разработано значительное количество непа раметрических статистических тестов-критериев (механизмов) [64; 65].
Здесь кратко рассмотрим структуры некоторых наиболее известных
из них.
Тесты согласия. Они основаны на статистиках Колмогорова, Реньи, Мизеса. В них мерами различения эмпирического распределения F(z) от гипотетического G(z) служат статистики dt(F,G), d2(F,G), d2(F,G):
d fF ,G ) = sup\F(z)-G (z)\, |
d2 (F,G) = sup F(z)-G (z) |
’ |
|
z |
z |
G(z) |
110