книги / Математические методы в системах поддержки принятия решений
..pdfВведем функции
и перепишем d/f, x(t)) с учетом дискретного задания отрезка времени [/0, Т\ в виде
= т а x{ftt, x(t), u(t))At + 4 t + At, x(t + At))},
u, eUl
где x(t + At) = x(t) + <р(/, х(0, н(0), A Q , АО е G, х(7)+ е g<zG, / = 1,/и. С помощью этих соотношений приближенно вычислим б,(/, x(t)) и
сформулируем рекуррентное уравнение Веллмана. Так, для конечного момента времени tN— Т = N согласно исходной постановке задачи по
лучаем |
|
|
|
|
|
Ч Т |
х(7)) = ФХГ, х(7)), х(7) G g ; |
||
для |
= Г —Д/ = УУ— 1 из выражений для £,{*> х(0) и х(/ + Д/) следует |
|||
|
|
4 T - A t , x ( t , |
Т —At)) = |
|
|
= |
A t, T - |
At), |
u ( T - At))At + Ч Т , AT))}, |
|
х + А*~х(Г + Д/) = х(Г) + |
— Дt, х, и(Т — At)), х + A xe g, |
откуда по значениям ЬЦТ, х(7)) приближенно определяем значение Ч Т — At, x(t, Т —д/)) на каком-то подмножестве С , с С и управление «('> Т — At, х), на котором имеет место функция d,(Т - At, x(t, Т —Д/));
для tN_2 = Т ~ 2Аt = N — 2 получаем
|
\Ц Т - |
2At, x(t, T - 2At)) = |
|
ЩU.T-2AI) |
2АГ, x, u(t, T - 2At)At + Ч Т At, x(t, |
T - At))} |
|
* + Ax » * + ф (7 " _ |
2Д/, x, u (T — 2A/)), x + Ax e |
G{. |
6 -5 3 9 6
81
Отсюда находим значение $ ,( Т — 2Д/, х(/, Т — 2Д/)) на каком-то под множестве (?2 с= (7, и управление и(Г, Т — ТА/, х); очевидно, что после вы
полнения двух шагов будет определено управление на отрезке времени [Г —2At, 7] как кусочно-постоянное на отрезках [ T — T A t,T —At] и \ Т - At, 71. Соответствующие соотношения для других моментов време ни к = 0,N - 3 устанавливаются по аналогии с полученным. В результа
те получаем рекуррентное соотношение — уравнение Веллмана
х) = max {/Д , u(k))At + 6 Д + |
1, <р(& + 1,х(£ + 1), и(к + 1)))}, |
$ t(N, х) = 0,(N , х), / = |
1,/я, к = О,N — 1. |
После N-ro шага реализации уравнения определяются значения |
|
функций б ,(0 ,х), /= 1,/я на множестве GN<zG и кусочно-постоянные |
функции-управления u,(t, 0, х) на отрезке времени [/„, 71 = 0,N с интер валами постоянства [kAt, (к + 1)Д/], к = О,N — 1. При этом вычисляются также траектория x(t) из решения уравнения движения с заданным на чальным условием х(/0) и значения критериальных функционалов; x(t0) должно быть проверено на принадлежность к GNc.G N_b в случае не
принадлежности решение не существует. Итак, для того чтобы найти
и0 = (и,°,и“, ..., и “)> |
необходимо |
найти функции |
Веллмана б Д ,х ), |
/ = 1,/я, к = О,N — 1, |
их области |
определения Gk, |
а также функции- |
управления и траектории, на которых достигаются максимумы функций Веллмана. Заметим, что практическая реализация принципа оптималь ности Веллмана очень трудоемка. Поэтому разработаны другие методы реализации этого принципа, например метод Моисеева в работах [51; 37; 21].
В заключение изложим сущность необходимых условий оптималь ности решения в негладкой многокритериальной динамической задаче. Такие условия формируются согласно принципу максимума Понтрягина при введении субдифференциалов функций Гамильтона и терми нальных членов по фазовым координатам х(/), х(/0), х(7) € ЕР. Они за
писываются по аналогии с условиями, изложенными в п.2.3, т.е. для того чтобы решение (и0, х°) было оптимальным — равновесным по Нэшу, необходимо существование вектор-функции у(/), t0< t£ T , и по стоянных у Л = 1, Ы| + Ы * 0, таких, что у(/), /0 < / £ 7, удовлетворяет
сопряженному уравнению в субдифференциальной форме
у(Г) = —Э,Я,(х°(0, и°(О, V(0), i = 1 ,m,
на левом и правом концах траектории x(t), h<>t<, 7, выполняются усло
вия трансверсальности в субдифференциальной форме
у(/0) = -Э Д 0(х(/0)), у(7) = dxGj(x(T)),
82
где Gb(x(t0)) = {x(t0) e E"\h(x(t0)) < 0}, Gj(x( T]) = {x(T) e £»[?(*( 7)) < 0} и
функции Гамильтона Щ х((), |
/= |
1,/и, достигают максималь |
ных значений на множестве |
U, т.е. по и, е |
Ui с U. |
3.3.Необходимые условия-аксиомы принятия решения по многим критериям в порядковых шкалах
Напомним очевидные утверждения:
—выбор решения из множества возможных осуществляется всегда на основе количественного или качественного сравнения связанных с решениями последствий. Это утверждение не зависит от принципа и ус ловий выбора решения, а также от постановки задачи выбора: матема тической, экономической, инженерно-производственной, управленче ской, интерактивной (человеко-машинной), психологической или эвристической;
—измерение, расчет значений последствий выбора и принятия ре шения может производиться только в какой-то определенной шкале на именований, ранговой — порядковой или отношений, количественной.
Было бы желательно осуществлять выбор решения, пользуясь толь ко количественной шкалой, однако практически в любых ситуациях, особенно в сложных и плохо структуризованных, ЛПР должно, как пра вило, учитывать и качественные неформализуемые факторы. Это озна чает, что ЛПР должно определить соответствующие критерии в форме бинарных отношений; естественно, что при этом ЛПР будет использо вать и соответствующие аналитические, и интерактивные методы.
Приведем постановку и подход к решению задачи выбора решения в интерактивном режиме как задачи обобщенного математического про граммирования по многим критериям в порядковых шкалах. Пусть ЛПР располагает дискретным ограниченным множеством X альтернативных
вариантов действий, из которых требуется выбрать наилучший х е X. Для этого ЛПР вводит на множестве X свою систему бинарных отноше ний R0. Система R0 есть результат агрегирования-преобразования сис тем бинарных отношений Rp j = 1 ,т, отдельных лиц, участвующих в вы боре решения х \ Будем считать, что R0 формируется по сумме мест
альтернатив и что
Х = {хе Д"| gfic) < 0, у = 1 ,т).
Каждое отдельное лицо способно, в том числе с использованием аналитических методов, устанавливать значения и опорные функциона лы ограничений g/x) < 0 ,j= 1,/я, для любого альтернативного варианта х е X, т.е. определять направления роста предпочтений по своей систе ме отношений Rj. ___
Тогда задача выбора решения по многим критериям Rt, j = 1,/я, за
писывается в следующем виде: найти такое х’ е X, |
чтобы |
x 'R o x V x e X , gpc) <0/\% {х) SO V/ = 1,/я, R0 = |
Ro(Rt, R2, ..., Rm). |
6* |
83 |
Для ее решения необходимо восстановить R0 по известным Rp j = 1,т. Здесь можно воспользоваться, например, правилом Дельфи или правилом Гудмана—Марковица (см.гл.1, [40; 71]), которое является единственным правилом группового решения (в нашем случае — правилом
ЛПР), если оно удовлетворяет следующим аксиомам [40; 71].
Аксиома анонимности. Отношение предпочтения R0 не зависит от ин декса соответствующего лица, участвующего в выборе решения, т.е. не меняется от перестановки этих лиц. ___
Аксиома нейтральности. Отношение предпочтения Rp j = \ ,т, не за
висит от обозначений альтернатив.
Аксиома единственности предпочтения. Каждому набору предпочте ний лиц, участвующих в выборе решения, соответствует единственное транзитивное упорядочение альтернатив.
Аксиома сдвига отрезка. Если два набора предпочтений лиц, участвую щих в выборе решения, различаются лишь предпочтением одного лица, а Y — отрезок относительно обоих предпочтений этого лица, то для х, у € Y отношение х > у возможно лишь одновременно в обоих групповых ре шениях. Здесь подмножество альтернатив Y a X называется отрезком в соответствующем упорядочении, если нет таких х, у е Y и z е X \Y , что х > z > у по системе предпочтений соответствующего одного лица.
Аксиома оптимальности по Парето. Если х > у для всехj = \,т и хотя бы для одного j предпочтение строгое, то х > у. Это условие отражает суверенность участников выбора решения.
Аксиома присоединения особых альтернатив. Если к множеству X при соединяется альтернатива w, такая, что для каждого j = \,т найдется альтернатива x J е X, для которой x j ~ w по RJf то отношения между аль тернативами из X не изменяются.
Правило Гудмана—Марковица удовлетворяет всем названным ак сиомам, что проверяется непосредственно в [40; 71].
Представим структурную схему выбора наилучшей альтернативы х е X.
Ал г о р и т м 1. Упорядочить альтернативы по каждой системе бинарных отношений предпочтения
__
2.Ввести значения полезностей альтернатив Oj(x)J = 1,/я. Для этого можно восполь зоваться алгоритмом из [13] или простой рекомендацией из п. 1.8 или см. [40; 72].
3.Вычислить для каждой альтернативы суммарную полезность
у=1
4.Упорядочить альтернативы х е X в порядке убывания суммарных полезностей.
5.В качестве искомой альтернативы х* выбрать альтернативу с максимальным значе нием суммарной полезности.
Рассмотрим другой вариант правила выбора коллективного реше ния — вариант, реализующий принцип лексикографического миниму-
84
ма. Этот принцип близок принципу выбора решения на основе «-ядра в теории кооперативных игр в форме характеристической функции [40; 50]; «-ядро — это Множество недоминируемых дележей.
Исходные данные для выбора решения: N — конечное множество
лиц, непосредственно участвующих в выборе решения, X — произвольное множество альтернатив,
F(x,t) — вектор функции, определенной на X, с компонентами
А х, ik)> 4 е к = 1, 2,..., л, как функциями полезностей соответствую щих лиц из множества N.
Определение. Альтернатива z е X называется лексикографическим минимумом относительно F, если не имеется таких х е X и I, \< 1 й п , что
А х, 4) = A z,A ), k < l, А х, i,) < A z,jk)
и
А х, /,) >Ах, 4) ^ - *А х, i„), A z,ji) * A z ,h ) * - *Az,j„).
Множество всех лексикографических минимумов называют лексимином (lex min) рассматриваемой задачи выбора решения. В связи с этим наилучшее решение — суть max min.
Лексимин существует и единствен, если выполняются следующие аксиомы [40]:
Аксиома симметрии. Лексимин не зависит от перестановки функций
А ; О- Аксиома независимости от посторонних альтернатив. Если
G, = (A-,, N, F), а д , N, F), Хха Х 2 и v«?2) n * * 0 ,
то
v(G,) = v(G2) n ^ .
v() — обозначение лексимина.
Аксиома доминирования. Если
х е v(G) и |
А х, 0 ^АУ, 0 V/ е N, то у е v(G), |
а если А х, 0 > АУ, 0 V/ € |
N для некоторого y e X, то х ё v(G). |
Аксиома объединения множеств целевых функций. Пусть
G\ — (X, N, Fi), G2 = (X N, F2) U G = (X ,N l v N 2,F i v F 2),
Если v(G,) n V(G2) * 0 , mo v(G) = v(G,) r> v(G2).
Это аксиома с е п а р а б е л ь н о с т и целевых функций.
85
Аксиома выпуклости. Если х, у е v(G) и г е X имеется а е [О 1], при которой f(z, О = ofix, О + (7 - a)f[y, i) V/ е N, то z e v(G).
Аксиома монотонного преобразования. Значения v(G) не зависят от монотонно возрастающего преобразования функции F.
При этом важным фактом является то, что система названных акси ом совместна, полна и минимальна; доказательство в [40].
Структура алгоритма выбора лексиминного решения строится непо средственно на основе определения lex min.
Ал г о р и т м
'1. Восстановить функции полезностей и,(х) на X для каждого / е N согласно системе предпочтений соответствующего участника коллектива. Эта операция осуществляется так же, как и при реализации правила Гудмана — Марковица.
2.Вычислить векторы полезностей и(х) = (и{(х), и2(х) , ..., ип(х)) для каждой альтерна
тивы х € X по функциям полезностей и,(х), /**1,2,..., п.
3. Упорядочить компоненты каждого вектора и(х) не по убыванию их значений как значений полезностей альтернативы х е X для соответствующих участников коллектива.
4. Выполнить попарное лексикографическое сравнение упорядоченных векторов u(x)t и(у) Vx, у е Хьс целью выявления из них максимальных лексикографически недоми нируемых альтернатив.
Такие альтернативы составляют л-ядро, они оптимальны по Парето и представляют max lex min решение рассматриваемой задачи. При выпуклом множестве исходных векто ров полезностей и(х) Vx е X, решение будет представляться одной 1ех-наиболыией альтер нативой.
Г л а в а ч е т в е р т а я
Необходимые и достаточные условия оптимальности выбора решений при риске
4.1. Необходимые и достаточные условия формирования механизмов выбора оптимальных решений
Для формулирования необходимых и достаточных условий опти мальности решений дополнительно к изложенным в п.1.6 исходным данным введем следующие допущения [2; 56]:
1. Случайный процесс z € Z является либо а) дискретным и имею
щим распределение вероятностей при условии существования какоголибо альтернативного состояния ПиПС, либо б) абсолютно непрерыв ным, т.е. имеющим условную плотность распределения вероятности в зависимости от существования состояния ПиПС или за малый проме жуток времени At вероятность больших приращений процесса оценива
ется малой величиной
Urn jp(z+ Az,t+ At\z,t)dAz = 0,
|Дг|£е
где е > 0, р( ) — условная плотность вероятности приращения процесса.
Согласно терминологии п. 1.6, отмеченные здесь распределение и плотность представляют конкретизации функции связи выборочных данных z е Z с неконтролируемыми ЛПР факторами-параметрами y e Y, определяющими состояние (действие) ПиПС. Состояния ПиПС
во времени могут изменяться.
2.Множество неконтролируемых ЛПР параметров Y сепарабельно;
сепарабельным будет и множество априорных распределений вероятно стей на Y.
3.Функция потерь Н у, у(г)) является ограниченной функцией в за
висимости от у е Y и от у(z) — решения ЛПР, g е Г, где множество Г —
компактно.
4. Множество решающих функций {<р(у|г)} — выпуклый компакт и включает либо классические — непоследовательные, либо последова тельные правила выбора решений. При этом нерандомизированные ре шающие функции представляются элементами множества Г оконча
тельных решений ЛПР.
87
5. Стоимость проведения экспериментов по получению выборочных данных (наблюдений z) неотрицательная, ограниченная и неубывающая
при увеличении количества экспериментов.
Эти допущения не являются нереализуемыми и ограничительными для формирования механизмов (алгоритмов) выбора оптимальных ре шений. Действительно, выборка z е Z на практике всегда либо дискрет на, либо абсолютно непрерывна. Сепарабельность множества Y необхо
дима для обоснованного задания распределений вероятности, введение которых исходит из объективной необходимости построения функцио нала качества выбора решения как математического ожидания функции потерь; при этом следует заметить, что при введении распределений (если они существуют) на Y множество стратегий ПиПС расширяется и
становится множеством смешанных стратегий. Допущение относитель но ограниченности функций потерь и стоимости экспериментов с прак тической точки зрения вполне естественно и достаточно просто прове ряемо.
Механизмы выбора решений при риске делятся на байесовские, когда ЛПР располагает априорными сведениями о распределениях вероятно стей на множестве Y возможных простых и сложных состояний ПиПС, и
небайесовские — в противном случае. Простое состояние (гипотеза) опи сывается скалярным параметром, сложное — векторным. Теперь вос пользуемся выражением для среднего риска из п. 1.6, считая, что ЛПР располагает нерандомизированными решающими функциями, т.е.
4>(Y U) = 5(Y - T(Z)),
где 8 обозначает дельта-функцию и у(г) зависит от наблюденных дан ных. Тогда оптимальное решение 8° находится в результате решения за дачи
тахтт/?(ф ,ф ) = гшптах.Л(ф,ф) или minЛ(ф,8)
(vl (vl |
(v) (VI |
* |
при заданном априорном распределении ф е {ф} на Y, где выражения
для Д(ф, ф) те же, что и в п. 1.6 (здесь 8° является байесовским решени ем).
Для того чтобы решение ф°и было минимаксным, необходимо и
достаточно выполнения перечисленных пяти допущений. Минимаксно му решению соответствует меньший максимальный средний риск по сравнению с риском при любом другом решении из {ф}. Доказательство этого решения по существу представляет доказательство известной ос новной теоремы теории антагонистических компактных игр [47].
При выполнении допущений 1—5 для любого априорного распреде ления ф е {ф} найдется решающая функция 8 е {8}, являющаяся байе совским решением задачи min Л(ф,8). Доказательство этого утверждения
непосредственно следует из известной теоремы Вейерштрасса о своей верхней и нижней грани [55]. При этих допущениях всегда существует наименее благоприятное априорное распределение на Y, относительно
88
которого всякое минимаксное решение <ргат является байесовским [2; 56].
Отметим также, что класс всех байесовских решений полон относи тельно класса всех правил выбора решений, соответствующих ограни ченному в зависимости от у € Кусловному риску, т.е. в полном классе всегда можно найти решение, равномерно лучшее по сравнению с каким-либо правилом, не принадлежащим ему; иначе говоря, при нали чии такого класса решений не возникает необходимости в рассмотре нии дополнительных, не принадлежащих ему решений.
Если априорные распределения вероятностей не существуют, то сформулированные выше допущения и опирающиеся на них утверж дения становятся нереализуемыми. В этом случае для выбора опти мальных решений используются небайесовские механизмы. К ним относятся механизмы, основанные на принципах максимального прав доподобия, Неймана-Пирсона, локальной оптимальности или на при менении непараметрических методов.
4.2.Структуры байесовских механизмов выбора оптимальных решений
Согласно изложенным необходимым и достаточным условиям фор мирования механизмов выбора выведем структуры байесовских меха низмов.
1. Воспользуемся выражением для среднего риска
5) = X |
л М ) М у, ЖУ/)8(УJ - У , (z)))dz, |
|||
|
yt eY y je r |
|
|
|
где L(yh Yj(z)) |
— функция |
потерь, |
/'= 1,и, j — 1 ,п, |
и пусть состояния |
у,е Y — простые, |
|
|
|
|
|
|
если |
j = v, v = l,n, |
j —\,n, |
|
|
если |
j * v, |
|
Л4У/)> <= |
— функция правдоподобия получения выборки г е Z |
|||
при условии существования у, состояния ПиПС, |
|
\|/(у,), / = 1,л — априорное распределение на У пусть оно (по сообра жениям упрощения техники задачи) задано (иначе потребуется решение минимаксной задачи; такие задачи изложены в пятой главе).
Так как решающая функция 8(у- —у„(г)) принимает значение, равное единице, лишь при одном значении индекса j = v, j —1,л, а для всех
других она равна нулю, то для заданного априорного распределения
n
VOV). ' = !.«, Х ^ (У /) = 1»
89
структура исходного механизма определяется из
min/?(\|f,S)
5
и имеет следующий вид: принимается решение у„ если выполняются для всех j * v неравенства
X |
L(^y >>7v(г))/Д |у, )v(y,) £ X Д ^ Л j W f f t y i |
). у = l,«, v. (l) |
/=1 |
/=1 |
|
ПустьЛ г | у,), /=1,2, — нормальные функции, z= (г„ z2,.... г») — вы борка объема п взаимно независимых одинаково распределенных одно
мерных случайных величин. Тогда правило (1) записывается в виде: принимается решение у,, если
Л * / у , ) ^ у (у 2) [Д у2 >У| (г)) ~ Д у 2>72(*))] / ( г / у 2) ~ ¥ (у, ) [Ду, ,7,(г))- Д у, ,у, (г))] Р’
в противном случае принимается решение у2. Для принятых исход ных данных это правило (запишем его только для у,) преобразуется к виду
П |
1 |
-я»,, )2 |
|
|
ехр] |
|
|
||
|
|
2 а 1 |
= ехги — |
[(г„-«*„)2 - Д „ - т У2)2] |
|
|
! (гц -/лУ2)2 |
||
П |
1 |
ш |
|
|
ехр] |
|
|
i2 а 2
^у(у2) [Ду2 ,у,Д» - Д у2 ,у2 (г))] ~ ¥(У,) [Ду, .7, (г)) - Д у,.7, (г))]
ИЛИ |
|
|
|
|
X |
>[2а2 1пр-(/и^ - ш22)] |
2(«^ - т , 2) |
|
м=1 |
|
|
|
|
|
|
В восьмой главе приведены структуры правил выбора решений и |
|||
при других исходных данных. |
|
||
2. |
Если состояния ПиПС — сложные, то в структуре рассматривав- |
||
мого механизма должны быть учтены априорные распределения вероят |
|||
ностей на соответствующих множествах их компонент. Обозначим та- |
|||
кие распределения |
___ |
«Ч |
|
через Ду,'), 1=1,т„ |
Х Д у , ' ) = 1- В этом случае |
||
|
|
|
/=i |
90