Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Математические методы в системах поддержки принятия решений

..pdf
Скачиваний:
6
Добавлен:
12.11.2023
Размер:
16.41 Mб
Скачать

5 .1.4. Необходимые и достаточные условия оптимальности стратегий в конфликте, аппроксимируемом многошаговой стохастической игрой

Стохастическая игра есть многошаговая антагонистическая игра с

конечными множествами чистых стратегий сторон и игровых компо­ нент-состояний игры с условием перехода из одного состояния в другое на каждом шаге, в том числе и в состояние окончания партии, регла­ ментируемом переходной функцией распределения вероятностей вне зависимости от предыстории.

Выбор стратегий стороны осуществляют на каждом шаге одновре­ менно и независимо, зная текущее состояние игры. При этом складыва­ ется ситуация и соответствующая ей переходная функция. О результатах такого выбора и исходах случайного механизма, реализующего в сло­ жившейся ситуации переходную функцию, стороны информируются к началу каждого шага. На любом шаге игры при любом выборе сторона­ ми своих стратегий осуществляется выплата выигрыша одной стороне из ресурсов другой. Окончание игры может произойти не только при переходе в это состояние согласно переходной функции распределения, но и как только одна из сторон полностью израсходует свой ресурс. При переходе из какого-либо состояния в состояние окончания партии платеж сторонам равен нулю. Общий же доход каждой стороны равен сумме ее доходов в составляющих играх — компонентах партии.

Партия представляется последовательностью шагов пока не закон­ чена игра или, при геометрической интерпретации многошаговой игры графом-деревом, последовательностью ребер и вершин от начального состояния до состояния окончания игры с учетом возможности возвра­ щения в предшествующую позицию. Вероятность возникновения бес­ конечной партии равна нулю.

Итак, конструкция игры на каждом шаге формально представляется набором платежных матриц в соответствии с количеством возможных состояний. Такие матрицы игр-компонент Гк на шаге /+ 1 имеют вид

 

pf

 

р*

р:

a *

a nk + £ ? " v a l / ’/ (d ()

a^. + ^ q ^ w a i r , ^ , )

< + £ < 7,*'valf/(d ,)

 

1=0

 

1=0

1=0

а 1

ап + X < 7 > W , )

< + X ? " v a ir /(d /)

fl* + X ^ v a l/’ (6 ,)

 

/=0

 

1=0

1=0

а »

ат + 5 X vair'(d ')

4

+ 2 X valy’/(^>

° L + X ? £ va1Л0&Л

 

1-0

 

1=0

1=0

где t — индекс шага игры, t=

1,2

 

к — индекс игры-компоненты на текущем шаге, к = 1,2,...,/• (г обо­ значает также и количество игр-компонент);

9*

131

a* = (af,a 2 ,.«»ctj,)> р* =(Pf,|3*,...,|3*) — обозначения смешанных

стратегий одной и другой стороны, эти стратегии являются элементами векторов стратегий a = (a1 a2 .... a * , a r) и p = (P1 p2 P * , P O

соответственно;

тт

/— индекс стратегии первой стороны; j — индекс стратегии второй стороны;

вероятность перехода из состояния к на текущем шаге / в со­

стояние / на очередном шаге / + 1, если на текущем шаге одна из сторон

выбрала стратегию с индексом /, а другая — с индексом у, при этом с ве­

г

роятностью q™ =1-^Г$г" партия заканчивается, состояние окончания

обозначено индексом «ноль»;

val/’/(6,) = 6j+l — значение игры, определяемой l-й игрой-

компонентой на шаге t + 1;

-элемент вектора б ,+| =(dJ+l,d^+1,...,dJ+I,...,T>;+l) для всех г

игр-компонент на текущем шаге стохастической игры, t = 1,2

а у — значение выигрыша, когда одна из сторон выбирает чистую

стратегиюг /, а другая — чистую стратегию j;

dy val/'/Cfl,) — выигрыш первой стороны при условии, что

/=о она на очередном шаге в игровом состоянии к выберет чистую страте­

гию с индексом /, а вторая — с индексом у и с вероятностью q* игра пе­

реходит из состояния к в состояние /, т.е. к игре-компоненте Г,.

Установлено[130], что в рассматриваемой стохастической игре сто­ роны могут выбирать свои чистые стратегии в зависимости только от текущего шага игры без учета предыстории и рассчитывать на ситуации равновесия в стационарных стратегиях.

Определение. Стратегии стационарны, если для всех к векторы о * и Р* зависят только от текущего состояния игры.

Теорема. Существует единственный вектор тЗ’, удовлетворяющий максиминному для первой стороны и минимаксному для второй стороны, реше­ нию усеченной стохастической игры; вектор б* находится путем решения матричных игр Гь k = 1, 2, г.

Эта теорема утверждает необходимые и достаточные условия опти­ мальности решения, как и в матричной антагонистической игре.

Усеченная игра образуется следующим образом. Игра проводится без изменения, если она выходит в состояние окончания до N -го шага; если же она продолжается N шагов, то вместо ее продолжения на УУЧ-1-м

шаге вторая сторона выплачивает первой фиксированную установлен-

132

ную до первого шага величину d 0 = (dj, ,d l ,...,do ,...,dj) в зависимости от

того, какая игра-компонента должна была проводиться на Л^+1-м шаге. Допустимо считать, что при большом N усеченная игра практически

не будет отличаться от первоначальной и значения названных фиксиро­ ванных выплат практически не повлияют на общую цену усеченной игры. Действительно, в случае усечения игры на N шаге посредством выплаты д0 в любом состоянии к = 1,2,...,г должна проводиться игра,

первая от конца и такая, как если бы стороны разыгрывали ее на пер­ вом шаге, т.е. разыгрывали бы игру

гп(«о)= (Л1

ю , . . . ,/ Ж ),-Л (*!»,

и далее стороны должны следовать принципу обратной индукции, кото­ рый можно выразить так:

ПА) ~ ^i, ^2(^0) —ПРд ~ $2, т 0) —7(д2) ~ *3» W 0) —А>

где Т — преобразование цен или это алгоритм вычисления оптимально­

го решения. Согласно приведенной теореме, lim Ты(Ъй) = д*.

N —*oa

Структура алгоритма вычисления оптимальных стратегий сторон в стохастической игре, заданной игровыми компонентами и состоянием окончания, по существу представляется четырьмя операциями:

— заданием вектора д 0 = (d o ,d j,...,^ ,...,$£);

— вычислением элементов игр-компонент Гк(-&,) на каждом шаге

/ + 1 по выражениям

 

 

%

Ь2"А. >

Л ( А )

 

 

и дж = val/;(d,),

 

 

Awi

^ш2•А»,

где Ьи = ау

к =

l,2,...,r, val/i(d,) — значение игры-компоненты

/=i

 

 

 

(состояния) к = 1, 2,

...,

г на шаге t + 1;

вычислением максиминных, минимаксных стратегий и доходов (значений игр-компонент) сторон на каждом шаге t+ 1;

вычислением суммарных доходов сторон.

5.2. Необходимые и достаточные условия выбора решения по принципу Нэша

При исследовании конфликта, исход которого зависит от взаимно независимых действий нескольких сторон согласно их целям, выбор ре­ шения может осуществляться согласно принципу оптимальности Нэша в бескоалиционной игре.

133

Ситуацию х® = (х,®, х®,

х®, х®) называют ситуацией равновесия по

Нэшу, если для всех х ,е

X, и / = 1 ,п, выполняется неравенство

/Хх») > Ж*°И*,),

ИЛИ /)(х°) = max /•<x°||xi),

 

 

*/

где (х°||х#) означает (х®,

х®_,, х®, х®+1, х®);

/ — индекс стороны, участвующей в конфликте;

Л] — множество стратегий /-й стороны;

П

/)(х|, х2 х я) — критерий эффективности, определенный на

/ =1

Ситуация х® является множественным принципом оптимальности —

выигрыши сторон в различных ситуациях равновесия неодинаковы. Од­ нако если все стороны придерживаются в конфликте одной и той же ситуации равновесия, то каждая из них обеспечивает себе выигрыш не меньше своего максимина, т.е.

F ,(x * ,x l,

,.,x,,...,x„)V/

и каждой из них невыгодно нарушать ситуацию равновесия х® если дру­ гие стороны ее не нарушают. Такая ситуация является устойчивой.

Действительно,

Fi (x°)> F i (x°,..., х “

х®

tf+1,..., хя) ^ inf F/ (Xj,..., х ,, х,+|,..., хя)

 

 

xj t X j

или, в силу произвольности х„ получаем

F ,(x0)> sup

inf

Ff (x ,, x2,. • %i-1>x i » Xi+i >• .*«)•

XI e X ,

* j j £ j

 

Отсюда следует также, что условия существования и способ нахож­ дения ситуаций равновесия могут быть сведены к условиям (аксиомам) существования и вычислению максимина.

Однако достаточные условия существования ситуации равновесия можно сформулировать лишь тогда, когда множества X» i = 1,и и функ­ ции Ffyci, ..., хя) удовлетворяют специальным требованиям, а именно: если множества стратегий Х„ / = 1,л, — выпуклые компакты, функции F fa„ ..., хя), I = 1,л, непрерывны по совокупности аргументов и вогнуты по х, на Х„ то ситуация равновесия по Нэшу существует. Эти требования

выполняются полностью, если исходные множества стратегий сторон — выпуклые компакты и на них введены смешанные стратегии. При этом для того чтобы ситуация <р*(Л) в бескоалиционном конфликте я сторон была ситуацией равновесия в смешанном расширении, необходимо и

134

достаточно, чтобы для любого / и любой чистой стратегии х, X, выпол­

нялось неравенство

/^Ф*(ВД1к)^/Хср*(Л0)-

Установим справедливость этого неравенства. Пусть фДЛ') — произ­

вольная смешанная стратегия /-й стороны и ф*(Л) — ситуация равнове-

п

сия на X = в смешанном расширении. Тогда (учитывая соотноше-

/=1

ния между оценками эффективностей чистой и смешанной стратегий [73]) получим определение ситуации равновесия по Нэшу.

^(ф*(А*,)1к-)= |/^(Ф*(Л*Ж)^ф, ^ ( ф*(*))•

X,

Конкретизируем это неравенство для отыскания ситуации равнове­ сия в бескоалиционном конфликте двух сторон, обладающих конечны­ ми множествами чистых стратегий

Х х=

{1, 2, ..., т),

Х2 = {1, 2,

...,и},

смешанными стратегиями

 

 

Р = (Ри Рг>

Рт) е О Д ),

Я = (Яи Яг, - , Я») е Q(X2)

и функциями выигрыша

 

 

 

 

 

т

Р ,(р ,я )=

F lip , я) =

Х О Д А *

=1>

/бДГ.

 

/е*.

1 = 1

У6ДГ2

 

у6лг2

 

Из определения ситуации равновесия имеем

/■(/, (f>)<Fx(p \

<f), i = Xm ,

F2(p°, j) й F2(p°, <f),

 

± Я ) = \ ,

± p ? = 1,

 

 

M

/=1

 

^,(/'0,? °) = max/:;(/,? 0) = d l ,

?®>0,

F2( p ° ^ ° ) = rnmF2(p0>J) = '&2,

p f> 0.

 

ISki S/f

 

 

Итак, ситуация равновесия в рассматриваемой операции двух сто­ рон есть решение следующих линейных систем:

135

X aff^ = Ъ, V/ = l,ro,

£ fy =1>

y=!

y=i

XV' =Й2V/= l,n,

£/>, =1.

/=1

/«I

Отметим [85], что для того чтобы в более общем случае конфликта п

сторон, не образующих коалиции, имелась ситуация равновесия в чис­ тых стратегиях, необходимо и достаточно, чтобы

inf Ф(х° ,у ,) = шах inf Ф(х,, х2,.... у , ,.... х„) = 0,

У/ ел,

xje Xj У! eXj

j*i

где Ф (х,, х2,..., у , ,..., х„) = (F, (х ,, х2,.... х ,,..., хя) - F, (х||у()).

 

/=i

Действительно, имеем

inf Ф(х, у) = inf '£ [F i (x ) - F i (x\\y)] =

 

r * r /=1

= Х ^

<Х)" "Р^/ (Х1»-» Х,-\ * У> Х1+1. ••• Х«)]* °.

/=1

У бГ

или sup infФ(х, у) < 0;

хг

sup Ф(х, у) = sup У [F, (х) —Ft (х)| у)] =

хбЛГ

х е Х f T f

п

 

= X w (х) ” in| Fi(*i >••••х,.,. У’ ХМ > *„)]^ 0,

/=|

или inf sup Ф(х, у) > 0, т.е. получаем неравенства

Y X

sup inf Ф(х, y )S 0< inf supФ(х, у).

х

Y

Y X

Если теперь (х°, У*) — седловая точка функции выигрыша Ф(х, у), то

эти неравенства становятся равенствами, и тогда

inf Ф(х°, у) = 0.

Y

Таким образом, ситуация равновесия является решением оптимиза­ ционной задачи вида

так g

(х) “

^ (*11 -V)!= °-

136

Перейдем к изложению оптимальности стратегий в д и н а м и ч е с - к о й о п е р а ц и и — конфликте. Пусть в конфликте участвуют две сто­ роны, цели которых не строго противоположны. Динамика хода опера­ ции описывается векторным дифференциальным уравнением

^

= f it, zif), u{t), т

\ t0<,t<T,

 

at

 

 

где t0 и T фиксированы,

 

 

X е £*, u(t) € t / c F , fl(/) € Ус. E ,

Z(0) = го,

Z(T) = ZT заданы.

Каждая сторона стремится максимизировать свой критерий на мно­

жестве своих управлений, т.е.

 

 

т

 

 

 

f Fx (t, zif), aif), W ) d t+Ф, iziT), D ->

max,

J

 

 

u(t)eU

'o

 

 

 

T

 

 

 

f F2 it, Zit), м(0, Щ )Ш +Ф 2 iziT ),T )

шах.

J

 

 

d(/)€K

В основу вывода необходимых условий положим подход, реализо­ ванный в п. 5.1.2. Сформулируем эти условия. Если существуют допус­ тимые стратегии сторон и0it), тЭ-°(Г) и непрерывно дифференцируемые функции (р (/, zit)), i — 1,2 на [/0, Т ] х Е , за исключением, быть может, конечного числа гиперплоскостей вида tk, к = 1, 2, ..., и такие функции <р„ что при zit) е Е 1, t е [/0. Т\

- + Эф;(?’г -/ , (', Zit),и 0it), б ° (0 )+ F,it, zit),и 0it), б ° (/)) = 0, / = 1,2,

dt

az

 

 

 

 

 

B%{t,Z)- +

^ ^

- f l it,Z,U, ^ ) + Fl it,z,u ,-d °)^ 0

V u e

U,

 

Эt

Эz

 

 

 

 

j j P ^ + 3ip^

/ 2(f,z ,u \ti) + F 2it,z ,u ° ,$ )Z 0

V fl6

V,

 

Эt

az

 

 

 

H T ,Z iT )) = 0 ^ T ,z iT )), / =1, 2,

то стратегии и°(/), $ 0(0 составляют ситуацию равновесия в бескоали­ ционном динамическом непрерывном конфликте двух сторон.

137

Задача. Имеется динамическая система, движение которой описывается уравнением *(/) = *(/) + w(/)v(0, x(f0) = х0, где !/(/) и v(/) — функции управления на отрезке времени [/0,7]. В управлении движением системы принимают участие две стороны, их цели непро­ тивоположны, и они достигаются посредством минимизации критериальных функциона­ лов I\(u(t)) и / 2(и(0) соответственно одной и другой стороной. При этом на управления сторон «/(/) и v(0 каких-либо ограничений не накладывается. Найти оптимальные управ­ ления сторон, если

г

т

/,(«('»=J(*2(0+Ul (t))dt,

/ 2(Н(0) =JV(0+ v2U))dt.

l0

tQ

Р е ш е н и е . Составим достаточные условия абсолютного минимума критериальных функционалов

min{<p<')(x(0,0W 0+ «(0v(0) + * 2(0 + "2(')} = -<(>!1)W 0,/),

<р<‘>(х(7),7) = 0,

и

 

 

 

min«p<2)W 0 ,/)W 0 + u(t)v(t)) + x \ t ) +

«2(0> = - ф| 2)(дс(0 ,0 ,

<p<2>W7),7) = 0.

V

 

 

 

Выпишем выражения для оптимальных по Нэшу управлений

 

«°(0=-i.«p<I)W0,0v°(/X Ao=-J<pi2)wo,o«0(/);

очевидно, что

 

 

 

U°(I) = A t) = о V/S [/0, Л-

 

Выпишем достаточные условия с учетом оптимальных управлений:

4>i1)W 0,0W 0+ *2(0 = -<P (i)WO,0,

<P(1)W7),7) = 0,

4>i2)WO.OWO+ *2(0 = -q><2)W0,0,

4>(2>W7).7) = 0.

Для отыскания решений этих уравнений зададим функции фМ и ф(2) в виде

Ф^)(х(0,0 = УЧО*2

 

= У2)(0*2-

 

Тогда выражения для достаточных условий преобразуются в равенства

2у<1Ьс2 + х2 = - у (1Ьс2, ф(1)(7)х2 = 0,

2\|/<2Ьг2 + х2 = -\j/(2)x 2,

\|/2)(7)х2 = 0,

из решения которых методом варьирования постоянной [17] получаем, что

ф(,)=ф<2)= 1(1 -е2(7’',>).

Выпишем выражение для оптимальной траектории движения системы из решения уравнения движения при оптимальных управлениях сторон:

х0(/)=х0е'('''») 10 й ( й Т

138

5.3. Необходимые и достаточные условия выбора решения по принципам оптимальности в форме С-ядра и вектора Шепли

Если в конфликте N сторон имеется возможность кооперирования (сотрудничества, взаимодействия) между S сторонами (S< N), т.е. воз­

можность образования коалиций сторон, действующих независимо, то такой конфликт интерпретируют кооперативной игрой и анализируют с помощью характеристической функции, которая представляет макси­ мальный гарантированный выигрыш каждой коалиции 6(5). Пусть коа­ лиции как-то образованы. Тогда возникает вопрос, как делить общий выигрыш с учетом веса каждой коалиции между ее членами. Естествен­ но положить в основу анализа кооперативной игры принцип оптималь­ ного распределения максимального выигрыша 6(5) между сторонами i S. Реализация этого принципа приводит к рассмотрению множества

недоминируемых «вполне устойчивых» дележей кооперативной игры, называемого ее С-ядром.

Дележом называется вектор х = (х,, х2, ..., х,), удовлетворяющий ус­ ловиям индивидуальной рациональности х , > 6 (0 для всех i e S и кол­

лективной рациональности

х(' < $(S). Дележ х' доминирует дележ х",

 

i e S

т.е. х ' у х ", если х' > х"для всех / е 5 и

х ' < d(S). При этом любой де-

s

U S

леж из С-ядра устойчив в том смысле, что ни одна из коалиций не име­ ет ни желания, ни возможности изменить исход игры, а когда есть угро­ за от некоторой коалиции, которая требует для себя более выгодного распределения выигрыша, остальные стороны реагируют на эту угрозу объединенными действиями.

Для того чтобы дележ х принадлежал С-ядру, необходимо и до­ статочно [47; 77] выполнение неравенства ■6(5) <х(5) для любого S c N ;

С-ядро может оказаться пустым, например когда есть слишком сильные коалиции. Если С-ядро пусто, то требования всех коалиций одновре­ менно не могут быть удовлетворены.

Итак, С-ядро принимается как важный принцип оптимальности в кооперативной игре. В случае, когда какая-то сторона (игрок) не явля­ ется существенной, т.е. не принадлежит коалиции — носителю игры, возникает необходимость конструирования принципа оптимальности как принципа справедливого дележа. Игрок называется несуществен­ ным, если сумма его выигрыша, получаемого в результате действий в конфликте не в составе какой-либо коалиции, и выигрыша коалиции, к которой он мог бы быть присоединен, равна выигрышу этой новой коа­ лиции.

Принцип справедливого дележа сформулирован Шепли в виде сле­

дующих аксиом.

Аксиома симметрии. Пусть к произвольная перестановка игроков и

6(5) = 6(TC(S)), тогда Ф,(6) =

где n(i) образ игрока i при

пере­

становке к; Ф,(6) — компонента вектора Ф(6) = (Ф,(6),

Ф ^б)),

пред­

139

ставляющая полезность (выигрыш), получаемую игроком в кооперативной игре в результате соглашения или решения арбитра; Ф(тЗ) — вектор Шепли игры (N, тЗ).

Аксиома эффективности. Если S носитель /3, то У'Ф , (б) = $(S).

Аксиома агрегации. Если характеристическая функция игры (N, <р) равна сумме характеристических функций тЗ и соответственно игр (N, тЗ) и (N, и), т.е. для любой коалиции S с N справедливо ф(5) = $(S) + u(S), то Ф,(ф) = Щ Ъ + и) = Ф/(д) + Ф,(и), i е N.

Эти аксиомы непротиворечивы и составляют полную систему в том смысле, что для всякой характеристической функции игры существует единственный вектор Шепли, компоненты которого есть справедливые выигрыши каждой из участвующих в конфликте сторон. Компоненты вектора Шепли определяются [47; 77] по формуле

где символ п\ означает п(п - 1)...3 • 2 • 1, п > 0, 0! = 1.

Вычислив компоненты Ф,(Ф) и сравнив их с компонентами ФЛ!) век­

тора Шепли операции |5| сторон, характеристическая функция которой является сужением (частью) заданной характеристической функции тЗ на конкретное рассматриваемое множество S, можно сделать вывод о

наиболее эффективных коалициях сторон. Вектор Шепли удовлетворя­ ет всем аксиомам и является заданием (описанием) принципа опти­ мальности в кооперативной игре, когда С-ядро пусто или когда оно не пусто, но вектор Шепли ему не принадлежит.

Рассматривают также взвешенный — несимметричный вектор Шеп­ ли. Его компоненты определяются дополнительно вектором положи­ тельных весов Х„ i е s, ^ Х , =1; необходимость их введения возникает,

например, когда требуются различные усилия сторон для достижения выигрыша операции. Но тогда стороны, имеющие нулевые веса, при распределении выигрыша не получают ничего.

Для иллюстрации применения вектора Шепли рассмотрим пример. Пусть одна из сторон является производителем какого-то вида сырья, в котором нуждаются другие п сторон-потребителей. Последние могут об­

разовывать на рынке сырья коалиции равноправных участников. Очевидно, что такие коалиции будут доставлять доход только тогда,

когда в их состав входит производитель. При этом доход каждого /-го потребителя от использования единицы сырья оценивается величиной ph а расходы производителя по производству сырья — величиной р. Ка­ ждый потребитель может приобрести xt единиц сырья.

По этим данным можно составить характеристическую функцию i3(6), где S обозначает коалицию сторон из их исходного множества — N , |Л1 = и+1. Запишем эту функцию в виде таблицы

140

Соседние файлы в папке книги