книги / Теория автоматического управления техническими системами
..pdf9.3. Типовая вариационная задача оптимального управления
Приведем для примера одну из типовых задач оптимально го управления, решаемую с использованием принципа вариа
ционного исчисления,—задачу со . свободным правым |
концом |
и заданным временем переходного процесса. |
началь |
Пусть заданы объект управления x{t)=f(x, u, t), |
ные условия х(^|), время окончания переходного процесса U и функционал качества в 'форме (9.3), т. е.
tt
/ = ^ /0(х, и, <)Л+ф[х(<а), Ч-
Образуют вспомогательный критерий качества / прибавле нием к (9.7) системы дифференциальных уравнений (9.6) с не которыми множителями, совокупность которых представляют
вектором M0=[M0 ...Я„(/)]т: 7=ф[х(*2), *2] +
t, |
(9.13) |
+ j {/о(X.и. <)+ Хт (<)[/(х, и, 0 -х (<)]}dt, |
|
где Т —знак транспонирования; \{{t) —множители |
Лагранжа |
(причем Л*(0,!;60 длявсех te l; п и являются дифференцируемы |
|
ми по t). |
называемую функ |
Введем скалярную функцию Я(х, u, |
|
цией Гамильтона, или гамильтонианом: |
(9.14) |
Н(х, и, %, *)=/о(х, и, *)+Ьт(0/(х, u, t), |
где функции f0(x, u, t) и /(х, и, /) —функции, определяемые из выражений (9.7) и (9.6) соответственно.
Интегрируя по частям второе слагаемое в правой части кри терия (9.13) и учитывая (9.14), получим
t»
7=ф[х(<2), с2]+^[Я(х,и. x,t)-xr(t)k(i))d(=
tt
= <р[х(/2). у+^[Я(х, u, X, t)+‘Xc(t)x(t)\dt-
-X(t2)x(t2+ XT(tl)x(tl).
Пусть u (t) —вектор оптимального управления, который обеспечивает минимум функционала I (или /), a x(f) —опти
мальное решение, т. е. реакция системы x(/)=f(x, u, t) на воздействие оптимального управления u(t).
Рассмотрим вариацию Ы функционала /, соответствующую вариациям векторов и(/) и х(/), имея в виду, что вариации бх(/)
не должны менять закрепленной начальной точки x‘(/i) |
т. е. |
|
ôx(f,)=0; |
|
|
*7-([i a ï |
LaL , „ - “' w )*’ w + |
|
|
r + t Tw)b <)■"+ |
|
+ it |
Х' ° ] Тд"(0<#- |
(915) |
Вариации бх и ôu в выражении (9.15) представляют собой отклонение вектора состояния х от опорного, а вектора управ ления и от программного соответственно; частные производные определяются векторами:
^ |
Г“ |
1 |
|
©•Кг £ |
1 i b
ГдН И dut
дф |
’ дх |
•: |
|
-дхп-
l дН -дхп_
’
,. ÙH -дит_
где п —размерность вектора х (порядок уравнения объекта); т —размерность вектора и.
Найдем необходимые условия экстремума функционала (9.15), т. е. б/=0, при произвольных стремящихся к нулю ва риаций ôu (t) и бх(/) относительно оптимального вектора управ ления и соответствующей ему траектории. Для того чтобы ис ключить влияние вариаций ôx(/), вызываемых отклонением по
управлению ôu(/) на вариации вспомогательного критерия б/, выберем множитель %(t) таким образом, чтобы коэффициенты при Ôx(f) и бх(/2) в уравнении (9.15) обратились в нуль. Необ ходимые условия экстремума будут выполнены, если
М*> |
_дН(.) |
i= l, |
(9.16) |
|
|
dxi ’ |
|||
<«(•) |
|
1-Г. |
(9.17) |
|
|
|
|
||
ди% =0; t= lf |
|
Так как уравнение объекта х=/(х, u, t), то и вариацияô/=0, т. е. будет выполнено необходимое условие экстремума требуе мого функционала /2. Таким образом, для нахождения опти мального управления необходимо решение системы, состоящей
из уравнений (9.6), (9.16) и |
(9.17), т. е. |
2Приведенны выкладки не |
обладают необходимой математической |
строгостью, чтобырассматривать их как доказательство необходимых усло вий решения варйациойной задачи.
х(<)=/(»«. 0;
i » — |
^ |
(9.18) |
aw(-) |
о |
|
при граничных условиях x(/j)=
Из гамильтониана (9.14) следует, что частная производная дЯ/дХ,=»/,(х1, и, О,
а функции Я|(0 при t= 1, ..., п традиционно обозначают через ф,(/). Поэтому систему из2л уравнений (9.18) обычно записы вают в следующем виде:
*w -5 £
(9.19)
дНdu_ 0.
Для того чтобы критерий / достигал локального минимума, не достаточно выполнения третьего условия системы (9.19); необ ходимо также, чтобы вторая производная функционала / при ре шениях системы (9.19) была неотрицательна для всех значений ôu(£), т. е.
ЬЧ>0.
Таким образом, решение задачи оптимального управления сводится к решению нелинейной системы уравнений 2п-го по рядка (9.19), причем для вектора состояний x(f) заданы усло вия в начале интервала (tu £2), т. е. в точке to, а для сопряжен ного вектора ф(0 заданы условия на конце интервала (f0, /к), т. е. в точке tk. Такого рода задачи называют двухточечными
краевыми.
Сложность решения вариационной задачи в форме системы (9.19) заключается именно в том, что граничные условия для векторов x(t) и ф(0 заданы на различных концах. Поэтому та кие задачи решают при помощи численных методов.
В случае линейной задачи с квадратичным критерием, рас смотренным в подразделе 9.5, эти трудности в значительной мере снимаются. Задача сводится к решению уравнения Риккати (9.32) по заданным условиям на конце интервала t=tk и получению оптимального закона регулирования (9.36), спра ведливого для любых начальных условий.
Для решения нелинейных двухточечны краевых задач обычно применяют ту или инуюитеративнуюпроцедуру, основаннуюна выборе некоторого бо лее или менее произвольного решения, которое должно удовлетворять сле
дующим условиям: уравнениям состояния; сопряженным уравнениям; ограни чениям как на управление, так и на состояние; граничным условиям. Это исходное решение, обычно не удовлетворяющее перечисленным условиям, за тем используют для улучшения результатов, т. е. для получения следующего решения, более близкого удовлетворениюнеобходимы условий оптимально сти, и т. д. (т. е. до тех пор, пока не будет получено решение, удовлетво ряющее имс требуемой степеньюточности).
9.4.Приведение задачи оптимального управления
куравнению Гамильтона—Якоби
Предположим, что функции F и Fit, входящие в функционал (9.3) или (9.5), являются гладкими, т. е. непрерывными и диф
ференцируемыми функциями. Пусть
/*[х(0. 4= min /[х(0, и(0. *]. |
(9.20) |
и(Мк) |
|
В уравнении (9.20) левая часть не содержит и (0- Действи тельно, если оптимальное управление найдено с учетом ограни чений (9.4), то минимум функционала (9.3), т. е. /*[х(/), Z], уже от него не зависит.
Имеем |
|
|
I*= min \ \ f (х, u, t)û?t-J- ÇF(x, u, t)dï+FK{x(ZK)» ZKjl |
||
L? |
/J |
J |
или, учитывая формулу |
(9.20), |
|
/*[х(0. *]= min kV(x. u, T)dT+/*[xft), *i]i |
(9.21) |
|
“('■'к) l,J |
y |
|
Пусть t\= t-\-№, тогда, разлагая правую часть (9.21) в ряд Тейлора, получим
7*[х(*М1= min {MF[x{t+ aM), u(Z-faAZ), (Z+ aA*)]+ и(М+д*)
+/*[x<<M]+ [^[x(*),<)]T-£ a i+
+<]4<+ °(Д<)г}, 0<о<1, откуда при Д/-*0, найдем
ж - (X.u, t)+ [^1]Т/(X, и*. <)}• (9-22)
Обозначим через и* управление, ' минимизирующее правую часть (9.22), тогда
т ? “ -Р[х. и*. *]+ $£-]'/(«. «-*)• |
(9-23) |
Граничное условие для уравнения (9.3) имеет вид /*[х(4), /k]=F[x(Zk)].
Уравнение (9.23) называется уравнением Гамильтона—Якоби.
9.5. Квадратичный критерий качества. Линейный объект
Рассмотрим теперь задачу оптимального управления для частного случая линейного объекта и квадратичного критерия, которую часто называют задачей аналитического конструиро вания оптимальных регуляторов (АКОР). Пусть уравнения объекта имеют вид (рис. 9.2):
-№
Рис. 9.2. Структурная схема оптимальной системы, реа лизующей квадратичный критерий
х=А(0х(0+В(/)и(0, х(*о)=х0, |
(9.24) |
где х(£)—n-мерный вектор состояния; и(/)—m-мерный вектор управления; A (t) —непрерывная матрица [пХп]\ В(/) —непре рывная матрица [пХт]. Критерий качества регулирования
гк |
|
/{х(д. и(-). 0=$(uTR(<)u+xTQ(0i)*+ |
|
+xrWF.xW, ” |
(9.25) |
где Q(/) —симметричная, неотрицательно определенная весовая матрица [пХп]\ R(/) —симметричная положительно определен ная3 матрица [mXm]; F* —неотрицательно определенная мат
рица [nXnf.
Требуется: найти вектор управления и, при котором функцио нал (9.25) имеет минимум; определить значение /*=min/.
Смысл этого квадратичного функционала можно пояснить следующим образом: выражение
/к
( xTQxdt
является мерой нормы ||х|| вектора x(t), т. е. мерой его колебательности в процессе регулирования; выражение
V
^uTRu<rt
аКвадратичнуюматрицу Мназывают положительно (неотрицательно) определенной, если скалярная величина uTMu положительна (неотрицательна) для всех значений вектора и, отличающихся от нуля.
является мерой количества энергии, используемой для управ ления; выражение
XkTFkxk
характеризует норму Нхк|| вектора x(f), т. е. отклонение от уста новившегося значения на конце интервала регулирования.
В некоторых задачах нужно стремиться к тому, чтобы все эти три значения были возможно меньшими. Поэтому задача оптимального регулирования состоит в минимизации функцио
нала (9.25).
Предположим, что, в соответствии с критерием (9.25), яв ляющимся квадратичной формой, выражение для /*[х(0> t] так же можно представить в виде квадратичной формы
/*[х(/), А-хт(/)Р(0*(0. |
(9.26) |
где Р(0 —симметричная матрица. |
(9.24)t |
Сравнивая уравнение (9.25) с (9.3) и уравнение (9.1) с |
|
легко видеть, что в рассматриваемом случае |
(9.27) |
F(x, u, 0=uTRu+xTQx; |
|
f(х, u, t)=A(t)x+B(t)u. |
(9.28) |
Согласно выражению (9.26), |
|
(lr)T=2xTP: |
(9-29) |
dl*/dt=xrPx. |
(9.30) |
Подставляя выражения (9.27)—(9.30) в уравнение |
(9.22), |
получим |
|
xTPx=min[uTRu+xTQx+2TPAx+2xTPBuJ. |
(9.31) |
u(0
Последнее выражение можно преобразовать в виду
хтРх= —min [(u-j-R^3TPx)TR (и+ R~IBTPx)+
и
+ хт(Q- PBR-‘BTP+ РА+АТР)х].
Если матрица R является положительно определенной, то вы ражение (9.31) имеет минимум яри
u*(0=-R-4*)BT(0P.(0x(0,
т. е. когда выражения в первых двух скобках в формуле '(9.31) обращаются в нуль. Но тогда
хтрх=—xT(Q—PBR-»BTP+PA+ATP)x.
Полученное уравнение справедливо для всех x(t), поэтому
—Р (О =РА+АТР—PBR“1BTP+Q. |
(9.32) |
Уравнение (9.32) является матричным нелинейным дифферен циальным уравнением Риккати. Граничные условия можно опре-
делить из следующих соображений. Согласно выражению (9.25), |
|
полагая в нем |
получим |
*k]=XT(*)Fkx(/k),
откуда, учитывая формулу (9.26), найдем
xT(*k)P(/k)x(*k)-xT(fk)Fkx(*k), следовательно,
P(/k)=Fk.
Если Fk=0, то P(/k)i=0.
Согласно (9.26), оптимальное значение I* критерия (9.25)
/*[х(*о), ^]=хт(/0)Р(Мх(/о). |
(9.33) |
Выражения (9.32) и (9.33) остаются справедливыми для любого начального значения t, т. е.
и* (0 =—R"1(О Вт(t)Р (0х(t) |
(9.34) |
/*[х(0, /0]=хт(/)Р(/)х(0. |
(9.35) |
Формулы (9.34) и (9.35) -представляют собой решение постав ленной задачи оптимизации.
Равенство (9.34) можно переписать в следующем виде:
и*(0= К(0х(0, |
(9.36) |
где
Анализ выражения (9.36) позволяет сделать следующие вы воды:
1) закон регулирования (9.36) приводит к структурной схеме с ОС, так как вектор улравления непосредственно зави сит от вектора состояния х(/);
2)закон регулирования (9.36) является «кинематическим»,
ане «динамическим», так как в нем не содержатся производ
ные или интегралы от х; 3) закон регулирования (9.36) даже в случае объекта и кри
терия с постоянными параметрами содержит -матрицу К(/)* за висящую от времени. Следовательно, замкнутая система регу лирования является системой с переменными параметрами;
4) основные трудности задачи оптимизации —необходи мость решения матричного уравнения Риккати и выбор весо
вых матриц Q и R;
5) решение характеризует свободные колебания системы. Заметим, что решение задачи оптимизации ранее было по лучено в предположении, что внешние задающие (или управ
ляющие) воздействия отсутствуют.
Рассмотрим задачу оптимального регулирования для слу чая, когда интервал оптимизации 7=/k—10 бесконечен. Эта за дача имеет решение только в том случае, если система, пол ностью управляема:
Вэтом случае установившееся решение Р является решением нелинейного алгебраического уравнения
РА+АТР-РBR-1BTP+Q=0.
Таким образом, матрица К не зависит от времени только в том случае, если оптимизациюпроводят на бесконечном интервале, объект регулирования стационарен и весовы матрицыRи Q, входящие в критерий (9.25), не зави сят от времени. Для этих условий можно сформулировать критерий устойчи вости замкнутой оптимальной системырегулирования. Уравнения для такой системылегко получить подстановкой закона (9.34) в уравнение (9.24):
х=(А—BR-1BTP)x,
и критерий устойчивости заключается в следующем.
Замкнутая система регулирования асимптотически устойчива, если пара [A, DJ полностьюнаблюдаема, где D—любая матрица, удовлетворяющая условию
DDt=Q,
аквадратичная форма хтРх является функцией Ляпунова.
9.6.Оптимальные ПИ-регуляторы
Вподразделе 9.2 был дан метод расчета линейных опти мальных регуляторов с обратной связью по вектору состояния. Такие регуляторы позволяют свести к нулю с течением времени
влияние на выход объекта ненулевых начальных условий или кратковременных импульсных воздействий. Однако в случае по стоянных или медленно изменяющихся входных воздействий такие регуляторы не могут обеспечить равенство нулю откло нений регулируемых величин от заданных значений. Для того чтобы они удовлетворяли такому требованию, закон регулиро вания должен содержать не одну, а две составляющие, одна из которых зависит от вектора состояния, а другая—от интеграла вектора состояния. Такие регуляторы называют пропорциональ но-интегральными, или ПИ-регуляторами.
Рассмотрим следующую задачу. |
объект с |
|
Предположим, что задан линейный динамический |
||
постоянными параметрами, описываемый уравнениями |
|
|
х=Ах+Ви, х(г0)=х°, |
(9.40) |
|
причем критерий качества регулирования имеет вид |
|
|
/[х(д. и, |
(uTRu+iiTSÛ+xTQx)dt, |
(9.41) |
где S —положительно определенная; R. и Q —неотрицательно определенные симметричные матрицы.
Предположим, что начальное значение управления и(£0) = =и° задано. Необходимо найти управление и*, минимизирую щее этот критерий.
Введем новые переменные