Главная страница  Системы автоматического управления 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 [ 140 ] 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180

(15.9)

Это новое положение позволяет совершать движение вперед от начальной точки Хо- Будем рассматривать теперь каждую последуюш,ую точку в качестве конечной и выполним ту же последовательность действий, что и в предыдуш,ем параграфе. Если функцию (Xff) определить как значение критерия оптимальности для точки Хдг, рассматриваемой в качестве конечной, когда процесс начинается в точке Хо, то можно получить следующие функциональные уравнения:

fl (Xi) = min [L {Xi, и) М]; . fit {Xj) = min [fN-i (g (лг-1, и)) + L (xn-i, u) At

(покажите это). При такой формулировке можно по-прежнему проводить синтез и определять решения относительно произвольных начальных точек.

Не удивительно, что новый взгляд, который обеспечивает динамическое программирование, способствует лучшему пониманию проблемы оптимизации. Большую часть важных результатов, получаемых с помощью классического вариационного исчисления, можно вывести путем простого и непосредственного применения метода динамического программирования Точно так же некоторые особенности принципа максимума можно выявить, рассматривая эту проблему с точки зрения динамического программирования. Для того чтобы оценить сказанное, необходимо рассмотреть данный метод применительно к непрерывным системам.

15.3. ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ ДЛЯ НЕПРЕРЫВНЫХ СИСТЕМ. УРАВНЕНИЕ БЕЛЛМАНА

Используем теперь принцип оптимальности применительно к управлению непрерывными системами. Покажем, что можно вывести дифференциальное уравнение в частных производных, соответствующее функциональным уравнениям (15.8). Это уравнение называют уравнением Беллмана

Рассмотрим следующую задачу Лагранжа. Для системы х - f [х, и, t), начинающей движение из начального состояния х (tj) = х найти управление и (/). ограниченное некоторым допустимым классом функций Q {1) и определенное на интервале времени [t t], которое минимизирует пока-

затель качества f = L [х, и, t) dt, где функция L [х, и, t) предпола-

гается непрерывной по t. Конечное состояние л: {t) = х не задано. Векторное пространство Q (О, как и раньше, отличается тем, что все принадлежащие ему векторные функции и {t) ограничены по амплитуде в любой момент времени t: \ uj {t) \ Vj. Множество точек \Uj\ Vj, j = I, . . ., г в г-мерном евклидовом пространстве обозначается через %.

Показатель качества f для фиксированного значения t зависит от переменных и {t),x, и t,. Отметим, однако, что оптимальное значение функционала f зависит лишь от начального, состояния х и момента времени t,. Обозначим оптимальное значение функционала / через /* {х tj). Если поставлена задача оптимального управления, то для каждой точки х, ста-

1) См. работу [47] или [48].

> Представленный здесь вывод впервые по существу сделал Чамран [18]. Этот вывод не требует непрерывности функции df*ldx. Как будет показано в § 15.6, требование непрерывности df*idx сделалЬ бы динамическое программирование непригодньм для многих встречающихся на практике задач оптимального управления.



вится в соответствие некоторое значение критерия оптимальности. Функция f* [Хх, .определяет гиперповерхность в (я + 1)-мерном пространстве. Эта гиперповерхность, конечно, в явном виде не задана, но некоторые ее свойства позволяют вывести ряд необходимых условий, которым должна удовлетворять функция оптимального управления и* (t).

Обозначим через х (и (О, О траекторию, которая получается в результате воздействия управления и (t) на систему л: = / (л:, и, t) с начальным состоянием х в момент времени t = t. При этом /* определяется выражением

/* {Хъ tj) = mm

u(t)B (t)

t<ti

\l{x{u, t), u, t)dt

(15.10)

Для некоторого момента времени f из интервала между и t, это выражение можно написать в таком виде: . .

-г tz

f {Xi, tl) = mm

и (t)si (t)

ti<t<tz

f L {x (n, t), u,t)dt+\L {x (Ю, t), n, f) di

t-

. (15.11)

Уравнение (15.11) позволяет применить для его решения принцип оптимальности. Для случая непрерывных систем принцип оптимальности можно сформулировать следующим образом. Оптимальное управление и* (i) на интервале времени [ii, i] имеет следующее свойство: для любого f, заключенного в интервале i <Ci < is, независимо от значений, которые управление в* (О принимало на интервале времени И, t], и, следовательно, независимо от значения л:* (f) оно должно оставаться оптимальным управлением относительно состояния л:* (f) на интервале времени {f, i,].

Применяя принцип оптимальности, уравнение (15.11) можно преобразовать к следующему виду:

f {Xl, i = mm

ti<i<f

L{x{u, t), n, t)dt + r{x{i),i)

(15.12)

где л: (f) - конечное состояние, которое является результатом действия управления и (О на интервале времени И, i]\ При оптимальном управлении и (i) = и* (i) на интервале [t, f] имеем

t -.

f4xi, ti) = \L{x{u*, t), u*{t), t)dt + r{x{i), t). (15.13)

Перенося члены и деля на - i, получим

t-ti

= 7 J (( *. t\ *(0. О At. (15.14)

1) Если предположить, что функция имеет непрерывные частные производные по х и по t, можно легко прийти к уравнению Беллмана (см. работы [И ] и [48]). Однако, как будет показано ниже, это предположение не вьшолняется для большого класса задач оптимального управления. В приводимом здесь доказательстве, основанном на работе [187], это предположение не используется.



При t ti уравнение (15.14) принимает вид) /* (x(nf)-r(xi. h

f-t.

==L{XiU*{t,),h). (15.15)

Если предел левой части уравнения (15.15) существует, то можно тогда определить величину

= lim

f* {X (f), f)~r {X,. t,) t-t.

(15.16)

Величина

есть производная функция /* по времени, вычисленная в момент времени t,. Анализируя правую часть выражения (15.16), можно видеть, что производную следует вычислять вдоль траектории, обусловленной управлением и* и начинающейся ваг). Таким образом, можно написать

(15.17)

Заметим, что при и (t) ф и* (t) для интеграла (15.13) в соответствии с определением должно выполняться неравенство

Пхъ h)\L{x{u{t), t),u{t), t)dt + r{x{t), t). (15.18)

После выполнения операций, обусловленных выражениями (15.14)- (15.17), неравенство (15.18) можно представить в виде

Используя выражения (15.17) и (15.19), получим

l,+LiXi,u{U),ti)[l +

,;?Л[т] ...+(--ь ().ц=:о.

(15.19)

(15.20) (15.21)

Заметим, что уравнение (15.21) справедливо в любой момент времени из интервала [t t], так что для любого момента времени t и любого состояния л: на траектории л:* (t), принимая его за начальное, можно написать

(Об St

U dt

- + L{x{tt, t), u,t)] = 0.

(15.22)

) Для получения правой части выражения (15.15) как предела правой части уравнения (15.14) используется теорема о среднем значении (см. [5], стр. 213).

) Для того чтобы понять сказанное, представим следующую картину. Пусть для некоторой задачи функция /* (х, t) определена для любого начального состояния х и начального момента времени t. Пусть х (и {щ определяет траекторию, обусловленную управлением и (0; тогда вдоль любой изэтих траекторий величина /* {х, t) будет изменяться во времени со скоростью, определяемой величиной [df*ldt] В частности, вдоль оптимальной траектории

г df**

она будет изменяться со скоростью

dt J и*, г .



1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 [ 140 ] 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180

© 2000 - 2024 ULTRASONEX-AMFODENT.RU.
Копирование материалов разрешено исключительно при условии цититирования.