Главная страница Системы автоматического управления (15.9) Это новое положение позволяет совершать движение вперед от начальной точки Хо- Будем рассматривать теперь каждую последуюш,ую точку в качестве конечной и выполним ту же последовательность действий, что и в предыдуш,ем параграфе. Если функцию (Xff) определить как значение критерия оптимальности для точки Хдг, рассматриваемой в качестве конечной, когда процесс начинается в точке Хо, то можно получить следующие функциональные уравнения: fl (Xi) = min [L {Xi, и) М]; . fit {Xj) = min [fN-i (g (лг-1, и)) + L (xn-i, u) At (покажите это). При такой формулировке можно по-прежнему проводить синтез и определять решения относительно произвольных начальных точек. Не удивительно, что новый взгляд, который обеспечивает динамическое программирование, способствует лучшему пониманию проблемы оптимизации. Большую часть важных результатов, получаемых с помощью классического вариационного исчисления, можно вывести путем простого и непосредственного применения метода динамического программирования Точно так же некоторые особенности принципа максимума можно выявить, рассматривая эту проблему с точки зрения динамического программирования. Для того чтобы оценить сказанное, необходимо рассмотреть данный метод применительно к непрерывным системам. 15.3. ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ ДЛЯ НЕПРЕРЫВНЫХ СИСТЕМ. УРАВНЕНИЕ БЕЛЛМАНА Используем теперь принцип оптимальности применительно к управлению непрерывными системами. Покажем, что можно вывести дифференциальное уравнение в частных производных, соответствующее функциональным уравнениям (15.8). Это уравнение называют уравнением Беллмана Рассмотрим следующую задачу Лагранжа. Для системы х - f [х, и, t), начинающей движение из начального состояния х (tj) = х найти управление и (/). ограниченное некоторым допустимым классом функций Q {1) и определенное на интервале времени [t t], которое минимизирует пока- затель качества f = L [х, и, t) dt, где функция L [х, и, t) предпола- гается непрерывной по t. Конечное состояние л: {t) = х не задано. Векторное пространство Q (О, как и раньше, отличается тем, что все принадлежащие ему векторные функции и {t) ограничены по амплитуде в любой момент времени t: \ uj {t) \ Vj. Множество точек \Uj\ Vj, j = I, . . ., г в г-мерном евклидовом пространстве обозначается через %. Показатель качества f для фиксированного значения t зависит от переменных и {t),x, и t,. Отметим, однако, что оптимальное значение функционала f зависит лишь от начального, состояния х и момента времени t,. Обозначим оптимальное значение функционала / через /* {х tj). Если поставлена задача оптимального управления, то для каждой точки х, ста- 1) См. работу [47] или [48]. > Представленный здесь вывод впервые по существу сделал Чамран [18]. Этот вывод не требует непрерывности функции df*ldx. Как будет показано в § 15.6, требование непрерывности df*idx сделалЬ бы динамическое программирование непригодньм для многих встречающихся на практике задач оптимального управления. вится в соответствие некоторое значение критерия оптимальности. Функция f* [Хх, .определяет гиперповерхность в (я + 1)-мерном пространстве. Эта гиперповерхность, конечно, в явном виде не задана, но некоторые ее свойства позволяют вывести ряд необходимых условий, которым должна удовлетворять функция оптимального управления и* (t). Обозначим через х (и (О, О траекторию, которая получается в результате воздействия управления и (t) на систему л: = / (л:, и, t) с начальным состоянием х в момент времени t = t. При этом /* определяется выражением /* {Хъ tj) = mm u(t)B (t) t<ti \l{x{u, t), u, t)dt (15.10) Для некоторого момента времени f из интервала между и t, это выражение можно написать в таком виде: . . -г tz f {Xi, tl) = mm и (t)si (t) ti<t<tz f L {x (n, t), u,t)dt+\L {x (Ю, t), n, f) di t- . (15.11) Уравнение (15.11) позволяет применить для его решения принцип оптимальности. Для случая непрерывных систем принцип оптимальности можно сформулировать следующим образом. Оптимальное управление и* (i) на интервале времени [ii, i] имеет следующее свойство: для любого f, заключенного в интервале i <Ci < is, независимо от значений, которые управление в* (О принимало на интервале времени И, t], и, следовательно, независимо от значения л:* (f) оно должно оставаться оптимальным управлением относительно состояния л:* (f) на интервале времени {f, i,]. Применяя принцип оптимальности, уравнение (15.11) можно преобразовать к следующему виду: f {Xl, i = mm ti<i<f L{x{u, t), n, t)dt + r{x{i),i) (15.12) где л: (f) - конечное состояние, которое является результатом действия управления и (О на интервале времени И, i]\ При оптимальном управлении и (i) = и* (i) на интервале [t, f] имеем t -. f4xi, ti) = \L{x{u*, t), u*{t), t)dt + r{x{i), t). (15.13) Перенося члены и деля на - i, получим t-ti = 7 J (( *. t\ *(0. О At. (15.14) 1) Если предположить, что функция имеет непрерывные частные производные по х и по t, можно легко прийти к уравнению Беллмана (см. работы [И ] и [48]). Однако, как будет показано ниже, это предположение не вьшолняется для большого класса задач оптимального управления. В приводимом здесь доказательстве, основанном на работе [187], это предположение не используется. При t ti уравнение (15.14) принимает вид) /* (x(nf)-r(xi. h f-t. ==L{XiU*{t,),h). (15.15) Если предел левой части уравнения (15.15) существует, то можно тогда определить величину = lim f* {X (f), f)~r {X,. t,) t-t. (15.16) Величина есть производная функция /* по времени, вычисленная в момент времени t,. Анализируя правую часть выражения (15.16), можно видеть, что производную следует вычислять вдоль траектории, обусловленной управлением и* и начинающейся ваг). Таким образом, можно написать (15.17) Заметим, что при и (t) ф и* (t) для интеграла (15.13) в соответствии с определением должно выполняться неравенство Пхъ h)\L{x{u{t), t),u{t), t)dt + r{x{t), t). (15.18) После выполнения операций, обусловленных выражениями (15.14)- (15.17), неравенство (15.18) можно представить в виде Используя выражения (15.17) и (15.19), получим l,+LiXi,u{U),ti)[l + ,;?Л[т] ...+(--ь ().ц=:о. (15.19) (15.20) (15.21) Заметим, что уравнение (15.21) справедливо в любой момент времени из интервала [t t], так что для любого момента времени t и любого состояния л: на траектории л:* (t), принимая его за начальное, можно написать (Об St U dt - + L{x{tt, t), u,t)] = 0. (15.22) ) Для получения правой части выражения (15.15) как предела правой части уравнения (15.14) используется теорема о среднем значении (см. [5], стр. 213). ) Для того чтобы понять сказанное, представим следующую картину. Пусть для некоторой задачи функция /* (х, t) определена для любого начального состояния х и начального момента времени t. Пусть х (и {щ определяет траекторию, обусловленную управлением и (0; тогда вдоль любой изэтих траекторий величина /* {х, t) будет изменяться во времени со скоростью, определяемой величиной [df*ldt] В частности, вдоль оптимальной траектории г df** она будет изменяться со скоростью dt J и*, г .
|
© 2000 - 2024 ULTRASONEX-AMFODENT.RU.
Копирование материалов разрешено исключительно при условии цититирования. |