Главная страница  Системы автоматического управления 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 [ 145 ] 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180

ность п (п + 1)/2 функций Бремени, которые являются коэффициентами усиления в канале обратной связи. Применительно к нестационарным системам правильность получаемых результатов вызывает сомнение, и любая попьпка проверить полученный результат путем использования уравнения Беллмана может оказаться в высшей степени трудоемкой (см. упражнение 15.8). Далее, условие (15.51), являющееся по существу условием оптимальности для стационарных систем, накладывает исключительно жесткие ограничения, практически делая невозможным расчет сколько-нибудь слонжых систем..

В-четвертых, для систем с входным сигналом матрицу Р (t) необходимо вычислять, как н раньше, но, кроме того, функции времени <£} (t) и V (t) нужно определять, используя начение Z (t) в соответствии с формулами (15.69) - (15.72). Это значит, что мы должны знать будущие значения входного сигнала. Таким образом, данный результат невозможно использовать в случае совместной работы систем в режиме последовательного включения.

15.6. ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ ДЛЯ СЛУЧАЯ, КОГДА ПРОИЗВОДНАЯ df* (х. t)/dx РАЗРЫВНА


Рис. 15.4. Функция /* {х, f)=t* в примере 15..3 не является непрерывно дифференцируемой по X вдоль линии переключения Г±

В § 15.4 и 15.5 использовался частный случай уравнения Беллмана в виде (15.24). Как было показано в § 15.3-15.5, уравнение (15.24) можно легко использовать применительно к линейному объекту без ограничения на и и с критерием, представляющим собой интеграл от квадратичной формы по л: и й. Однако уравнение (14.24) выводится в предположении,

что имеет непрерывные первые частные производные как по лг, так и по t * Заметим, что даже в простой задаче, например, оптимального по быстродействию управления линейным стационарным объектом имеются области, в которых частные производные /* (л:, t) по х разрывны.

.Пример 15.3. Рассмотрим оптимальное по быстродействию управление объектом вида 1/р. Линия переключения показана на рис. 15.4 в виде кривой Г.

Величина f* в этом случае определяет минимальное время, необходимое для достижения начала координат. Вдоль траектории ABC эта величина изменяется, как показано на рис. 15.5. Таким образом, df*/dx не будет непрерьшной в точке В. В дальнейшем покажем, что df*/dx разрывна вдоль всей линии переключения Г (см. упражнение 15.4).

Заметим, однако, что в приведенном выше случае оптимальная траектория никогда не пересекает линию, вдоль которой функция df*/dx претерпевает разрывы.

В полуплоскости над линией переключения Г,. через {df*/dx). обозначается значение производной {df*/dx), которое она приобретает в том случае, когда приближение к линии переключения осуществляется сверху, тогда видно (см.. задачу 15.4), что если использовать (df*/dx)+ лишь в этой полуплоскости, то (5/*/бдс) непрерывна вдоль любой


Рис. 15.5. Функция /* (х, f) = t* для примера 15.3 вдоль типичной траектории, пересекающей линию переключения Г+ (рис. 15.4). ТочкиА,ВиС соответствуют точкам этой траектории:

J* - значения функционала вдоль кривой ЛВС; 1--расстояние от точки А вдоль кривой АБС

1) В § 15.5 для того, чтобы связать функциональное уравнение динамического программирования с условием 1 принципа максимума, дополнительно требовалось существование и непрерывность второй частной производной функции /*.



оптимальной траектории. Аналогичный вьшод справедлив и для второй половины плоскости. Используя эти пределы, можно определить вдоль оптимальной траектории производную d (df*/dx)/dt, и она будет непрерывной.

Нам известно также, что в этом случае (df*ldf)- = О всюду; таким образом, уравнение Беллмана (15.24) будет справедливо, если соответствующий предел функции (df*/dx) существует.

Те случаи, в которых производная df*/dx претерпевает разрывы, подобно примеру 15.3, можно рассматривать с помощью более общего уравнения Беллмана (15.22). Заметим, что в предыдущем примере хотя производная df*ldx и является разрывной вдоль линии переключения, полная про-

изводная вдоль оптимальной траектории непрерывна (см.

упражнение 15.4). Действительно, если даже df*ldx и/ (х, и, t) не являются непрерывными на траектории х* (t) в точке л:* (т) то пока выполняется условие

[(1г) Z- = [(1г)/(-. . 0], (15.73)

величина

остается непрерывной при t = х.

Обоснованность уравнения Беллмана в общем случае доказана многими авторами, например, [18], [22] и [187]. При весьма общих условиях, которые выполняются для всех задач, приведенных в тексте, если при некотором управлении и* уравнение Беллмана справедливо вблизи линии или поверхности переключения, где df*ldx не определена, то и* представляет собой оптимальную функцию управления. Далее, если существуют односторонние пределы для производной df*[dx, то ее можно рассматривать как сопря женный вектор if во всем пространстве, где последний определен.

15.7. ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ КАК ДОСТАТОЧНОЕ УСЛОВИЕ ОПТИМАЛЬНОСТИ

Из § 15.3 очевидно - уравнение Беллмана представляет собой необходимое условие оптимальности. Сформулируем и докажем теперь общую теорему, касающуюся метода динамического программирования.

Теорема 15.2 [187]. Рассмотрим систему, приведенную в § 15.3. Пусть область цели представляет собой множество §, а конечный момент времени не задан. Обозначим через открытую область, в которой функция V {х, t) определяется следующим образом:

1) dVldt непрерывна по л: и , а dV/dx или непрерывна по х и t, или удовлетворяет условию

ПтГ(

в любой момент времени t = х, когда dV/dx или / (л:, и, t) разрывны;

2) для каждого л: в в каждый момент времени t функция Гамильтона Я (х, и, t; dV/dx) имеет абсолютный минимум при ц = и* из множества допустимых функций управления. Кроме того, управление и* (t) определяет единственную траекторию системы х* (t);

3) на конечном множестве S V (х, t) = 0.

Тогда 1/(л:, t)=f*{x, f) при всех допустимых функциях управления, которые переводят изображающую точку из состояния лг в §, не покидая области Далее оптимальное управление с обратной связью и* {х, t) можно получить, решая соответствую.щее уравнение Беллмана.



Теорему 15.2 можно доказать следующим образом. В соответствии с условиями 1 и 2 теоремы можно написать

0 = f{x, 0+ и*, t) + L(x, u*,t)

<

<

{X, t) + [(

\Yf{x, u, t)-\-L{x, u, t)

(15.74)

Проинтегрировав левую часть (15.74) вдоль траектории л:* (О,от tx до оптимального конечного момента времени 4, получим

дУ{х*. t) dt

+ { fx fi *. t)]dt+\L{x*, a*, t)dt=.

где введенное обозначение

. dt J n*, t dV

dt+\L [x*, tt*, t) dt = 0,

Рассмотрим теперь интеграл

поясняется в § 15.3.

и*, t

(15.75)

==Иж+(1У/(л:, , t) + Lix, u,t)]

(15.76)

Далее допустим, что сочетание и* и л:* является единственным, которое доставляет абсолютный минимум величине W, равный в соответствии с условием (15.75) нулю. Если это утверждение неверно, то найдутся другие (t) ф Ф и* (t) ях (t) Ф л:* (t), которые сделают выражение (15.76) равным нулю. Однако из условия (15.74) следует, что подынтегральное выражение (15.76) всегда положительно. Таким образом, чтобы обратить W в нуль, указанное подынтегральное выражение должно равняться нулю на всем интервале 1, й]. Из условий (15.74) следует, что сделать это может лишь пара и* (t) их* (t). Таким образом, теорема 15.2 доказан-а.

Данная теорема служит обоснованием для всех рассмотренных в данной главе примеров.

Отметим, что слегка изменив условия задачи предыдущего параграфа, можно получить задачу, которую нельзя решить ни с помощью принципа максимума, ни на основе динамического программирования.

Пример 15.4 1). Снова рассмотрим объект вида = х; х = и. На этот раз используем показатель качества

f=\[x\ + xl+c\-)dt.

Примем далее ограничение и (/) 1. Если и (t) не имеет ограничения, то метод, изложенный в предыдущем параграфе, применим и можно найти оптимальное решение (см. пункт а упражнения !5.7):

{.t) = ~~{xj V\+2cXz),

Г15.77)

В работе [!87] имеются еще другие интересные примеры.



1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 [ 145 ] 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180

© 2000 - 2024 ULTRASONEX-AMFODENT.RU.
Копирование материалов разрешено исключительно при условии цититирования.