《动态规划法》PPT课件.ppt

上传人：w****2 文档编号：16559610 上传时间：2020-10-11 格式：PPT 页数：45 大小：963.50KB

收藏版权申诉举报下载

第1页 / 共45页

第2页 / 共45页

第3页 / 共45页

下载文档到电脑，查找使用更方便

9.9 积分

下载资源

资源描述：

《《动态规划法》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《动态规划法》PPT课件.ppt（45页珍藏版）》请在装配图网上搜索。

1、第九章动态规划法动态规划法是求解控制变量限制在一定闭集内的最优控制问题的又一种重要方法，它是由美国学者贝尔曼于 1957年提出来的。动态规划法把复杂的最优控制问题变成多级决策过程的递推函数关系，它的基础及核心是最优性原理。本章首先介绍动态规划法的基本概念，然后讨论如何用动态规划法求解离散及连续系统的最优控制问题。第一节动态规划法的基本概念一、多级决策过程所谓多级决策过程是指把一个过程分成若干级，而每一级都需作出决策，以便使整个过程达到最佳效果。为了说明这个概念，首先讨论一个最短路线问题的例子。设有路线图如图 7-1所示。现在要从地出发，选择一条最短路线最终到达

2、地，其间要通过等中间站，各站又有若干个可供选择的通过点，各地之间的距离已用数字标注在图中。由此可见，通过这些中间站时，有多个方案可供选择。 A F B C D E、、、解决这类问题有两种方法： 1.探索法（穷举法）将至的所有可能的路线方案都列举出来，算出每条路线的路程，进行比较，找出最短路线。直观可知，这种方法是很费时的，如本例共有 38条路线可供选择。如果中间站及各站可供选择的通过点都增为 10个，则可供选择的路线将急剧增至 1010条，显然计算工作量将急剧增加。 2. 分级决策法将整个过程分成若干级，逐级进行决策。具体过程如下：将至全程分为五级：第一级由至

3、；第二级由至；第三级由至；第四级由至；第五级由至。让我们由后向前逐级分析，先从第五级开始，其起点为，终点为。至各只有一条路线，并无选择余地。至路程为 1，至路程为 2。第四级起点为，终点为，其间有六条路线，由至的各种可能路线为 : A F A 1 2 3,B B B B B 1 2 3,B B B 1 2 3,C C C C 1 2 3,C C C C 1 2 3,D D D D 1 2 3,D D D D 12,E E E 12,E E E F 12,E E E F 12,EE F 1E F 2E F 1 2 3,D D D D 12,E E E

4、 FD 11 12 21 22 31 32 4 1 5 2 2 4 6 1 7 9 2 1 1 7 1 8 5 2 7 D E F D E F D E F D E F D E F D E F 可以发现，如果从出发，则走为最短，因此至应选这段路线，称为决策。同理，如果从出发，应决策；从出发，应决策。可见作此决策时不能只从本级路程长短出发，应考虑两级路程之和为最短。在整个路线问题中，究竟哪一点作为起点，则取决于第三级的决策，不过提出的三条可能的最短路线为第三级的决策积累了数据资料。 1D 12D E F 1D E 12DE 2D 21DE 3D 32DE 1 2 3D D

5、 D，，可见同样方法来分析第三级，其起点为，终点为，按题意共有八条路线。但是，至的最短路线已在第四级讨论中确定，因此的路线选择问题，实际上只是选定级的路线问题（即本级决策问题）。因此，至只有八条路线，分别为 1 2 3,C C C C D 1 2 3,D D D 1 2 3D D D，， F C D F CD C F 2 1 2 1 2 2 1 2 11 12 21 22 23 31 32 33 1 4 5 5 7 12 8 4 12 4 7 11 6 7 13 4 4 8 4 7 11 2 7 9 E E E E E E E E C D F C D F C D F

6、C D F C D F C D F C D F C D F 比较可得分别从出发时的三条最短路线，它们为：；；。 1 2 3,C C C 2 11 EC D F ； 1 22 EC D F 2 31 EC D F 用同样方法，依次对级及级进行讨论，其结果列于表 7-1。最后得到最短路线为 BC AB 2 1 1 2A B C D E F 相应最短路程为：。 * 14J 通过上例的讨论，可以看到多级决策过程具有以下特点：把整个过程看成（或人为地分成）级的多级过程。采取逐级分析的方法，一般由最后一级开始倒向进行。 n 在每一级决策时，不只考虑本级的性能指标的最优，而是同时考虑

7、本级及以后的总性能指标最优，因此它是根据“全局”最优来作出本级决策的。从数学观点，分级决策法与穷举法进行比较：穷举法：全程五级线路，每一级都可任选，因此全部路程相当于一个“五变量函数”，求全程最短实质上是求这个“五变量函数” 的极小值。分级决策法：分成五级，从最后一级开始进行分级决策时，每级都是一个“单变量函数”，因此进行每一级决策时，实际上是求一个“单变量函数”的极小值。因此多级决策法把一个求“五变量函数”的极值问题转化成为一个五组求“单变量函数”的极值问题。这组实际解题带来极大好处，使计算工作量在为减少。以前面举的十级中间站并各站具有十个通过点的路线问题为例，用多级决

8、策法只需 920次计算，这与 1010次相比要少得多。在最后一级开始倒向逐级分析中，我们发现，由于各站的起始点并未确定，因此需要把各中间站的所有通过点作为出发点进行计算，并将所有对应的最佳决策存进计算机，建立起一个完整的“档案库”，因此要求计算机有相当大的容量。 (6)第一级起始条件（地）是确定的，因此只有逐级倒向分析到第一级时，才能作出确定的第一级决策，然后再根据第一级决策顺向确定各级的起始条件（各站的通过点），这时由于“档案库”中存有全部“资料”，因此用“查档”的方法就可逐级确定决策。由此可见，一般情况下，多级决策过程包括两个过程：倒向“建档”及顺向“查档”，而大量的计

9、算工作是花费在建立“档案库”上。二、最优性原理在前例的分级决策过程中，实际上已应用了这样一个基本原理：设一个过程由点开始，经点到达点，如图 9-2所示，如果为最优过程，则段也必定是一个最优过程。我们把这原理叙述如下： a b c a b c bc 一个最优决策具有这样的性质，不论初始状态和初始决策怎样，其余的决策对于第一次决策所造成的状态来说，必需构成一个最优决策。称此为最优性原理。它也可简单地叙述为：最优轨迹的第二段，本身亦是最优轨迹。最优性原理是动态规划法的基础和核心。动态规划法就是对一个多级过程，应用最优性原理，进行分级决策，求出最优控制的一种数学方法。 3

10、、多级决策过程的函数方程应用动态规划法求解过程的最优决策时，首先要根据最优性原理将多级决策过程表示成如下数学表达式：级决策过程始点处所采取的控制决策，从而使状态转移到下一步。式中级决策过程的始点至终点的最小消耗； kkwx k kx ix 由级决策过程始点至下一步到达点的一步消耗； 1,k k id x x k kx 1,kix k kx 1,kix kiu 1 , 1 1 ,m i n ,kik k k k i k k iuw x d x x w x (9-1) 上式表明，为使级决策过程达到最小消耗，第一级决策应根据两部分消耗之和最小的原则作出。第一部分是

11、第一级决策的一步消耗，第二部分为由下一步到达点作起点至终点的最小消耗。式 (7-1)称为多级决策过程的函数方程，它是最优性原理的数学表达形式。在上述路线问题中，至的四级决策过程的函数方程可表示成： k 1,k k id x x 1 1,k k iwx 1,kix 2B F 式中 : 四级过程的起点；由出发到达下一步站的某个可能通过点，它可能为或；由至站的路线选择（本级决策）； 2B iC 4iu 2B C 12CC、 3C 2B C 44 2 2 3m i n ,i iiuw B d B C w C(9-2) 由至之间的路程；从至终点的最短路程。 2

12、 , id B C 2B iC 3 iwC iC F 由表 7-1可知 2 1 3 1 2 2 3 2 2 3 3 3 4 5 9 3 11 14 5 8 13 d B C w C d B C w C d B C w C ，，，三者进行比较，由此作出第一级决策为即应选路线。这时最小路程为。 4,1u 21BC 2BF 42 9wB 函数方程是一个递推方程，一般说来，难于获得解析解，需要用数字计算机求解。第二节动态规划法解离散系统的最优控制问题设系统状态方程为式中，为维状态向量，为维控制向量，设为每一步转移中的性能指标。 kx n ku m kkJ x u

13、， 1 0 ,1 , , 1k k k k N x f x u，(9-3) 第一步，系统初始状态在作用下转移至，即 0 x 0u 1x 要求选择控制，使达最小。这是一个一级决策过程。 0u 00J x u， 1 0 0 x f x u， (9-4) 这时，第一步的性能指标为： 1 00J J x u， (9-5) 2 0 0 1 1JJ J x u x u，，(9-6) 第二步，系统在作用下由转移到，转移中的性能指标为，则两步转移的总性能指标为： 1u 1x 2 1 1 x f x u， 11J xu，这里，因为已知，而，因此在上述两步转移的总性能指标中，只有

14、及未知。现在要求选择及，使两步性能指标达极小。这就是二级决策问题。 0 x 1 0 0 x f x u， 0u 1u 0u 1u 依次类推，系统状态由作起点进行步转移，则步转移的总性能指标为： 0 x N N 现在要求选择使性能指标达最小，这就是级决策问题。我们可以应用动态规划法来求解。根据最优性原理，对级最优决策过程来说，不论第一级控制向量怎样选定，余下的级过程，从产生的状态作为起点，必须构成级最优过程。 0 1 1k u u u，，，NJ N N 0u 0u 1N 1 0 0 x f x u， 1N 1 0 0 0 1 1 1 1N N k J

15、J J N N J k k J x u x u x u xu ，，，，(9-7) 如果我们用表示级过程的性能指标的极小值，表示级过程性能指标的极小值，则我们就可以列写出级决策过程的函数方程为： 0Nw x N 1 1Nw x 1N 由此可见，第一级决策实质上是函数 10 0 0 0Nw J x u f x u，，对第一级的控制决策求极值的问题。求解递推方程 (9-8)，就可解得最优控制决策。 0u 0 1 1k u u u，，， 100 m i n 0 0 0 0Nww ux J x u f x u，，(9-8) 例 9-1 设离散系统状态方程为： 1 0 ,

16、1 , , 1k k k k N x x u 初始条件为，控制变量不受限制，性能指标为 0 x u 1112222 0NNkN k J c x u 求最优控制，使达最小。 * ku J 解 : 为简单起见，设，则这是一个二步控制问题，性能指标可表示成： 2N 2 2 22 1 1 12 0 12 2 2 J cx u u 首先考虑最后一步，即由某状态出发到达的一步，如采用控制，则有 1x 2x 1u 221 2 1 1 1121 22 x x u J c x u 或 2 21111J c x 1 u 1 u (1 ) J x 1 u 122 求最优控制使为极小，则有 1

17、u 1J 1 1 1 1 01 J c x u uu 解得： 11 1 cxu c 可见为的函数。相应的最优性能指标及为 1u 1x 2x 2 1 m in x1cJ 2 1 c 12 1 xx c 再考虑倒数第二步，即由初始状态出发到达的一步，如采用控制，则有 0 x 1x 0u 100 x x u 2 2 m i n 1 m i n 0 2 2 0 2 2 0 1 m i n 0 2 11 m i n 0 2 2 1 1 m i n 0 0 0 2 2 1 c c c c u u u J u J x u u x u 令 221 0 0 0 0 0 2 2 1 c c u x

18、uu 有 0 0 12c c xu 相应的最优性能指标及为： 1x 2 2 m in 0 2 1 2 c cxJ 11012 cc xx 最后得最优控制为： * 0001 1 2 1 2 cc cc xxuu ，最优轨线为： * * * 010 0 1 0 2 1 2 1 2 c cc xx x x x x，，最优性能指标为： 2* 02 1 2c cxJ 上述离散型动态规划可近似地用来求解连续系统的最优控制问题。设连续系统状态方程为： 00t t tx f x u t x t x，，，(9-9) ft 给定，性能指标为： u t U (9-10) 0 fff F ttJ x

19、t t x t u t t d t，，，(9-11) 求最优控制，使为最小。 *ut J 由于函数方程是一个递推方程，故特别适合于求解离散系统的最优控制问题。为此要把连续过程问题转化成一个多级决策过程。首先将时间间隔分成段，每段为，为使尽量符合连续过程的实际情况，应取足够大，取足够小。接着应将连续状态方程进行离散化，使之用下列有限差分方程来近似表示： 0 ftt， N N 1kk k k k xx f x u，，(9-12) 故 1k k k k k x x f x u，，(9-13) 这样，就把研究连续过程问题近似转化成了级决策过程。下面就可按离散过程一样

20、建立函数方程，用递推求解方法逐级进行最优决策，求出最优控制序列来。 N 1 0 N k N N F k k k J x x u，，， (9-14) 这里，假设在每段时间内，及保持常值。同时，将积分型的性能指标用以下序列和的形式来近似 kx ku 第三节动态规划法解离散线性二次型问题设离散线性系统状态方程为： 1k k k k k x A x B u(9-15) 性能指标为二次型 1 0 NT T T i NN J x S x x i Q i x i u i R i u i (9-16) 式中，均为对称矩阵，为正定矩阵，为正半定矩阵。求最优控制序列使为最小。 S Q

21、 R、、 R QS、 * * *0 1 1N u u u，，，J 现在我们用动态规划法来求解。从初始端开始，经过级决策得到的最优性能指标可表示为 N 1 0 0 0 m in NT T TN u i w N N x x S x x i Q i x i u i R i u i， (9-17) 1 0 m in NT T TNk u i w k k N N x x Sx x i Q i x i u i R i u i， (9-18) 根据最优性原理，可以建立函数方程如下：如果过程是从第级开始至终产端，则这一段的最优性能指标可表示为： k 1m i n 1 1TTN k N kukw

22、 k k k k k k k k w k k x x Q x u R u x，，假设二次型问题的最优性能指标为状态的二次函数： TNkw k k k k k x x P x， (9-20) 上式对成立，代入式 (9-19)得： 0 , 1 , , 1kN m i n ( ) ( ) ( ) ( 1 ) ( 1 ) ( 1 ) TT Nk uk TT w k k k k k k k k u k R k u k x k P k x k x x Q x u R u， (9-21) 将系统状态方程代入，得： m i n 1 TT Nk uk T T T T w k k k k k k k k k

23、 k k k k k k k kk x x Q x u R u x A u B P A x B Bu ， (9-22) u设不受约束，则令 2 1 2 1 0TTk k k k k k k k k R B P B B P A xu (9-23) 可得： 1* 1 1TTk k k k k k k k k kk u B P B R B P A x Gx (9-24) 式中 111TTk k k k k k k k G B P B R B P A 现在需要确定，将式 (9-24)代入式 (9-22)，并利用的假设，则式 (9-22)可写成： kP TNkw k k k k k x x P x

24、， 1 1 TTT TT T TT k k k k k k k k k k k k k k k k k k k k k k k k k k k k k k k k k x P x x Q x G x R G x x A B G P A B G x x Q G R G A B G P A B G x (9-26) 上式对任意状态变量都满足，由此可得离散系统的黎卡提方程 1TTk k k k k k k k k k k k P Q G R G A B G P A B G (9-27) 第四节动态规划法解连续系统的最优控制问题用离散动态规划法求解连续系统最优控制问题时，可能会由于离散化过程而造

25、成一定误差。应用最优性原理，对连续系统也可建立起相应的函数方程，经过变换，最后得到一个一阶非线性偏微分方程，解之可得连续形式的最优控制即最优决策。设连续系统状态方程为 00t t tx f x u t x t x，，， u t U (9-28) (9-29) 性能指标为 0 fffJ F dt ttx t t x t u t t，，， (9-30) 求最优控制，使为最小。 *ut 我们知道，对应最优控制及最优轨线，性能指标将取极小值，且为系统初始状态及初始时刻的函数，以表示，则可写成： *ut *xt 0 x 0t *00 m i nw J J uUx t x u

26、x u，，，(9-31) 000 m in fffw F d ttuUx t x t t x u t t，，，，(9-32) 这里，与的关系受系统动态方程约束。将指标函数的表示式代入，则 *u *x 显然 f f f fw x t t x t t，，(9-33) 设时刻在区间内，则根据最优性原理，从到这一段过程必须构成最优过程，这一段过程的性能指标极小值可表示为 t 0 ftt， t ft 将这段最优过程分成二步，第一步由到，是一很小的时间间隔，第二步由至，于是有 0 ftt， t t t ft 0 m in fffw F d ttuUx t t x

27、 t t x u，，，，(9-34) m in ffw F d F d ttuUx t t x t t x u x u，，，，，，(9-35) 根据最优性原理，从到这一段过程也应当构成最优过程，其性能指标极小值可表示为： t ft 这样，式 (9-35)就变成： m in fffw F d ttuUx t t x t t x u，，，，(9-36) m inw F d w ttuUx t t x u x t t，，，，(9-37) 因为很小，上式可写成： m inw F t w uUx t t x u x t t，，，，(9-38) 将用台劳级数展开

28、 w x t t， 2Twwww x t t x t t xxt，， (9-39) 式中，为二次及二次以上各项，代入式 (9-38)得： 2 2m in Twww F w uUx t t x u t x t t xxt，，，，(9-40) 由于不是的函数，从而亦不是的函数，因此不受最小化运算的影响，可从最小化运算符号析出，于是有 w x t t， u wt u 2m in Twww F w uUx t t x u t x x t txt，，，，(9-41) 0简化上式，并以除之，再取，则 m in TuUwwFf x u t x u ttx ，，，，(9-4

29、2) 定义下列函数 TwwH F f x u t x u t x u txx，，，，，，，(9-43) 则 m inwwH uU x u ttx，，， (9-44) 如求出最优控制，则下式成立 *ut *wwH x u ttx，，， (9-45) 式 (9-45)称为哈密尔顿 -雅可比方程。当不受限制时，可由 u 0Hu (9-46) 即 0TFf w x u t x u tu u x，，，， (9-47) 解得，显然它是的函数，记作 /wx x t，，*u * w u t u x tx，， (9-48) 将式 (9-48)代入哈密尔顿 -雅可比方程，并根

30、据如下边界条件 f f f fw x t t x t t，，(9-49) 可以解出来。再将代回式 (9-48)，就可获得最优控制。这是一个状态反馈控制规律，由此可以实现闭环最优控制。最后同代入系统状态方程，就可解得。 wx t t， wx t t， * u x t t， *u *xt 例 9-2 设系统状态方程为 12xx 2 xu 初始状态为，不受约束，性能指标为 120 1 0 0 xx， u 221 0 12 2J x dt u 试求，使为最小。 *ut J 解根据式（ 9-45）、式 (9-43)有 222 1 u 12 22 12 u 12 1 m in 2

31、 2 1 m in 2 2 xw xu uxx x u x u xx t ，由于不受约束，可以根据来求，得： u 0Hu *u 2 2 12 12 120 2xxxx 为解此偏微分方程，设：，代入上式，得： 221 1 2 1 2 3 22w x a x a x x a x 2 2 2 22 1 1 2 3 1 2 2 3 21 2 0a x a a a x x a a x 因而 222 1 2 3 2 31 0 2 0 0a a a a a a ，，联立解得： 2 3 11 1 2a a a ，， 221 1 2 222w x x x x x 12 2 22w xxx * 1222xx u 从而可很方便地实现闭环状态反馈最优控制。

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

《动态规划法》PPT课件.ppt

最新文档

相关资源

相关搜索