强化学习入门-第二讲--基于模型的强化学习ppt课件

上传人：文**** 文档编号：168784354 上传时间：2022-11-11 格式：PPTX 页数：17 大小：569.28KB

收藏版权申诉举报下载

第1页 / 共17页

第2页 / 共17页

第3页 / 共17页

下载文档到电脑，查找使用更方便

20 积分

下载资源

资源描述：

《强化学习入门-第二讲--基于模型的强化学习ppt课件》由会员分享，可在线阅读，更多相关《强化学习入门-第二讲--基于模型的强化学习ppt课件（17页珍藏版）》请在装配图网上搜索。

1、每周工作报告南开大学机器人与信息自动化研究所经营者提供商品或者服务有欺诈行为的，应当按照消费者的要求增加赔偿其受到的损失，增加赔偿的金额为消费者购买商品的价款或接受服务的费用强化学习入门第二讲郭宪2017.3.4经营者提供商品或者服务有欺诈行为的，应当按照消费者的要求增加赔偿其受到的损失，增加赔偿的金额为消费者购买商品的价款或接受服务的费用强化学习的形式化强化学习目标：环境机器人观测回报 r 动作新的状态S状态转移概率马尔科夫决策问题(MDP):四元组策略：常采用随机策略：累积回报:折扣回报:值函数最优策略：*su：序贯决策问题经营者提供商品或者服务有欺诈行为的，应当按照消费者的要求增加赔偿

2、其受到的损失，增加赔偿的金额为消费者购买商品的价款或接受服务的费用强化学习方法分类序贯决策问题马尔科夫决策过程 MDP基于模型的动态规划方法无模型的强化学习方法策略迭代值迭代策略搜索本节讲基于模型的策略迭代算法和值迭代算法策略搜索offlineonline策略迭代offlineonline值迭代offlineonline经营者提供商品或者服务有欺诈行为的，应当按照消费者的要求增加赔偿其受到的损失，增加赔偿的金额为消费者购买商品的价款或接受服务的费用动态规划动态规划是一类算法：包括离散和连续。动态：蕴含着序列决策规划：蕴含着优化，如线性优化，二次优化或者非线性优化。动态规划可以解决的问题：1.整

3、个优化问题可以分解成多个子优化问题2.子优化问题的解可以被存储和重复利用马尔科夫决策过程（MDP），贝尔曼最优性原理，得到贝尔曼最优化方程：动态规划可以解决MDP的问题核心：动态规划通过值函数来迭代构造最优解经营者提供商品或者服务有欺诈行为的，应当按照消费者的要求增加赔偿其受到的损失，增加赔偿的金额为消费者购买商品的价款或接受服务的费用策略评估(policy evaluation)给定策略构造值函数：模型已知，方程组中只有值函数是未知数，方程组是线性方程组。未知数的数目等于状态的数目。采用数值迭代算法经营者提供商品或者服务有欺诈行为的，应当按照消费者的要求增加赔偿其受到的损失，增加赔偿的金额

4、为消费者购买商品的价款或接受服务的费用策略评估(policy evaluation)高斯-赛德尔迭代策略评估算法输入：需要评估的策略状态转移概率回报函数，折扣因子初始化值函数：Repeat k=0,1,for every s do Until 输出：一次状态扫描12354678经营者提供商品或者服务有欺诈行为的，应当按照消费者的要求增加赔偿其受到的损失，增加赔偿的金额为消费者购买商品的价款或接受服务的费用策略评估(policy evaluation)策略评估算法输入：需要评估的策略状态转移概率回报函数，折扣因子初始化值函数：Repeat k=0,1,for every s do

5、 Until 输出：一次状态扫描状态空间：S=1,2.14动作空间:东，南，西，北回报函数：-1，直到终止状态均匀随机策略：123456781091112 1314动作MDP经营者提供商品或者服务有欺诈行为的，应当按照消费者的要求增加赔偿其受到的损失，增加赔偿的金额为消费者购买商品的价款或接受服务的费用策略评估算法输入：需要评估的策略状态转移概率回报函数，折扣因子初始化值函数：Repeat k=0,1,for every s do Until 输出：一次状态扫描策略评估(policy evaluation)-1.0-1.0-1.0-1.0-1.0-1.0-1.0-1.0-1.0-1.0

6、-1.0-1.0-1.0-1.0K=10.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.00.0K=00.0-1.7-2.0-2.0-2.0-2.0-2.0-2.0-1.7-2.0-2.0-1.7-2.0-2.0-1.7K=20.00.0-2.4-2.9-3.0-2.9-2.9-3.0-2.9-2.4-2.9-3.0-2.4-3.0-2.9-2.4K=30.00.0经营者提供商品或者服务有欺诈行为的，应当按照消费者的要求增加赔偿其受到的损失，增加赔偿的金额为消费者购买商品的价款或接受服务的费用策略改进(policy improvement)计算策略值

7、的目的是为了帮助找到更好的策略，在每个状态采用贪婪策略。-14-20-22-20-18-20-18-14-20-20-14-22-20-140.00.00.00.0-6.1-8.4-9.0-8.4-7.7-8.4-7.7-6.1-8.4-8.4-6.1-9.0-8.4-6.1K=100.00.00.00.0max经营者提供商品或者服务有欺诈行为的，应当按照消费者的要求增加赔偿其受到的损失，增加赔偿的金额为消费者购买商品的价款或接受服务的费用策略迭代(policy iteration)V策略评估策略改进Policy improvement策略迭代算法输入：状态转移概率回报函数，折扣因子初始

8、化值函数：初始化策略输出：Repeat l=0,1,find Policy evaluationUntil 123546经营者提供商品或者服务有欺诈行为的，应当按照消费者的要求增加赔偿其受到的损失，增加赔偿的金额为消费者购买商品的价款或接受服务的费用值函数迭代策略改进一定要等到值函数收敛吗？当K=1时便进行策略改进，得到值函数迭代算法-6.1-8.4-9.0-8.4-7.7-8.4-7.7-6.1-8.4-8.4-6.1-9.0-8.4-6.1K=100.00.00.00.00.00.0-14-20-22-20-18-20-18-14-20-20-14-22-20-140.00.0输入：状态转

9、移概率回报函数，折扣因子初始化值函数：初始化策略输出：Until Repeat l=0,1,for every s do123546经营者提供商品或者服务有欺诈行为的，应当按照消费者的要求增加赔偿其受到的损失，增加赔偿的金额为消费者购买商品的价款或接受服务的费用值函数迭代与最优控制输入：状态转移概率回报函数，折扣因子初始化值函数：初始化策略输出：Until Repeat l=0,1,for every s do值函数迭代算法 00X=,f t X UX tX状态方程：性能指标函数：000,ftfftJ x ttX ttL x tu tt最优控制问题：0,min,ftfftuV X

10、tX ttL x tu ttBellman 最优性原理：0,min,ftfftuV X tX ttL x tu tt min,Tu tUVVL x tu ttfx tu tttX2.利用变分法，将微分方程转化成变分代数方程，在标称轨迹展开，得到微分动态规划DDP1.将值函数进行离散，进行数值求解。经营者提供商品或者服务有欺诈行为的，应当按照消费者的要求增加赔偿其受到的损失，增加赔偿的金额为消费者购买商品的价款或接受服务的费用值函数迭代与最优控制输入：状态转移概率回报函数，折扣因子初始化值函数：初始化策略输出：Until Repeat l=0,1,for every s do值函数迭代算法

11、 min,Tu tUVVL x tu ttfx tu tttX此式是关于值函数的偏微分方程，利用数值算法可进行迭代计算值函数。From 胡亚楠博士论文经营者提供商品或者服务有欺诈行为的，应当按照消费者的要求增加赔偿其受到的损失，增加赔偿的金额为消费者购买商品的价款或接受服务的费用值函数迭代与最优控制输入：状态转移概率回报函数，折扣因子初始化值函数：初始化策略输出：Until Repeat l=0,1,for every s do值函数迭代算法1,2TTTuuuxxuTTTTTuuxxxxQ x uu Q uu Qxx Q uQ uu Qx Qxx QQ x*1argmin,uuuuxuu

12、Qx uQQQx 贪婪策略：V利用变分法，将微分方程转化成变分代数方程经营者提供商品或者服务有欺诈行为的，应当按照消费者的要求增加赔偿其受到的损失，增加赔偿的金额为消费者购买商品的价款或接受服务的费用微分动态规划方法微分动态规划：11111111kkkkkkkkkkkkkkkkkkkkkkkkkTxxTuuTxxxxx xTuxxuxxxxxxuuuuuuxxxuuTuxuxuxxxxxQVQVQVVQVlflflffflffflffVVVfQ*11argmin,uuuuuuuxuQxukK xkKQ QQ Q 11112kkuuuuxxuuuuxxxxxxuuuuxVQ Q QVQQ Q Q

13、VQQ Q Q 1.前向迭代：给定初始控制序列正向迭代计算标称轨迹ku1,kkkkkkkxuxxxuuukxxlfllulf2.反向迭代：由代价函数边界条件反向迭代计算（1）,（2）,(3)得到序列,kkkK（1）（3）（2）3.正向迭代新的控制序列：111,kkkkkkkkkxxuxkfxxuuxK经营者提供商品或者服务有欺诈行为的，应当按照消费者的要求增加赔偿其受到的损失，增加赔偿的金额为消费者购买商品的价款或接受服务的费用值函数迭代与最优控制输入：状态转移概率回报函数，折扣因子初始化值函数：初始化策略输出：Until Repeat l=0,1,for every s do值函数迭代算法微分动态规划：1.前向迭代：给定初始控制序列正向迭代计算标称轨迹ku1,kkkkkkkxuxxxuuukxxlfllulf2.反向迭代：由代价函数边界条件反向迭代计算（1）,（2）,(3)得到序列,kkkK3.正向迭代新的控制序列：111,kkkkkkkkkxxuxkfxxuuxK经营者提供商品或者服务有欺诈行为的，应当按照消费者的要求增加赔偿其受到的损失，增加赔偿的金额为消费者购买商品的价款或接受服务的费用基于模型的其他方法1.逼近动态规划（逼近值函数）2.基于模型的策略搜索（dynamic）3.异步动态规划4.实时动态规划5.Guided policy search

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

强化学习入门-第二讲--基于模型的强化学习ppt课件

最新文档

相关资源

相关搜索