第3章 一些著名球队的Agent 结构以及MAS

上传人:ta****u 文档编号:208496729 上传时间:2023-05-10 格式:DOCX 页数:7 大小:281.63KB
收藏 版权申诉 举报 下载
第3章 一些著名球队的Agent 结构以及MAS_第1页
第1页 / 共7页
第3章 一些著名球队的Agent 结构以及MAS_第2页
第2页 / 共7页
第3章 一些著名球队的Agent 结构以及MAS_第3页
第3页 / 共7页
资源描述:

《第3章 一些著名球队的Agent 结构以及MAS》由会员分享,可在线阅读,更多相关《第3章 一些著名球队的Agent 结构以及MAS(7页珍藏版)》请在装配图网上搜索。

1、第三章 一些著名球队的 Agent 结构以及 MAS在开始我们的Robocup机器人仿真组程序的研究以后,我们查阅了大量的相关资料,研 究了从99年来在robocup仿真组获得了不错成绩的球队的综述报告及相关文档,他们包括99 年冠军CMU、2000年冠军FC Portugal、2001、2002年的Tsinghuaeolus、以及包括Karlsruhe Brainstrormers、UVA-Trilearn等等球队。下面就把了解到的相关球队的工作一一说明。3.1CMUCMU 是美国卡耐基梅隆大学的一支球队,曾获得了 robocup98、 99 仿真组的冠军。这 支球队的主要设计人Peter

2、Stone在他的博士论文Layered learning in Mutli_agent System中 详细的描述了这支球队。首先,我们给出CMU的Agent结构,如图3.1:/ AgiwiioeihlTEAM MEMBER AGENTARCHITECTURE* Sensor liiflmnahonExtmhil BelialPatdliclfir图3.1 CMU的Agent结构图这个结构可以感知环境,能够对当前的环境做出分析,最后向Server发送经过决策的 动作。Real World: Server 表示的世界状态。World State: agent内部可识别的世界状态。从Real Wo

3、rld到World State需要进行解析。Locker-room Agreement:用于Agent的同步,并定义了球队进行协作的机构以及Agent 之间的通讯协议。它仅能够被Internal Behaviors访问。Internal State:存储了 Agent的一些内部变量。可以存储Agent以前或当前时刻的世界 状态。Internal Behaviors:根据当前的世界状态、内部状态、球队协议(Locker-room Agreement)来更新 Agent 的内部状态的内部动作。External Behaviors:根据世界状态以及更新后的内部状态来做出一个动作送给动作器以作用于真实

4、世界(Real World)。同时回送给Agent进行预测。i f (CLrrl ditioni) thsri BehAi&rfrgs) i f (CQn ditioni) than Beh.awrfaifgs)g丄5i f (con diti do) then BthiciTargs)i f (cmditi do) then BGhQ i口就加霁).*BchHviur(arg*i)i f (cQn ditioni) thsn从根本上讲,CMU的Agent是通过行为/条件(B/C)对来进行外部动作的输出的,我 们可以通过图3.2得出。if (cDndition) then PrimilLiif

5、 (CDnJitiOn) then PrimiLil 巴(ar呼: .if (CMilition) then PrimilLit 虬sirgf图 3.2 CMU 的 BC 树CMU 留给我们的还不只是这些, Peter Stone 在他的博士论文中,提出了关于在 MAS 中各个Agent为达到一个目标是如何进行协调和学习的,Peter提出了分层学习的方法。在 这方面也做一个简要介绍:第一层,进行Agent个体基本技术的学习。典型的例子就是进行断球的学习,通过神经 网络的方法,对在不同的场景下学习断球。第二层,Agent同另外一个Agent之间的协同学习。典型的例子是进行传球的学习,如 在球场上

6、Agent当前在控球,并且做出了决策要就进行传球给一个特定的队友,这时它必须 学习一个合适的方向和传球速度。在该层它可以调用第一层已经学习过的基本技术。这通过 构造决策树的方法,求出相应的节点值,构造出一个分类器。典型的算法是C4.5决策树算 法。第三层,Agent同其他多个Agent之间进行的球队策略学习。比较典型的例子是进行传 球对象的选择,如在球场上Agent当前在控球,这时它要选择把球传给哪个队友。在学习本 层的时候,也认为第二层已经学习过了,这时它要考虑时传给哪个队友的利益大。主要是通 过 TPOT-RL(Team-Partitioned Opaque-Transition Rein

7、forcement Learning来进行学习。3.2 FC PortugalFC Portugal 由葡萄牙的里斯本大学和波尔图大学合作完成的一支球队。它是在 CMUnited99公开的底层源代码的基础上,对多智能体的合作方面做出了巨大的贡献(在这 之前,Robocup仿真参赛队的阵型以及战位都很混乱)。具体来说,FC Portugal在球队策略、 战术、阵型、球员类型、站位机制以及角色的动态转换机制等方面都有自己的特点。FC Portugal 的 agent 的主要控制循环是使用感知解释和动作预测来更新世界模型,其结构如图3.2,然后使用高层决策模型来决定下一步的动作。FC Portuga

8、l的信息模型是一个四 形势信息一与阵型选择相关的信息,和SBSP, SLM和ADVCOM机制相关的信息; 动作选择信息 一套高层参数,用来确定动态形势,选择适当的控球或开球行为; 世界状态 底层信息,包括球员和足球的位置和速度。CMUnited提出了阵型和站位的概念,并且根据比赛结果和剩余时间动态改变阵型;FC Portugal扩展了这些概念,并提出了战术和球员类型。FC Portugal球队策略定义是基于一套 球员类型(定义了球员策略,控球和开球行为)和一套战术包括几个阵型(433, 442,开放 433, 344, 532 等)。阵型是在不同的比赛情况下使用的,如防守、攻击、从防守到攻击的

9、 转换、球门球等,对每个球员赋予一个本位点和球员类型。不同的球员在球场上的位置和动 作的倾向性是不一样的。图3.4描述了 FC Portugal的球队策略的结构。在 FC Portugal 中,最主要特点是它的 SBSP(Situation Based Strategic Positioning) 基 于情形的策略站位和 DPRE(Dynamic Positioning and Role Exchange) 动态站位和角 色变换。所谓SBSP,就是Agent能够根据当前球场上的形势,包括现在球队正在使用的阵形、 战术以及球员的类型来确定球员在球场上的基本位置;再通过球的位置、速度、球场上的形

10、势(如本方是在进攻、本方是在防守、双方的得失球等)以及球员的策略特性来修正基本位 置,得到球员的应该处的位置,也就是球员的策略站位点。球员的策略特性包括对球的吸引 力、球场球员可以容许站的位置、在场上某些区域的特定位置特性、粘球的倾向、越位线的设置以及在某些特定形势下对应该对场上特定目标的注意力等方面。DPRE 是基于 Peter Stone 关于根据协议来进行智能体角色的变换的继续研究。在 FC- ?Position ing-sTactic 1 - 433 Open vs Closed PositionalPortugal 中,球员不仅能够改变它们的站位(站位由来阵型决定的),而且还可以在当

11、前 阵型下改变球员类型。当然DPRE只有有利于球队时才使用的。是否有利,只要通过一个效 用函数来进行评价的。效用函数要考虑一下因素:球员位置到它们的战略位置的距离、每个 站位的重要性和在当前形势下的站位是否恰当。3.3 TsinghuaeolusTsinghuaeolus 是中国清华大学研制的一支球队,清华风神在它参加的 2 次世界杯和 3 次中国 Robocup 都获得了冠军,这支球队攻击能力和防守能力都很强。 Tsinghuaeolus 的特 点是它的 Agent 结构设计比较优秀,对每一个动作的使用和选择都比较合理。下面我们给出Tsinghuaeolus的Agent结构。它把Agent设

12、计成一个具有3层的分层结 构,具有通讯(communication)、视觉控制(visual control)、控球(handle_ball)、进攻跑位 (offense positioning)、防守跑位(defense positioning)等模块。在层次机构中,动作产生器 (Action Generation)是通过对动作空间离散化产生备选的动作集合(动作集越小,计算代 价越小,就越优,但要保证最优动作包含在里面)。评价器(Evaluator)对这些动作进行评 价,主要是根据进攻价值、防守价值、成功概率等因素,获得动作的优先级。仲裁器(Mediator) 仲裁由 Evaluator 提

13、交的最优动作中有没有冲突动作。Tsinghuaeolus 的整体效果强主要是它的个体技术强,也就是它的 low-level skill (individual skill),如截球、带球、加速球等等。Tsinghuaeolus主要是通过解析法来截球的, 解析法主要设计出球的运动曲线以及需要去截球Agent的运动曲线(X、Y表示球场坐标, t表示时间),发现球的运动是二次曲线,Agent的运动是一个圆锥体求二者的交点(2-3个), 得出截球点。通过离线学习和在线规划来学习加速球Fastkick)。考虑穿越速度来进行传球 的学习。Tsinghuaeolus的整体策略(MAS协调)主要分为2种,进攻

14、跑位策略和防守跑位策略。 其中进攻跑位策略很简单,大致是使用一个433的跑位阵型。每个球员的位置是一个包含球 的位置信息的一个函数P(B,i), B表示球的位置,i表示球员号。这个函数神经网络得到的。 在防守跑位策略定义了 7个防守角色,3种防守动作(Mark、Block、Formation)每个角色 配备几种属性权值,它根据自己的这些属性权值以及场上的因素,比如说球的位置、自己的 位置、附近对手的位置等来挑选一种防守动作来执行。3.4Karlsruhe BrainstrormersKarlsruhe Brainstrormers 球队是德国卡尔斯鲁厄大学的一支球队。这支球队的出发点是 进行R

15、einforcement Learning (强化学习/再励学习),他们的长期目标是在要给出一个命令如 “赢得比赛”, Agent 就能够自动的去学习,选择合适的动作,这是真正用人工智能的方法 去考虑Robocup问题,如果这个目标能够得到实现将是人工智能的一大飞跃。Karlsruhe Brainstrormers 首先把 robocup 问题看成 POMDP( Partially Observed Markav Decision Problem),简化世界状态和动作集,通过使用动态规划的方法,用前馈神经网络来 近似一个对连续的状态空间进行评价的V函数,通过不断尝试学习去提高V函数的性能。3.

16、5 UVA-trilearnUVA-Trilearn是荷兰阿姆斯特丹大学的一支球队。欧洲的老牌强队,它的Agent结构设 计成三层的分层结构。UVA-Trilearn的MAS结构特点不是很明显,它主要把异构球员的方 法应用到Agent系统,所以该球的攻击力比较强悍。UVA-Trilearn 的 Agent 功能结构3.6 其他球队科大蓝鹰、AT HumboldtR7嘟是把BDI引入了Robocup,通过定义Belief为球 员感知到的球场信息(World Model),Desires主要是根据球场信息确定可能要使 用的动作。I ntention则是根据Belief而在Desire中选择最好的d

17、esire作为要选择的动 作。RoboLog Koblenz28是一个使用prolog语言来进行球队设计的球队。还有许 多其它球队在这里就不一一列举了。3.7 小结Robocup仿真组比赛Agent结构的设计是多种多样的,又采用深思型的Agent结构也有 采用反应型Agent结构,但更大多数的球队是使用混合型Agent结构的,这也是由于混合型 Agent的特点决定的。因为混合型Agent可以被设计成多层,高层进行球队的整体规划,底 层直接处理一些紧急或规划好的动作。这比较好理解,同时应用起来也比较方便。在球队策略也就是MAS协调方面就更没有办法统一了,有的球队甚至根本就没有MAS 协调,如Karlsruhe Brainstrormers就直接使用了强化学习,在学习动作的时候就已经包含如 何配合,就没有专门的考虑球队的策略问题。在采用了球队策略的球队中,决大多数都结合 了足球专家的知识,把现代足球的一些知识应用到机器人足球中,基本上都是用了阵型和球 员角色以及战术等足球概念。让后把这些概念通过一定的学习算法和数学模型应用到机器人 足球中去。所以说,如果你想当足球教练,那就请你组织一支机器人足球队吧。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!