不确定环境下多智能体决策的若干问题研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:APIer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体在不确定环境下的决策问题是目前的研究热点。在众多决策模型中,交互式动态影响图(I-DID)脱颖而出。与其它模型不同,I-DID从个体智能体的角度来建模由环境的物理状态和其它智能体共同组成的交互式状态空间,并利用贝叶斯方法更新模型的信度状态。凭借着明显的建模和计算优势,I-DID已成为求解多智能体序贯决策问题的一种全新的有效方法。然而在现实生活中,合作与竞争并存,使得决策面临着一系列的挑战。在合作型问题中,建立合理的通信模型使得队友之间可以更好地共享信息。由于通信是有偿的,因此通信时机的选择同样重要;在竞争型问题中,智能体需要建立起未知对手的模型,然后在若干候选模型中进一步判断其真实模型从而制定相应的对策。另外,面对复杂问题时模型求解速度较慢,有必要寻找快速而准确的求解算法。本文为了解决这些实际问题,对I-DID进行了深入的研究。主要工作如下:  1.在合作型多智能体系统中,通信是智能体之间沟通的主要方式。本文基于I-DID建立了通信交互式动态影响图(Com-I-DID),使得智能体具有了交换和共享信息的能力。通过在I-DID的两个相邻时间片之间加入通信子阶段,来实现通信的过程。由于Com-I-DID运算复杂度高,再加上通信需要一定的费用,使得智能体必须理性决定何时发起通信,而不是在每个时间片都执行通信动作。本文探讨了一种基于事件驱动的通信时机选择方法,在得到相对准确的信息时才触发通信行为,优化了整个Com-I-DID的运行。  2.I-DID的枚举式表达——交互式部分可观测马尔科夫决策过程(I-POMDP)采用嵌套建模方法,因此求解它的复杂度较高,其复杂性从未量化地度量过。本文使用了多种信息熵,如块熵、熵率和熵增益来度量I-POMDP的复杂性和不确定性。而后分别分析了在随机策略和确定性策略下其复杂性的熵测度。可以看出,I-POMDP复杂性的熵测度是随着策略变化的,这说明其复杂性和智能体使用的策略有一定的相关性。其结果对研究I-DID与I-POMDP的快速求解算法有一定的参考价值。  3.在非合作的多智能体系统中,智能体必须对有限的资源展开争夺。在这样的环境中,智能体之间不会经通信共享私有信息,而了解对手就需要通过建模的方法来实现。本文利用I-DID作为对手建模的工具,其特有的模型节点可以用来保存对手的所有候选模型,并能随着时间不断地更新。接着提出了两种判断对手真实模型的方法:  (1)在智能体之间的不断交互中,结合观察到的其它智能体做出的动作,在模型空间中利用“观察—动作”序列逐步排除候选模型,最终判断出其真实模型。  (2)利用贝叶斯网提出一种判断对手真实模型的方法。记录下观察到的对手动作序列,并与预先计算好的最优动作序列一起作为训练集,训练动态贝叶斯网络的参数,不断计算并修正候选模型的权重,从而判断出对手的真实模型;  4.影响I-DID应用到实际问题的最重要原因是,其它智能体的模型数量随时间呈指数级增长。之前的方法侧重于比较候选模型的整个策略树或部分策略树,再将等价模型归为一类,取出代表性模型从而加速计算。本文提出了一种全新的求解思路,利用互信息度量候选模型与真实模型的相关性,通过逐步剔除不相关或弱相关的候选模型,只保留真实模型来最大程度地压缩模型空间。这使得求解I-DID变得更加高效,也让I-DID可用于求解更加复杂、规划时间更长的问题。
其他文献
随着对机器人技术的不断深入研究,单机器人技术越发的成熟。为了满足某些机器人系统的并行需求以及提高机器人系统运行效率的需求,多机器人系统应运而生。越来越多的事实也证明
集装箱运输大大地推动了世界经济的一体化,集装箱正在使世界变小。集装箱码头是国际物流体系中的一个重要节点,它的生产效率直接影响着世界经济的效率。但由于恶劣天气、机械故
电梯控制系统是电梯系统的核心部分,决定了电梯功能的多少和性能的优劣。随着高层建筑的大量使用,电梯控制系统也得到了广泛的研究。电梯控制系统从结构上可以分为两个层次:单梯
GPS是美国研制的卫星导航定位授时系统,可以为用户提供导航、定位、授时等服务。随着GPS技术的发展,GPS的应用领域越来越广,已经从最初的军事用途发展到民用领域。通过采用GPS脉
从二十世纪中期至今,脊柱微创手术技术已经发展得日臻成熟。脊柱微创手术具有创伤小、感染率低、术后恢复快等诸多优点,所以它在脊柱外科领域得到了广泛的应用。然而,脊柱微创手
随着复杂装备的高技术化,其结构日益复杂,功能更加强大,各种信息技术、人工智能技术广泛应用其中,使得装备日常使用中的故障诊断问题日见突出。论文的研究旨在提供一种解决复
f—CaO是水泥熟料中没有参加化学反应,以游离态存在的氧化钙,是影响水泥安定性的主要因素,能够直接反映物料在烧成系统烧成带的烧成状况。目前大部分水泥厂采用丙三醇—乙醇法或
小型扬声器是一种把电信号转化为声音信号的发声设备,广泛的应用于现代消费类电子产品、计算机、通信、汽车电子等领域,其音质的好坏直接由构成扬声器的重要部件音膜决定。音膜
当今世界正在形成新的格局,特别是第三世界的经济建设将不断发展。我国的改革开放的政策,促进了与各国人民的经济交往。因此,航运事业将有新的发展,造船业将呈上升趋势,所以浮式起
无线传感器网络(WSN)集成了传感器、嵌入式计算、分布式信息处理和无线通信四大技术,是一种全新的信息获取、处理和传输技术。它可应用于军事、环境监测、医疗救护、商业等领