基于量子理论及蚁群算法的多Agent Q学习

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:outtersea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对多Agent协作强化学习中存在的行为和状态维数灾问题,以及行为选择上存在多个均衡解,为了收敛到最佳均衡解需要搜索策略空间和协调策略选择问题,提出了一种新颖的基于量子理论和蚁群算法的多Agent协作学习算法。新算法首先借签了量子计算理论,将多Agent的行为和状态空间通过量子叠加态表示,利用量子纠缠态来协调策略选择,利用概率振幅进行动作探索,加快学习速度。其次,根据蚁群算法,提出"脚印"思想来间接增强Agent之间的交互。最后,对新算法的理论分析和实验结果都证明了改进的Q学习是可行的,并且可以有效地提高
其他文献
一、其主观目的是否属于使犯罪分子“免受”追究?帮助犯罪分子逃避处罚属直接故意犯罪.行为人的主观目的在于帮助犯罪分子逃避处罚.逃避处罚除当然地具有使犯罪分子“免受”追
扩大内需,开拓农村市场,已引起各级政府的重视.积极开拓农村市场不仅是扭转困难局面的当务之急,同时也是政府的一项长久之计.供销社是为"三农"服务的合作经济组织,因此,开拓
为有效提高链路带宽资源的利用率和减小数据传输时延,首先分析了链路中数据传输时延的特点,提出一种基于队列时延检测的链路可用带宽流量调度方法,该方法研究了在调度流量与
在这个手机集合了更多功能的时代,智能机成为一种趋势和时尚。像所有转型时期一样,这样的历史时机会促成许多新型高科技企业的成功,也会危及原有模式下龙头企业的产业地位。如今
基于Lukasiewicz命题逻辑系统提出一般性的赋值密度函数,定义了公式的概率真度、条件概率真度的概念,引入了公式的条件相对Γ-重言度,并给出了若干性质。利用公式的条件相对
城市Voronoi图是以L1平面上任意两点之间花费的最短时间为距离的一种新型Voronoi图,它要求交通网络路线仅为水平或垂直方向。然而,客观世界中存在大量曲线交通路线。为了使城市
将多Agent协作学习过程看作是一个个的阶段博弈,针对博弈中存在多个均衡解的问题,提出一种集体理性约束下的多Agent协作强化学习算法。该算法使得系统中的每个Agent均按照集
提出了一种改进的多尺度形态边缘检测算法。用不同尺度的结构元素分别检测出图像的不同尺寸的边缘信息,然后采用证据加权的融合方法对不同尺寸的边缘图像进行融合。通过对病理显微图像的实验,在噪声存在的条件下得到较为理想的图像边缘。与其他边缘检测算法进行比较,结果表明该算法在有效地消除噪声的同时,能够取得较好的边缘检测效果。
服装制造商经过革新工艺,生产出一种既安全又舒适的“超级”服装:夹克衫能随气温下降而增暖,汗袜既能除臭又能杀菌,T恤衫能挡住紫外线,将来某一天还能杀死触到的蚊子。法国设计师
以日地系统活动规律研究为背景,基于美国新近提出的应用于大规模科学计算领域的组件规范CCA(Common Component Architecture),设计提出了日地空间信息分布式协同高性能计算框架