多站点CSPS系统基于学习技术的look-ahead控制研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:ronaldocjz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实世界的一些生产加工企业中,存在一类由生产加工站作为加工主体的生产线,其中,加工站由传送带输送工件进行加工,这样的一类系统称为传送带给料生产加工站(Conveyor-serviced production station,CSPS)。由于专业化、规模化和集约化生产的需要,这些生产线往往配有多个CSPS,称为多站点CSPS系统。若将这些站点视为可以学习的Agent,则构成一个多Agent系统,其优化目标是通过合理选择每个站点的look-ahead控制策略,实现整个系统的工件处理率最大。 在站点串行分布的CSPS系统中,上游站点的决策对下游所有站点的运行都将产生影响,但在没有信息交互的情况下,下游站点的决策对上游站点却不产生影响,因而不利于站点间的协作和负载平衡。因此,文章通过引入反应扩散思想,将站点与其后紧邻的站点进行信息交互,即将后者的状态信息通过代价函数反馈到前者。另外,由于各站点的决策时刻不同步,为异步决策模式,而常用的多Agent算法,如Nash-Q等,一般基于同步决策框架,故难以应用到本系统。由于Wolf-PHC算法的Q值学习不需要求解均衡解,因此论文结合性能势理论,给出了一种适用于平均和折扣两种性能准则的Wolf-PHC多Agent学习算法。该算法既可有效解决多站点CSPS系统的异步决策问题,又可通过站点间的逐级信息反馈,来提高系统的协作能力,改善学习优化性能。 其次,由于多站点CSPS系统本质上是一个离散事件动态系统,其特点是系统的运行由一系列离散的事件驱动。因此,论文将系统的策略定义在事件上,并结合性能势理论,给出了两种性能准则下统一的基于事件驱动的在线Q学习算法。实验结果表明,与基于状态变化的Wolf-PHC学习方法相比,该算法可有效提高系统的工件处理率。
其他文献
随着互联网技术与应用的迅速发展,Web服务作为一种新兴的Web应用模式及远程访问标准,很好地解决了异构平台上的数据和应用的整合与共享问题。但是,传统的Web服务缺乏语义信息
随着万维网的不断发展,用户从海量数据中提取有效信息变得越来越困难。聚类分析作为web数据挖掘的重要方法,对降低数据规模,过滤无效信息起着至关重要的重用。本文以基于web日志
随着软件在安全关键领域的广泛应用,可信软件的研究成为可信计算研究中的一个重要内容。由于软件系统本身的复杂特性,如何使软件具有可信性的研究面临着巨大挑战。它要求人们对
本文的研究来源于河南省自然科学基金项目(NO.0611053900)“区间逻辑的柔性化理论研究”和河南省重点科技攻关项目(NO.092102210149)“基于区间结构的柔性化控制模型及其系统
无线传感器网络在军民用领域有着广阔的应用前景,是目前学术界研究的热点之一。它综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能够协作完成实时监测
近年来,随着传感器技术、无线网络通信技术等日新月异的飞速发展,多功能化的智能设备充斥在人们的社会生活、学习工作中,以智能手机、平板电脑等为首的移动设备充当了移动计
通用的搜索引擎接到不同用户输入查询词后,按照统一模式处理,搜索引擎返回一样、成百上千、与用户兴趣不相关、重复甚至是过时的信息。个性化技术针对不同的用户采取不同的服务
近年来,随着高等教育事业的推动,高等院校的信息化发展来到了一个前所未有的时代,但是随着高校图书资源的规模的不断扩大,图书管理人员需要花费大量的人力、物力、财力及时整理图
现有的事件机制多采用传统客户机朋艮务器结构,两层结构虽然给人们带来了相当的灵活性,但也逐渐暴露出其客户端和服务器端负担过重的现象,并且其系统拓展性也较差。随着网络
随着互联网的发展,人们在习惯于通过互联网来获取信息的同时,也发现由于互联网中信息量的庞大及其无组织性,如何高效地取得有用的信息成为了一个亟待解决的问题。搜索引擎的