基于强化学习的应急逃生路径规划研究

来源 :青岛理工大学 | 被引量 : 0次 | 上传用户:greatspy_52
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
路径规划是人工智能领域的一个重要研究领域,在国防军事、交通运输、机器人导航等诸多领域有着广泛的应用。目前就这一领域的研究也已经涌现出了许多的研究成果,但是已有的研究多基于人工建立环境的基础上,人为的为模型提供环境数据来完成模型的训练。强化学习是一种无需人工提供训练数据的机器学习方式,随着近年来深度学习的发展,结合了深度学习与强化学习的深度强化学习方法获得了极大地发展和应用,Alpha Go,Aopha Zero的的出现展示了深度强化学习的广阔应用前景。本文将深度强化学习方法应用在应急逃生路径规划领域。首先,本文提出了一种分布式优先级经验置换的深度强化学习策略。该策略采用集中式学习、分布式执行的训练方式,既提高了训练速度,分布式的数据采集也保证了记忆库中样本更具代表性。再者该策略通过样本数据在参与模型训练时的产生的损失值为样本数据作为样本数据的权重,依该权值采用小根堆的数据结构构建记忆库,随着智能体在环境中执行动作,不断的用新的样本数据替换记忆库堆顶的样本,并通过小根堆自主的结构调整使得堆顶始终为优先级价值最高,即相对于模型价值最低的数据,通过这种方式保证了记忆库中的样本对模型具有较高的价值。而后该策略采用基于堆层序数的优先级采样方式进行采样,解决了模型训练过程容易被个别异常数据所左右的问题。其次,本文提出了一种结合了LSTM的DDPG路径规划算法。在进行路径规划时,该算法以环境图像作为输入以最大限度的保留环境的原始特征信息,通过预训练的图像编码器对环境图像进行降维编码,而后传递到后续过程执行后续操作。通过在深度强化学习框架DDPG中结合LSTM网络,使得该算法具有了处理可以处理动态变化的环境数据,以连续的图像帧数据作为强化学习问题中的一个状态,同时作为时序数据作为该算法的输入,模型产生的结果将能参考前序信息,实现了更高效的动作选择。通过DDPG框架作为环境回报与动作选择的处理策略,最终实现了对对环境预测基础上的动态路径规划。最后,本文结合Unity 3D引擎构建了应急逃生路径规划仿真平台,通过面向对象的设计模式完成了对环境中的实体控制。并将本文提出的DPES策略和LSTM-DDPG算法在仿真平台上进行实验,验证了平台的可用性并进一步证明了本文提出的策略、方法在解决应急逃生路径规划问题时的能力。
其他文献
随着交通拥堵压力在全国城市化建设进程中的阻碍作用凸显,地铁凭借高效、环保和快捷等诸多优势迅速受到各城市的青睐,并相继得到规划和建设,处于快速发展的黄金阶段。但是,地铁建设的实际施工场区大多位于城市繁华地段的地下,受沿线周边的建筑物、地下管线、地质及水文等影响显著,且整个过程具有专业性强、技术复杂等鲜明的高风险特点。而盾构法作为地铁众多暗挖施工技术中不可或缺的佼佼者,被广泛应用于全国城市地铁建设中,
近几年,新型现代化建筑发展迅速,装配式建筑成为人们日益关注的重点。装配式建筑的建设涉及了设计、生产、物流、施工等各个环节,各环节出现质量问题都会影响到装配式建筑的实施,传统工程承包模式的各单位之间联系不紧密,容易导致设计、生产和装配脱节,工程质量难以保证。自2017年,国家政策提出装配式建筑更适合应用工程总承包模式,陆续有不少大型企业开始采用EPC模式建造装配式建筑。虽然工程总承包模式在提高装配式
7A09铝合金隶属于7系航空铝合金的范畴,该系铝合金相较于其他系铝合金具有一系列的优点,如热变形性能较好、淬火域较宽、强度较高以及优异的耐腐蚀性,故常被用来制造机翼上的翼面蒙皮、大梁等,所以该合金在航空制造领域的应用潜力十分巨大。目前,针对该合金的研究仍主要集中在热处理和材料性能方面,对于其切削加工性和表面质量方面的研究还较少。鉴于此,本文通过改变合金淬火工艺来探究其对应的切削加工性及表面质量。首
面接触是机械零部件典型的接触形式,为保证其润滑效果,人们常采用保守的润滑方式,即添加过量的润滑剂,造成过高的摩擦功耗和资源浪费。当前摩擦学设计提出了限量供油润滑的概念,即通过限制润滑油供给使零部件工作在降磨减摩最佳润滑区域,降低摩擦功耗。本文采用表面修饰方式来实现摩擦表面供油的改善,以提高面接触副限量供油润滑条件下的润滑性能。利用面接触滑块轴承润滑油膜测量系统,在限量供油条件下,通过转移膜、表面涂
为适应绿色发展的要求,绿色胶凝材料的研究和开发已经成为建材领域可持续发展的重要目标之一。在传统胶凝材料硅酸盐水泥生产的过程中,释放温室气体并消耗化石能源。为了环境的可持续发展,低能耗高环保的胶凝材料的探索与研发的任务变得极其重要。碱激发矿渣水泥作为一种新型胶凝材料,它以节能、环保和高性能的优点,得到国内外学者的关注。本文通过钢筋在混凝土中的电加速锈蚀试验,研究了钢筋在碱激发混凝土(GPC)和普通混
近些年来,装配式建筑以其施工速度快、绿色环保等优点得到国家大力推广,其发展规模进一步扩大,而采用新型建造方式建造的建筑产物,其安全问题必将受到政府和大众的重点关注,为了保障相关从业人员生命健康和促进社会和谐发展,对装配式建筑进行风险管理势在必行。基于上述的研究背景,本文以装配式建筑安全事故承灾体为对象,以完善装配式建筑风险管理体系为目标,构建基于组合赋权和云模型的脆弱性评估模型,并结合青岛某装配式
PPP(Public Private Partnerships)模式作为一种新型的公私合作模式,在公共基础设施及社会公共服务等领域得到广泛地运用。而文化产业中古城项目一般由政府主导,鉴于政府资金不足,政府开始允许、引导、鼓励将PPP模式应用到文化产业领域,但与其他领域相比较实践项目还是比较少,尤其文化产业中古城PPP项目本身可借鉴的成功案例较少,对文化产业中古城PPP项目风险管理没有较深入的研究,
阴极保护是提升金属抗腐蚀能力、延长其服役寿命的重要手段。牺牲阳极和外加电流阴极保护这两种常用的阴极保护可为金属材料提供有效防护,但也存在牺牲阳极损耗、环境污染、能源消耗等问题。光电化学阴极保护技术仅依靠光能就能实现对金属的腐蚀防护,是一种绿色环保的金属长效防腐技术,有着巨大的发展潜力。TiO2因其具有优良的光电催化性能、环境友好性和化学稳定性,一直是光电化学阴极保护领域研究的热门材料。然而,TiO
作为应用最广的一类反馈系统,伺服系统凭借其高速、高精、高性能等优势在社会生产中占据重要地位。由于控制电机转速较高,无法直接完成对执行器的控制,因此需要传动环节进行调速。齿轮传动是伺服系统中最为常见的减速装置,由于传动过程中齿轮无法完全啮合,导致出现齿隙现象。齿隙非线性是存在于伺服系统传动环节不可避免且难以通过机械方式完全消除的非线性影响因素,会严重影响控制系统的稳态性能与动态精度。国内外控制领域的
随着环境问题的显露和能源危机的加重,社会各界都高度重视可持续发展,绿色建筑形式已成为建筑业发展的主流趋势。相较于传统建筑的建设,绿色建筑在节约能源与资源、减少污染、提供更舒适的生活环境等方面具有独特的优势。但绿色建筑高昂的增量成本,成为阻碍绿色建筑发展的最主要因素,对绿色建筑成本进行研究显得尤为重要。本文对绿色建筑的成本控制进行研究,以期能够增强人们对绿色建筑的认识,作为建设单位对绿色建筑进行成本