基于逆强化学习的建筑室内环境调控方法研究

来源 :苏州科技大学 | 被引量 : 0次 | 上传用户：cyqhexxjl86

【摘要】

：

【作者】

：

吴少波

【机构】

：

苏州科技大学

【出处】

：

苏州科技大学

【发表日期】

：

2021年01期

【关键词】

：

强化学习逆强化学习元学习室内环境空调自动控制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着病态建筑综合症的出现,人们开始意识到封闭的室内环境对室内人员的健康会产生不利的影响,对建筑室内环境的舒适度给予了极大的关注,此外由于化石能源消耗日益加剧、社会用电需求不断增加,基于建筑运营中电力能源消耗较大的特点,如何在保证舒适度的情况下减少能耗成为了相关领域研究的一个重要方向。本文以建筑室内环境控制问题为场景,结合强化学习解决控制最优化问题,着重针对强化学习中的奖赏函数设定问题进行研究。针对复杂的室内环境下奖赏函数难以人为设定的问题,本文通过逆强化学习中学徒学习的方法对奖赏函数进行设定并求得最优策略,同时将算法应用于现实的空调系统,针对建模过程中存在的小样本问题,引入元学习的概念,通过相对熵概率模型对奖赏函数进行建模并求解,并将提出的算法应用于空调系统的自动控制,从而实现对室内环境的调控的目的。其主要研究内容如下:（1）针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法。利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任务学习先验,在无模型强化学习问题中,采用相对熵概率模型,对奖赏函数进行建模,并结合所构建的先验,实现利用目标任务少量样本快速求解目标任务奖赏函数的目的。将所提出的算法应用于经典的Gridworld和Object World问题,实验表明,该算法在目标任务专家演示稀疏以及缺少状态转移概率信息的情况下仍能较好的求解奖赏函数。（2）针对室内环境控制任务MDP中奖赏函数难以人为设定的问题,提出了一种基于学徒学习的室内环境控制方法,通过采集人类专家的控制序列构建专家样本,结合学徒学习方法对奖赏函数进行求解,随着奖赏函数参数的不断迭代求解出接近人类专家策略的最优控制策略,并将提出的方法应用于模拟出的室内环境模型进行仿真实验,实验结果表明,该方法以一种数据驱动的方式有效地解决了室内环境控制任务MDP中的奖赏函数设定问题,并进一步对室内环境进行自适应控制。（3）将逆强化学习应用于现实中的空调系统自动控制,针对建模过程中存在的样本数不足的问题,结合人工神经网络和第三章基于相对熵的元逆强化学习方法构建空调智能控制方法,并研究了不同奖赏函数情况下系统性能的变化。通过Energyplus软件仿真实验验证了所提出的方法,实验结果表明,该方法在小样本情况下仍能较好的实现AC系统的自动控制。并且通过提供不同用户的控制样本,最终将得到满足不同用户偏好设置的控制系统,有一定的现实意义。

其他文献

控股股东股权质押、内部控制与公司违规的关系研究

学位

长丰县草莓产业发展研究

学位

合肥市物流业发展水平与土地利用效益耦合关系研究

学位

鹅圆环病毒遗传进化分析及与鹅星状病毒双重荧光定量PCR检测方法建立

鹅圆环病是由鹅圆环病毒（Goose circovirus,GoCV）引起的以腹泻,生长缓慢和羽毛凌乱等临床症状的一种传染病。GoCV感染鹅后主要侵害淋巴组织器官,从而导致免疫力下降,继而增加继发感染。该病是目前危害养鹅业的病原之一。截止目前,我国的浙江、山东、台湾、广西、广东等多个省份均有该病的报道。安徽省尚没有对该病的报道,因此本研究从临床上对来自安徽省部分地区的病料进行GoCV的检测,同时对其

学位

鹅圆环病毒遗传进化鹅星状病毒双重荧光定量PCR检测方法

番茄红素对赭曲霉素A诱导犬肾小管上皮细胞毒性损伤的保护效应研究

学位

粮食规模经营对农业环境效率的影响研究 ——基于安徽省庐江县规模农户的调查

学位

蚌埠市土地利用效益评价研究

学位

莫西菌素和吡虫啉透皮制剂稳定性和药代动力学研究

学位

安徽省农村专业技术协会技术推广能力及培训效应研究

学位

PAMAM树枝状聚合物动力学的介电弛豫谱研究

学位

基于逆强化学习的建筑室内环境调控方法研究

其他学术论文