基于深度强化学习的多主体仿真在复杂经济系统研究中的应用

来源 :福州大学 | 被引量 : 0次 | 上传用户:yyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复杂经济系统理论以动态的、复杂的观点来研究社会经济系统,是一种更全面的、建立在非均衡基础上的经济理论。目前对于复杂经济系统的研究主要是通过仿真的方式进行。但是在传统仿真技术中,系统内经济主体行为是基于给定规则,这就难于解释经济系统中反馈与涌现等现象,因此对复杂经济系统研究的支撑不够。对此,本课题设计了一个多主体的经济系统仿真模型,同时引入深度强化神经网络对系统中的经济主体的行为进行控制。针对经济系统的特点,本文在网络层中引入了循环神经网络层,使得经济主体的智能性在网络训练过程中不断提高。宏观上体现为经济主体的运营状况在训练过程中逐渐改善,展现出对环境的适应性。基于深度强化学习的主体行为策略避免了传统研究手段中主体行为策略固定死板的问题。本文主要研究工作和结论如下:(1)设计一种多主体的经济系统模型——以复杂经济系统理论为指导,本文设计了一个含有多主体的经济系统模型。系统内具有银行和企业两种类型的经济主体,代表对现实环境中经济主体的高度抽象。系统中同类经济主体间,不同类型的经济主体间都存在各种物资流动。(2)提出一种基于Deep Recurrent Q-Network(DRQN)的决策模型——本文中,负责银行与企业行为决策的机构分别称为银行家和企业家,其分别利用两类网络B_DRQN和E_DRQN展开决策。所有的B_DRQN共享一个经验池,而所有的E_DRQN亦是如此。根据所提出的决策模型,本文定义了不同决策模型的输入向量,输出向量和决策制订,以及奖励策略等。(3)进行仿真实验,对实验结果进行分析——本文在上述基础上进行了仿真实验,研究了采用基于DRQN的决策模型以及不同决策模型的经济主体在训练过程的表现,和奖励的设计对决策模型的影响。综合实验结果得出以下结论,采用基于DRQN的决策模型的经济主体具有更好的表现,在宏观上体现为系统中经济主体的存活时间更加长久。同时基于DRQN的决策模型的稳定性也更好。实验结果说明了基于DRQN的仿真建模不仅丰富了经济系统建模的手段,也是一种自治的、贴近现实经济系统的建模方法,可以在研究复杂经济系统的工作中发挥重要的作用。
其他文献
近年来,基于卷积神经网络的目标检测方法取得了很大的进步,然而在大规模的图像中检测小目标仍然是一个具有挑战的任务。因为小目标在图像中具有较低的分辨率,有限的像素不足以保留小目标的细节信息。而目标检测模型对输入图像进行下采样,提取的特征逐渐丢失了空间信息,影响了小目标的特征表示。小目标检测将直接影响下游许多任务,如无人驾驶汽车从高分辨率的图像中实时、准确地检测路况、交通标识、障碍物等是保证驾驶安全的前
学位
零件尺寸测量是保证产品精度和质量的重要环节。目前,零件尺寸的测量,特别是微小零件,主要是以人工手动接触式测量为主,存在测量精度低、速度慢的问题。随着图像分割技术、硬件计算能力的日趋成熟,本文通过图像分割的方法对微小零件尺寸进行测量,该方法具有精确、非接触式等特点,并且能够满足现代化工业生产需要。本文针对手表定子片零件进行尺寸测量,定子片精度要求为微米级别,其大小均在25mm以内。本文通过传统的图像
学位
可解释性文档分类旨在对文档进行分类的同时生成解释信息作为模型决策依据。现有基于深度学习的解释方法有效增强了模型的可解释性,取得了显著的成果。但仍存在以下问题:现有方法未能充分考虑文档中单词级、句子级等多个粒度上的文本语义特征;已有模型训练时通过优化变分下界难以精确估计样本分布导致生成文本质量不佳;当前方法对长文本信息进行建模时容易丢失部分长距离依赖特征。本文针对上述问题展开以下三个方面的研究:(1
学位
在需要决策的实际问题中,我们所能获知的信息往往是不确定的、不完整的、且精确度不足。为了解决这类问题,Yang等人提出了基于D-S证据理论的置信规则库推理方法。在此基础上,Liu等人提出了数据驱动的扩展置信规则库的构建方法,它通过对前提属性引入置信分布的方式,进一步提升了规则对于已知知识的表示能力。作为一类模拟专家解决现实问题的专家系统,已经吸引了很多学者对其展开了相关研究。但目前置信规则库仍存在着
学位
大量交通信息的收集使得人们能够高效准确地统计交通流量。这些统计结果对政府决策、区域建设、科学研究起到了重要的数据支撑作用。然而,已有研究表明直接发布统计数据存在严重的个人隐私泄露的风险。如何在发布交通流量数据的同时保证个人隐私的安全性是当前数据库领域的研究热点。作为一种公认的隐私标准,差分隐私提供了严格的隐私安全保证,并被国内外学者广泛研究。针对交通应用场景,本文考虑了差分隐私二维空间数据划分发布
学位
短临强降雨,一般指短时间内降雨强度高的一种强对流天气现象,主要发生在每年的汛期。短临强降雨往往伴有强风,冰雹和雷暴等极端气候现象,容易引起山洪、泥石流、城市洪涝等自然灾害。提高短临强降雨的预测准确度是气象研究人员的重点研究目标之一,但由于短临强降雨的高突发性,气象数据的高维非线性导致传统预测方法效果不佳。而且传统预测方法往往只采用了单方面的气象数据,模型抗干扰性不强,非常依赖于数据的准确性。针对以
学位
文本检测与识别是计算机视觉、模式识别与人工智能领域的热点研究方向。传统的光学字符识别方法对存在变形、噪声、不同结构布局和复杂背景等复杂场景下的文本检测与识别任务表现较差。随着深度学习技术的发展,基于深度学习的文本检测与识别算法在复杂场景下取得了较好效果。然而,相较于英文字符,中文中仅常见字符就多达数千个类别,这使得数据集构建困难;其次,不同于英文文本通常词内字符间距小,词间距大,中文文本字符间距可
学位
深度网络在各种任务上都显示出了强大的力量,被认为是一种潜在的实现通用人工智能的机器学习架构。然而,深度网络学习的典型模式是:给出一组固定的训练数据集,网络通过学习获得任务相关知识,当学习任务完成后,网络就会直接应用到具体的任务中,而不需要再学习新的知识。这种学习模式所建立的模型是静态的,难以适应不断变化的现实任务需求。深度网络迫切需要一种增量学习方法,能够促使模型从连续呈现的数据流中动态地学习新知
学位
论辩挖掘旨在从非结构化的文本中识别论点并对其关系进行分类,是自然语言处理领域的热点研究课题之一。近年来,随着深度学习的不断发展,论辩挖掘领域的相关研究已取得不错的进展,但仍存在诸多挑战:现有工作未充分考虑标注数据稀缺,缺乏对文本结构信息的有效利用,导致了模型难以识别长论点部件;以往方法在进行序列标注时尚不能很好地刻画标签间的长依赖关系;当前的研究在获取文本表示信息时,未能充分利用文本的词汇特征,导
学位
如今,推荐系统已经演变成为能帮助用户做出合理决策的工具。为了给用户提供更有效的推荐,大量的推荐模型已经被提出。在这些模型中,基于内容的推荐模型和基于协同过滤的推荐模型都只注重长期、静态的用户偏好而忽视短期、动态偏好。为了解决上述问题,越来越多的研究开始集中在基于会话的推荐模型。传统的会话推荐算法使用马尔可夫决策过程对会话数据进行建模,但是马尔可夫链无法刻画用户的长期偏好。基于RNN的会话推荐算法能
学位