基于深度强化学习的自动择时交易策略研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:wdxswdxs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
量化投资区别于传统投资方法,通过数量化方法指导投资交易。近年来,量化投资交易在中国市场取得了长足的发展。市场上涌现出多种基于量化分析的投资策略,例如股票多因子策略、CTA策略以及多空对冲策略等。但经过将近10年的发展,量化策略出现了拥挤的现象,大量因子失效。低频量化多因子策略走上了依靠因子择时获利的道路,具有极大的主观性。事实上,随着量化投资交易的不断发展,现阶段,在高频量价因子研究领域,市场也逐步出现了拥挤的现象。强化学习作为一种自适应学习方法,在博弈、控制等领域取得了突出的成果。考虑到金融市场的规则性,将强化学习应用到投资实践成为新的热门研究领域。强化学习属于无监督学习方法,随着深度学习的出现,二者的结合:深度强化学习也逐渐成为研究的热点。强化学习通过不断与环境互动进行学习,从而对环境建模,确定最优策略。将强化学习应用到投资领域可以开发自动化交易策略,因此成为本文的首选方法。强化学习的环境中,规则具体明确、高度自治。在考察了各个金融品种的特性后,本文决定针对比特币市场开发自动择时交易策略。通过交易所开放接口获取比特币的量价行情数据,并根据原始量价数据计算技术指标,作为强化学习的状态数据。对于具体的模型构建流程,本文首先对比了四类基础强化学习算法的实证结果,分别是两步深度Q学习(Double-DQN)、优势动作评论算法(A2C)、深度确定性策略梯度算法(DDPG)和近端策略优化算法(PPO),发现DDPG模型的测试区间绩效评价最优。在此基础上本文做出了四点创新性尝试,分别为智能体网络结构改进、奖励函数改进、加入模仿机制和加入特征提取网络,相应地提出了四个模型:gru DDPG、ra DDPG、im DDPG和fe DDPG。对各改进模型进一步的实证研究。通过本文研究发现,使用GRU模型替换传统多层感知机智能体得到的gru DDPG相对于基础DDPG模型能够获得更优的绩效表现,从而验证了循环神经网络对于时序数据的适用性。进一步地,ra DDPG、im DDPG和fe DDPG都取得了不同程度更优的实证效果,而fe DDPG的效果在各改进模型中为最优,说明通过特征提取为智能体提供充分的先验信息对于强化学习训练的必要性。最后,本文综合了四点改进,提出了综合模型c DDPG。通过对比验证,综合模型c DDPG取得了最优的绩效评价。自2020年1月至10月中旬,模型取得了142.98%的超额收益,夏普比率为3.487,年化波动率为0.61,最大回撤为-25.09%。模型平均单步推理时间保持在0.001秒左右,具有一定的实盘意义。本文的主要特色体现在模型与指标数据两方面。模型方面:(1)使用门控循环单元GRU网络替换传统多层感知机智能体,从而更充分地挖掘量价时序数据中的信息;(2)对强化学习算法的奖励函数进行改进,在训练初期赋予智能体更大尺度的奖励,之后逐步衰减。从而使智能体在初期能够更加迅速地学习到有价值的状态-动作对应关系,在不失智能体对环境的探索的同时加快收敛;(3)加入模仿机制,使强化学习智能体事先学习经典策略,再进行与环境的交互训练,从而提高模型训练的起点;指标数据方面:(1)在强化学习状态要素定义中,除了传统的一手OHLCV量价数据外,还使用了各类技术指标,进行初步的特征提取;(2)加入特征提取网络,事先提取当前时点前后的涨跌特征信息,作为状态提供给智能体学习。在充分赋予智能体先验信息的情况下,加快收敛,提升模型训练效果。
其他文献
成果导向教育理念强调教育的实用性及教育成果转化的重要性。该理念已经成为发达国家教育改革的主流理念和引导卓越教育的灯塔。我国应用型本科院校强调实践教学、重视应用型人才的培养。因此实践教学是培养学生实践能力和创新能力的重要环节,也是提高学生社会职业素养和就业竞争力的重要途径。《成本与管理会计》是一门实践性、技术性较强的课程,也是一门“就业能上岗,上岗能顶岗”的关键课程,使用OBE理念引导该课程的教学改
建筑业作为国民经济的支柱性产业,在国家现阶段高速发展的经济中起到了举足轻重的作用。国家"十四五"规划纲要中的国民经济"新"目标指出,"在质量效益明显提升的基础上实现经济持续健康发展,增长潜力充分发挥",建筑业企业同样需通过科学的成本管理,实现企业质量效益的良性增长,使企业的发展目标同社会发展的目标相统一。长期以来,建筑企业由于从业门槛较低,劳动密集性高等,出现了成本控制意识淡薄、管理制度不健全、重
<正>一个教师的教学效果好不好,关键在于教师的教学方法巧不巧,点拨工夫深不深。一位有经验的教师说过,教学就是一种"点拨",在知识上点拨,给学生以启迪,开启学习的门径。为了说明点拨的功效,她还做了一个形象的比喻:当火光微弱时,一经点拨,顿时放出耀眼的光芒!灯芯还是那根灯芯,灯油还是那么多灯油。由此可见,教学过程中恰到好处的点拨是多么重要!
期刊
阴阳是对自然界事物属性的划分,属于二分法的范畴,它反映了至少从正反两个方面来认识问题的辩证法思想,具备了哲学中对立统一的核心内涵。阴阳的二分法和三分法是对事物定性基础上的定量认识。阴阳二分法的应用包括说明季节特点、脏腑特点和药物性能;阴阳三分法用于说明经络的命名,在《伤寒论》中划分疾病的阶段。对于太阳和阳明的三阳之争,笔者认为太阳为三阳是对经络循行分布的认识,阳明被认为是三阳,是对外感疾病病理特点
人类活动对表层耕地土壤有机碳(Soil Organic Carbon, SOC)影响强烈,但目前大范围复杂地貌地形区的耕地SOC数字制图对人为因素的空间刻画不足。本文以福建省西部耕地为研究对象,基于Sentinel-2/MSI时间序列数据提取轮作模式分类信息(Crop Rotation, CR),以及可反映轮作模式信息的植被特征变换变量(Harmonic Analysis of Time Seri
现代化企业借助EPCM项目总承包管理方式,实现工程项目设计、采购、现场施工管理,明确EPCM模式下建设方与总承包方的工作内容,详细梳理EPCM模式下的工作范围与工作接口,降低工程风险。通过对EPCM模式的概述分析,了解其中的各类风险问题,根据EPCM项目内容明确设计与采购环节和施工管理环节的管控要点,强化资源的优化配置。
针对金属非金属地下矿山采掘外包工程安全管理影响因素多、主体责任不清、安全生产绩效考核难落实等现状,通过分析金属非金属地下矿山外包工程安全管理的发展形势,以及优化外包工程安全管理的必要性,针对金属非金属地下矿山外包工程所面临的安全责任与主要风险,对入场阶段6个主要项目、工程进行阶段8个项目进行了安全风险评估,提出了安全管理模式下工程项目的风险防控与安全责任落实要求,并在此基础上,基于通用安全管理、生
目的:分析公立医院门诊患者非技术服务满意度的影响因素。方法:选取2020年8月-2021年11月在广东医科大学附属医院门诊就诊的1 600例患者为研究对象。采用自制门诊非技术服务满意度调查表对患者开展评估,依据评估结果分成满意度较高组和满意度较低组,比较两组一般资料差异,将差异有统计学意义的项目带入Logistic回归方程计算,分析影响门诊患者非技术服务满意度的主要因素。结果:发放调查问卷1 60
<正>张维为教授提出的“文明型国家”概念及其理论框架,(1)已在国内外理论界和学术界产生较大反响。这一概念和框架不仅有助于澄清从单一的“帝国”“政党国家”“民族国家”看待当代中国所造成的各种误解和曲解,更好把握当代中国的国家特性,丰富和完善已有的国家理论,而且也为革新政治学的基本原理、打破长期以来西方政治学的话语垄断,
期刊
家园共育是建立家校深度联合的有效教育模式,而在家园共育下开展亲子活动,将幼儿置于教师和家长的共同引导下,可有效在家园互相协调与配合中促进幼儿健康成长。本研究结合家园共育下的幼儿亲子活动开展策略进行分析,从幼儿、家长、教师三方面分别总结幼儿园亲子活动开展的功能体现,然后结合5所幼儿园的调查结果分析幼儿园亲子活动的现状,并结合这些问题进一步探索家园共育下幼儿亲子活动的开展策略,旨在多措并举实现亲子活动