基于强化学习的自动交易代理

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yufengdong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文使用强化学习构建了与金融市场进行智能交互的自动交易代理。股票市场交易可以用于评估和开发新的机器学习方法,这些方法需要对金融市场交易问题的特征做出调整,尤其是强化学习。预测股市变化是一项非常艰巨的任务,因为驱动市场行为的基本模式是非静态的,这意味着过去学习到的有用的预测模式可能不适合在将来应用。强化学习尚未在该应用领域中广泛应用,相比于其他技术,强化学习的范式可以使代理具有更大自由度地直接学习交易决策模型,例如,无需预设定义用于购买或出售这些决策信号的特定阈值。价格的变化可以自然地被看作是一种奖励,所以强化学习可以避免在监督学习中标注示例和构建训练数据集所需的成本。在对先前文献的研究中,我们发现现有的应用强化学习算法来生成交易决策的研究通常不能解决非静态环境的问题。先前文献中所提出的方法得到的单一代理不会随着时间的变化而重新校准,同时学到的交易策略有时会陷入局部最优。本文提出的方法通过使用多个代理和一个多阶段学习模型来缓解上述提到的问题,多个代理可以竞争性地推荐最佳决策。我们的方法将在线学习与强化学习相结合。在线学习用于在决策点实时从一组代理中选择推荐的交易策略,还可以基于最近的数据重新学习和调整决策模型。为了更好地应用强化学习,实验中对训练强化学习代理的过程做出了调整,使更多的注意力集中在最新数据上。本文使用一系列来自国际和中国股票市场的数据,通过实验分析对所提出的方法进行评估。我们发现,在金融行业中常用于评估风险和收益的各种指标上,基于所提出的方法的代理都能够胜过基于其他机器学习方法的代理。实验表明,使用在线学习和强化学习的代理比基准交易方法购买并持有可获得更高的回报,并且使用在线学习可以大大提高Deep Q-learning代理的性能。值得注意的是,在金融危机期间,在线强化学习(OLR)代理可以在许多情况下保持盈利,而其他代理在所有测试中均有亏损。
其他文献
初中语文教学是初中教育体系中的重要内容。在素质教育目标的指引下,初中语文教学模式也在不断创新发展。本文通过对初中语文互动式教学模式的建立途径进行研究,旨在能够为现
介绍了某钢铁公司回收厂区富余饱和蒸汽进行发电的方案,着重介绍了球形蒸汽蓄能器的原理及特点,并与卧式筒形蓄热器进行对比。球形蒸汽蓄能器具有占地少、投资省、系统简化、蒸
<正>近年来,随着我国改革开放不断深入,受国际、国内毒品犯罪的影响,毒品犯罪情况日趋严重。毒品犯罪的重新獗起,严重地危害了人民群众的身心健康,毒化了社会环境.为此,打击毒
会议
本文在介绍城市地下空间信息共享发展需求的基础上,认为传统的信息资源建设往往只强调数据资源或网络系统,缺乏对软环境-政策法规的系统研究。数据资源、政策法规和信息网络
<正>猪内源性反转录病毒(porcine endogenous retrovirus,PERV)属反转录病毒科(Retroviridae)哺乳动物C型反转录病毒属(Mammalian Type C Retroviridae)成员,它以前病毒DNA形
会议
自来水中残留铝会诱发人体神经系统病变、骨骼系统发育不良、肾脏和心脑血管疾病,影响消化系统神经功能等。研究表明,水源水中的原有铝和水厂外投加混凝剂引入铝在经后续水处
会议
幼儿美术教学较为重要的环节便是泥工教学,学生处于幼儿阶段时,对事物的认知较浅,对泥工美术活动具有较大的兴趣。另外泥工美术活动的开展,可以促进学生综合能力的发展,对学
患者27 岁,因G1P020+2周双胎妊娠伴一胎畸形,合并盆腔肿物入院.患者平素月经不规则,7天/40~60天,量多,伴轻度痛经. 末次月经2002年3月10日,停经2个月时在当地县医院行超声检查
据《史记·扁鹊仓公列传》及相关早期文献分析可知,“中热”可形成“不溲、溺赤”等小便病候在当时是被普遍接受的一个早期医学背景,受其影响,与小便病候关系密切的足厥阴脉