面向金融知识服务的股票聚类分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:nwwwdff
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在金融领域以客观数据为基础,采用数据挖掘方法进行股票分类,对于构建投资组合和风险管理具有重要的意义。目前金融市场根据上市公司行业、地域或概念进行的板块划分,并不足以描述其市场表现,反映不出更为复杂的跨行业、跨地域的内在联系,也不能动态反映出上市公司主营业务或投资领域的变化。本课题分别从价格波动相似性及文本信息中的相关性出发,采用社区发现算法进行聚类分析。针对时间序列数据,从波动趋势特征的角度出发,首次采用动态时间规整(DTW)距离来构建关联网络,解决了部分具有强联动性股票之间时滞效应带来的影响。另一方面,本文利用word2vec从文本数据里提取股票的特征向量。基于价格波动趋势相似性的分类不仅能得到具有相同波动趋势的股票社团,还能将价格波动趋势的变化动态反映在分类结果中,同一个类中的股票具有更强的联动性。基于文本信息的分类更多地体现了股票在基本面的关系,如行业关系或在业务上的合作竞争等关系。本文主要研究内容包括以下方面:异构信息的获取及预处理。本文通过爬虫获取股票行情数据、个股新闻和个股公告。通过数据清洗和优化处理,将非结构化的金融数据转化为结构化数据,为后续构建股票关联网络和股票社区发现提供准确的数据保障。基于价格波动相似性和文本信息的股票关联网络构建。根据股票的时序列数据,采用动态时间规整(DTW)距离构建了基于价格波动相似性的关联网络,同时根据从股票新闻和公告数据挖掘出的关联性大小构建了基于文本信息的关联网络。在得到的全连通网络图上,通过阈值法对冗余边进行过滤后得到最终的股票关联网络图。股票关联网络的聚类分析。引进多种社区发现方法进行聚类分析,在利用经典的Newman快速算法和Fast-unfolding算法之外,本文通过将关联网络模型转化成一个文档语料库,引入基于LDA主题模型的社区发现方法对关联网络进行了聚类分析。海天园金融知识服务平台的实现和股票数据分析系统的实现。开发了海天园金融知识服务平台(http://www.haizhilicai.com/),并实现了在线的股票数据分析系统,能够对股票进行自动分类并能针对个股进行关联股票的推荐。
其他文献
基准地价是政府对土地市场地价水平进行宏观引导和管理的依据,反映了城市土地市场的变化趋势,具有一定的现势性。对枣庄市市中区2007年、2010年基准地价成果进行对比研究,计
本文以商业银行开展小微信贷业务的必要性及风险控制为研究主题,首先,从两个方面对商业银行开展小微信贷业务的必要性进行了简要分析,其次,从四个方面对小微信贷业务的风险审
<正> 我国高等美术院校的色彩教学存在着两种不同的教学状况。改革开放以前,由于艺术观念的单一化和苏联教学模式的影响,普遍存在着教学手段单一、基础色彩训练一味追求再现
<正>高校党委既是做决策的主体,又是抓落实的主体。在当前高等教育发展新常态的时代背景下,高校党委能否科学决策、狠抓落实,很大程度上决定了高校能否在激烈的竞争中抢抓机
在web项目的开发、建设与应用中,数据库都是与web系统共同存在的一个重要组成部分.大多数情况下web项目的后台数据库提供数据的存取服务,而事实上这些数据也均能够比较有效的
莫高窟壁画面积45000平方米,是世界上现存规模最大、内容最丰富的佛教艺术圣地,被誉为"东方艺术的宝库"。历经千百年的演变,莫高窟的壁画出现了不同程度的变褪色、空鼓、脱落
笔者阐述了西域地区存在的高超的壁画艺术,这反映了西域地区各个时期民族的形象、信仰、宗教及风俗,给我们留下了精美生动的文化遗产,让我们了解佛教壁画艺术。
根据2015年6月对西瑁洲岛海域环境监测的结果,用单项水质参数法、水体有机污染指数法和富营养化指数法对西瑁洲岛海域水质环境质量进行评价。评价结果表明:所监测站位中单项
系杆拱桥已经在我国的实际工程中得到大量应用。对已建成的系杆拱桥进行检测评定,是确保桥梁寿命期内运营安全的重要保障。本文参考了国内外相关规范、标准及研究成果,研究了
<正>与脊柱胸腰段相比,下腰椎在解剖、生物力学及损伤特点方面有其特异性,因而对于下腰椎骨折的手术治疗亦应有别于胸腰段,而且损伤类型和损伤程度不同的下腰椎骨折其手术方
会议