论文部分内容阅读
随着大数据时代的到来,人们逐渐认识到了数据的重要性。数据不仅是一种资源,更是一种财富。在大数据应用领域中,金融数据分析被视为一个很有前景的方向。股票分析一直是金融领域一个很热门的话题,而且涉及多个领域的知识。在此之前,人们更多的是采用基本分析,即通过宏观及微观的经济政策、本行业领域的发展状况、投资者的行为态度、反映企业自身发展状况的指标等方面来预测股票今后走势。随着大数据相关技术的发展,在海量的股票历史数据中发现规律进而预测股票走势成为一个很热门的研究课题。本文是对股票大数据进行聚类分析,本文的主要工作如下:1、数据收集。通过python爬虫以及TuShare包获取了约800 GB的股票数据,包括上式公司的基本信息以及历史行情数据(以每天为记录的数据和以每个时刻为记录的数据)。2、平台搭建。在实验室搭建了 6台机器组成的Hadoop分布式集群,其中1台为Master节点(HDFS上的角色为NameNode,MapReduce上的角色为JobTracker),5台为 Slave 节点(HDFS 上的角色为 DataNode,MapReduce 上的角色为 TaskTracker)。3、聚类分析。用Hadoop下的MapReduce框架编写了两种聚类算法:K-means算法和NMF(非负矩阵分解)算法,并对聚类后的结果进行分析。聚类结果表明被聚在一类中的股票走势有很大的相似性。