论文部分内容阅读
实际的商业数据存在着关系的繁杂性、数据的海量性、脏数据的不确定性,关系数据模型会造成数据分析的性能及灵活性降低,如何选择满足数据分析高效查询性能的数据源结构是一个不可或缺的议题,从这一点出发,本文提出对于普通关系型数据转化为面向业务主题的星型数据建模方法和对此类数据的分析处理方案。本文基于NBA球队数据进行星型数据结构的建模及其分析研究,选择ECLIPSE、MYSQL5.1和MatLab2009为开发环境,对球队技术数据的聚类研究、球队球员数据的归类预判,得出多主题的星型结构在实际数据处理中的优越性和此类模型的分析方案。其中以球员球队两主题的星型模型为主要研究对象,将经过系统分析后抽象出来的概念模型转化为物理模型,形成现实数据库,并对已存在的CSV文本数据在MYSQL中进行相关的入库和ETL操作。使用MatLab2009的相关聚类函数进行数据分析,并对分析结果进行关联分析。采用判定树规则对归类变更后的预测或新增数据的分类分析。实现了球员球队文本数据的星型数据模型转换操作及入库和分析流程。通过对球员球队数据处理及分析的研究,面向业务主题的星型建模方法在数据的挖掘分析源处理上有着良好的性能优势,本文为挖掘分析提供了有利数据源结构的星型结构数据化方案,为其研究和相关分析提供了优良的数据源及分析方法。