论文部分内容阅读
随着信息技术的发展,信息技术在日常生活中的应用越来越广泛,受到越来越多企业的关注与投资。同时随着企业业务的发展,企业内部的数据量也越来越大,因此如何有效地分析这些数据,挖掘出有价值的信息,为企业的决策提供有力的依据,直接关系着企业能否在市场中生存。而传统的数据挖掘平台,因其准确性,被广泛用于企业的数据分析中,如市场价格预测、员工离职行为分析等。但是随着数据的爆炸性增长,传统的数据挖掘平台已经无法在短时间内处理这些数据。另一方面,随着企业内部业务的多元化,传统数据挖掘平台在扩展新组件方面成本越来越大。为了解决上述问题,本文提出并实现了一种新的面向领域的数据分析平台架构,该架构基于HDFS的海量存储,MapReduce框架的高效性,使得海量数据的处理变为可行,并通过引入了工作流引擎与可扩展可动态部署的插件框架,使得平台的可扩展性大大加强。本文的内容包括:1.平台的架构设计:基于石油领域企业的需求,完成平台的架构设计,并细化每个模块的设计;2.统一的元数据规范:定义统一的元数据,平台各个模块的都是通过元数据进行通信,减少了各模块之间的耦合性。3.可动态部署的插件框架:采用OSGI(Open Service Gateway Initiative)规范使平台具备将其他能力集成入平台的能力,并采用工作流引擎的集成机制将平台的能力有效的组织起来,使得平台能够支持复杂的业务流程;4.最后,本文将该系统运用到真实的案例中,该案例体现了系统平台的高效性、可扩展性,并且支持复杂的业务,验证了本系统的可行性。