面向领域的数据分析平台设计与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:liuyi_wenzhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,信息技术在日常生活中的应用越来越广泛,受到越来越多企业的关注与投资。同时随着企业业务的发展,企业内部的数据量也越来越大,因此如何有效地分析这些数据,挖掘出有价值的信息,为企业的决策提供有力的依据,直接关系着企业能否在市场中生存。而传统的数据挖掘平台,因其准确性,被广泛用于企业的数据分析中,如市场价格预测、员工离职行为分析等。但是随着数据的爆炸性增长,传统的数据挖掘平台已经无法在短时间内处理这些数据。另一方面,随着企业内部业务的多元化,传统数据挖掘平台在扩展新组件方面成本越来越大。为了解决上述问题,本文提出并实现了一种新的面向领域的数据分析平台架构,该架构基于HDFS的海量存储,MapReduce框架的高效性,使得海量数据的处理变为可行,并通过引入了工作流引擎与可扩展可动态部署的插件框架,使得平台的可扩展性大大加强。本文的内容包括:1.平台的架构设计:基于石油领域企业的需求,完成平台的架构设计,并细化每个模块的设计;2.统一的元数据规范:定义统一的元数据,平台各个模块的都是通过元数据进行通信,减少了各模块之间的耦合性。3.可动态部署的插件框架:采用OSGI(Open Service Gateway Initiative)规范使平台具备将其他能力集成入平台的能力,并采用工作流引擎的集成机制将平台的能力有效的组织起来,使得平台能够支持复杂的业务流程;4.最后,本文将该系统运用到真实的案例中,该案例体现了系统平台的高效性、可扩展性,并且支持复杂的业务,验证了本系统的可行性。
其他文献
德隆是神秘的,从唐氏兄弟创业至今,历时17年,从来就默默无闻、行事低调。它像深海潜行的巨鲸,从容游弋在平静的海平面下,然而却是海洋真正的主宰者。
本文主要介绍分析了ZFS文件系统的十大功能特性,预期在不久的将来ZFS文件系统必将得到广泛的应用。
本文描述了一种低成本电源故障分析仪的实现方案。通过不断地测量故障电源的输出电压、输出电流以及某些关键器件的表面温度,分析这些数据与时间的对应关系,判断故障电源中哪些器件工作异常,从而可以找出故障电源的故障原因。
期刊
<正> 本周公布的 CPI 达到了6.9%,创十三年新高,市场本周四因此担心通货膨胀引发进一步的紧缩政策出台而选择了抛售地产、银行、钢铁和资源等板块的股票,并导致这些股票连续
随着冲击性负荷的日益增多,迫切需要对大量冲击性负荷接入电网时所引发的电能质量问题进行有效的分析。结合重庆电网,提出了分析大量冲击性负荷接入系统时的电能质量评估方法
目的了解安徽省沿江地区2001-2010年血吸虫病流行趋势变迁和防治现状,为部队野外驻训制定血吸虫病防治对策提供依据。方法从皖江地区10县区市2001-2010年的统计年报表中提取
一家卖3.5元一台的水果去皮机的小公司,居然做到年销售额7.4亿美元的规模,说起来也许你不相信,不妨听听它的故事吧。