基于众包工作流的多用户协同whaT-if分析工具的研究和实现

来源 :东南大学 | 被引量 : 0次 | 上传用户：hobo_man

【摘要】

：

随着计算机网络与数据库技术的迅速发展和广泛应用，商业智能系统中的分析型处理（OLAP）在各种商业领域中扮演越来越重要的角色。随着数据处理技术在企业的成功应用，传统的OLAP数据

【作者】

：

徐欢

【机构】

：

东南大学

【出处】

：

东南大学

【发表日期】

：

2014年期

【关键词】

：

商业智能 what-if分析工具 delta表众包工作流统计分析模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机网络与数据库技术的迅速发展和广泛应用，商业智能系统中的分析型处理（OLAP）在各种商业领域中扮演越来越重要的角色。随着数据处理技术在企业的成功应用，传统的OLAP数据分析操作（对数据进行聚集、汇总、切片和旋转等）已经不能适应当前大数据量、深度分析的需要，因而需要路径分析、时间序列分析、图分析、what-if分析等复杂的统计分析模型。　　其中what-if分析是基于历史数据，对假设场景进行分析的重要手段，它可以为决策者提供重要的预测信息，是一种非常重要的决策支持分析过程，也是OLAP的深入应用之一。　　但是随着大数据时代的来临，传统OLAP技术遇到了前所未有的挑战，已经无法胜任大数据分析的要求。目前，大数据OLAP系统均是以MapReduce的计算模型为依托的，但MapReduce的优势在于以批处理模式处理大数据集，在实时响应需求方面效率仍有待提高。在what-if分析处理中，delta表合并算法是最关键的一步，但传统的delta表合并算法在这种新的计算模型下，时间和空间上都受到严重制约。所以这种基于历史数据的应用场景假设分析需要更加有效的what-if数据视图生成机制的支持。　　同时，随着OLAP的不断发展和企业级业务的需求变化，what-if分析已经很难由单一的用户独立完成，而是需要不同部门、不同层次用户的协同处理，而且处理过程也可能是分阶段来进行的。因此，在what-if分析中就需要多用户的协同处理机制的支持，并通过不同用户之间的协同来完成企业级决策的假设分析。　　因此，本文针对大数据、多用户环境下what-if查询处理策略进行了研究，主要工作包括:　　(1)在传统的delta表合并算法的基础上，提出了基于Bloom Filter和Distributed Cache两种改进方法以提高在大数据OLAP系统中what-if数据视图的生成性能，从而提高what-if的查询处理能力。在标准SSB数据集上与Hive进行对比的实验表明，基于Bloom Filter的what-if算法比在Hive上实现的效率提高了30％，而当delta表较小时，基于Distributed Cache的what-if算法的性能提高幅度更大。　　(2)由于MapReduce本身适用于以批处理模式处理大数据集，过多的产生中间数据会增加磁盘IO的次数，影响了算法的效率。因此，本文将各what-if分析算法移植到Spark环境下，作为一个内存计算框架，Spark使用内存替代了HDFS存储中间结果，因此可以大大减少磁盘IO的次数，从而提升算法的效率。基于标准SSB测试数据集上的性能分析与实验结果表明，基于BloomFilter的算法和基于Distributed Cache算法，在性能上较于MapReduce中都有了大幅度的提高。　　(3)针对what-if分析中需要多用户的协同处理，提出使用众包工作流的机制。为此提出了基于回溯式PDS的众包工作流算法和基于反馈式PDS的众包工作流算法。这两种算法都可以在不同用户之间的协作下对what-if分析目标进行业务上的分解，并采用预合并多版本假设数据更新的算法，将分解后的众多子delta表汇总生成最终的delta表，实现从业务逻辑到假设数据更新的转换。但不同的是，基于回溯式PDS的众包工作流算法在任务无法被完成时可以重新对任务进行分解，保证最终解决方案的正确性和可行性，但过多的回溯过程将会造成时空资源的浪费，所以又提出了基于反馈式PDS的众包工作流算法作为补充，牺牲部分任务的完成度来换取时空效率的提升。基于以上算法，本文设计实现了众包工作流，给出了Delta表生成算法的运行情况示例，结果显示众包工作流可以合理的分解what-if分析目标，并最终形成可以被what-if算法使用的delta表。

其他文献

基于特定领域软件构架的商品识别系统的设计与实现

电子政务系统具备网上办公、范围广、方便百姓等特点，随着政府信息化建设电子政务正在被大力推广。但是目前的系统在设计开发中存在低效重复开发，缺乏大粒度软件复用等不足。对

学位

商品识别系统特定领域软件构架J2EE平台设计模式安全通信

企业级综合接入系统中宽带接入认证的研究与设计

基于市场对多媒质、多服务的综合接入方案的需求，我们将设计一种企业级综合接入系统(EP300)。该系统将同时支持数据和语音、有线和无线等多种业务接入。在尽量不改变用户原有

学位

企业级综合接入系统宽带接入用户认证PPPoE认证

一种空间数据组织关键技术的研究及其在Web上的应用

SVG是互联网联盟的正式推荐标准,是一个完全开放的二维矢量数据格式。目前,可以将地理空间数据编码成SVG格式,但是如何基于空间数据管理产品动态发布SVG格式的矢量地图,以及

学位

SVGOracle SpatialXMLHTTPWebGIS

多Agent技术在物流中心管理系统中的应用研究

20世纪90年代以来，随着网络技术、通信技术的发展，对Agent技术的研究已经不仅是分布式人工智能研究的一个热点，也成为信息技术关注的一个热点。Agent是一种处于一定环境下的计算

学位

多Agent系统物流中心管理系统人工智能

基于游戏引擎的3D图形系统的研究

游戏引擎是一个处理游戏底层技术的平台,使用游戏引擎,游戏开发人员可以不用花过多精力去处理系统架构、内存管理、图像绘制等一些底层的技术,可以直接使用引擎提供的API来进

学位

3D引擎变换光照着色纹理映射

串匹配型入侵检测系统的改进研究

随着信息技术的飞速发展,信息安全己逐渐发展成为信息系统的关键问题。入侵检测作为一种主动的信息安全保障措施,有效地弥补了访问控制、防火墙和身份认证等传统安全防护技术

学位

入侵检测系统误用检测串匹配算法规则库协议分析Snort

DiffServ网络中带宽代理机制的研究

现有的互联网所提供的是“尽力而为”(best-effort)的服务，在这种服务模型下，所有的业务流公平地竞争网络资源，对IP包传递的可靠性、延迟等不能提供任何保证。而随着多媒体业务

学位

区分服务体系结构带宽代理机制组播通信服务质量

安全强审计系统综合数据过滤及主动取证技术研究

网络给人们的生活和工作带来了极大的方便，但也使信息系统面临的新的威胁。安全审计系统是网络信息安全整体防护体系中重要环节，与其他安全措施相辅相成。它提供一个集中各种审

学位

安全审计数据过滤入侵检测系统计算机取证

基于SOA的面向流程的EAI研究

由于企业在信息化过程中缺乏一个整体规划，导致企业内出现大量的信息孤岛，不能有效地共享信息，更不能实现业务流程的协作和自动化。企业应用集成(EAI)应运而生。随着动态电子商

学位

信息孤岛企业应用集成面向服务工作流技术

基于主成分分析的入侵检测方法

本文研究工作主要围绕以下2个方面进行：第一、提出了一种基于健壮主成分分析方法的无监督异常检测方法。首先，引入了健壮距离估计以解决传统入侵检测方法对训练样本的离群

学位

异常检测主成分分类器拒绝服务网络探测攻击

基于众包工作流的多用户协同whaT-if分析工具的研究和实现

其他学术论文