大规模分布式函数依赖发现算法研究与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:hsgnln
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
函数依赖(Functional Dependency,FD)是关系型数据库中最常见的约束条件,它表示了数据库中属性之间的依赖关系。FD在数据库的分析与设计、数据库查询优化、关系模式规范化、数据集成和数据清洗等领域有着广泛的应用。但是,对于特定数据集,其FD通常是未知的,并且几乎不可能手动发现。因此,FD发现算法的研究一直是数据库领域内的热点问题。近年来,随着互联网等信息技术的快速发展,各行各业已步入大数据时代。在大规模数据场景下,典型的单机FD发现算法,如TANE、FUN、DFD、Dep-Miner、FastFDs、Fdep和HyFD等,存在着计算效率低、计算时间长以及内存开销大等问题。因此,这些单机算法可扩展性较差,无法高效地处理大规模数据。为了能够解决大规模FD发现的问题,一些研究人员提出了分布式并行的FD发现算法,如MFDM、HFDD和FDPar_Discover等。但是,这些分布式算法的列可扩展性较差,且均未考虑负载均衡问题。因此,亟需研究面向大数据的、高效可扩展的、分布式大规模FD发现算法。为解决已有工作中的不足,本文从降低计算和网络通信开销以及提升计算资源利用率的角度入手,设计了一种计算量低、数据传输量少和资源利用率高的分布式FD发现算法SmartFD。本文的主要工作内容以及贡献点如下:(1)提出了一种基于基数、方差和倾斜度的属性排序算法,该算法能够提升FD发现初期的计算资源利用率。(2)提出了一种基于划分的分布式采样方法和并行化剪枝-生成方法,上述方法可以高效地发现不成立的FD,并根据不成立的FD对候选集进行快速地剪枝和生成。(3)提出了一种基于轻量级索引的分布式验证方法。该方法利用轻量级索引,降低了验证过程中计算和内存的开销。(4)提出了一种自适应的切换策略。该策略通过对采样和验证的自适应切换来提升算法的整体效率。(5)基于Spark平台设计实现了大规模分布式FD发现算法SmartFD,并将其与当前最优的单机算法HyFD和分布式并行算法HFDD进行了性能对比。实验结果表明,SmartFD相对于目前单机最优算法HyFD可达到1.0到45.5倍的加速;相对于并行化算法HFDD可达到2.5到455.7倍的加速。在较大规模的数据集上,SmartFD相对于HyFD算法取得了超线性的加速比,且随着数据集规模的增大,HyFD和HFDD算法已无法在设定的时间内运行出结果,SmartFD算法仍能够快速地进行FD发现。本文工作所设计实现的大规模分布式函数依赖发现算法,在2018年教育部科技发展中心主办的第四届“全国高校云计算应用创新大赛”大数据技能赛全国总决赛上,以优异的算法性能获得了第一名的成绩,荣获技能赛一等奖。
其他文献
组网雷达是由多个雷达站点所构成的系统,各个站点协同工作,可以根据实际任务需求同时对一个或多个目标区域进行监视,在现代战争中起着关键的作用。其优势为自由度高,可以根据战场环境和约束条件对其进行灵活配置,从而满足作战任务的需要。在现代作战场景中,环境千变万化,由于组网雷达的配置方式直接影响系统的性能。如果要提升组网雷达监视能力,就要根据变化的环境,实时地对组网雷达系统中的雷达站点进行合理配置。因此,如
图像语义分割是指:输入一张图像,输出该图像中每个像素点对应的语义类别。该任务是计算机视觉中最基础的任务之一,在现实生活中有着广泛的应用,如自动驾驶中的车道线检测,医
两岸民航运输的快速发展,给两岸人民的交流与两岸经济的发展起到了重要的推进作用,同时也势必会带来当事人之间的民商事法律纠纷。虽然两岸同属一个中国,但内地与台湾地区的
本文以笔者翻译的《英国社会史:1200~1500年》(节选)的原文和译文为研究对象,以奈达的逆转换理论为指导,旨在讨论译文中长难句的翻译技巧。英语长难句是指结构比较复杂的长句
本文选取Slippery Slope:Europe’s Troubled Future(《滑坡:欧洲的未来问题重重》)一书中第一章和第六章的部分内容作为翻译材料,探讨其中语篇衔接手段的处理。《滑坡:欧洲
软件定义网络(Software Defined Network,SDN)架构将传统网络的数据转发平面与控制平面分离,使其不再集成于同一网络设备中,从而简化了网络的设计管理。SDN架构中的控制层面由控制器组成,主要负责处理来自交换机的请求。已有研究表明,虽然单个控制器能够满足小型网络的需求,但考虑到可扩展性、可靠性等需求,单个控制器不足以满足大型网络的需求。所以现在多采用逻辑集中式、多个控制器物理分
在基于图计算的数据分析应用中,如何衡量图中顶点之间的相似度是一个非常重要的课题,在很多领域有广泛的应用。SimRank是近年来比较流行的相似性度量,相比于其它相似度指标,
山水画往往会包含许多的哲理性,正是这种哲理性的加入,山水画多了一层自然与人文统一的色彩,山水画成为笔者的一种精神寄托。自山水画独立成科以来,山水画家们便将生活中的客
伴随着我国医疗技术水平有了长足进步的同时,我们也不得不面对逐渐增多的医疗纠纷问题。患者因医学知识的缺乏使其在医疗纠纷中多处于弱势地位,这种信息的不对称导致患者往往
随着我国城镇化的推进和一带一路战略的实施,对工程机械的需求量日益剧增,而我国工程机械每年因为42CrMo核心部件表面磨损、腐蚀而损坏的数量十分庞大,为了延长工程机械工作寿命,提高使用性能,实现绿色循环经济,本文开展了在42CrMo基板表面激光熔覆stellite6钴基合金粉末的再制造修复探究。(1)采用正交试验研究了42CrMo表面单道轨迹熔覆stellite6涂层,分析了激光功率、扫描速度、送粉