函数依赖发现算法的通用并行策略研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：opp2781062

【摘要】

：

函数依赖是重要的元数据,用于描述数据集中列之间的关系,可以被用于很多任务中,例如范式结构标准化,数据清洗等。很多单机和并行函数依赖发现算法已经被提出。之前的单机算法

【作者】

：

伍培忠

【出处】

：

中国科学技术大学

【发表日期】

：

2004年期

【关键词】

：

函数依赖发现数据并行模式 FD-Combine算法区组设计通用并行策略

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

函数依赖是重要的元数据,用于描述数据集中列之间的关系,可以被用于很多任务中,例如范式结构标准化,数据清洗等。很多单机和并行函数依赖发现算法已经被提出。之前的单机算法在数据集较小且单机存储的时候很高效,但是缺乏并行能力;另一方面,现存的并行算法存在很大的通信开销,导致其表现不佳。为了解决这个问题,本文做了如下三方面的工作:首先是提出FD-Combine算法解决了“如何推导”的问题。现存并行算法最大问题是通信开销,我们尝试通过数据并行模式的并行来避免大量的通信开销,而数据并行模式的并行的首要问题就是”如何将部分数据上成立的函数依赖推导得到全体数据的函数依赖”,即“如何推导”的问题。为此,我们构建了BL代数系统和基础项表达,形式化了函数依赖、非函数依赖、部分函数依赖的性质与运算关系。在BL代数系统内,我们提出FD-Combine算法,在每部分数据集即数据块满足一定条件时,可以将部分函数依赖推导得到全体数据上的函数依赖。我们对比FD-Combine算法与之前非函数依赖的推导算法,得到进一步理解,并给出FD-Combine算法的不同实现方式和相应的时间复杂度。然后,改造并选择了仿射平面区组设计算法解决了“如何分割”的问题。FD-Combine算法的推导需要分割后的数据块满足一定条件,“如何分割”的问题是指,“如何使分割结果在满足FD-Combine推导条件的同时,保证分割算法的高效和分割结果的质量”。我们将原问题转化为区组设计问题,使用“数据点”的技巧使得任意有构造的区组设计都可以作为分割算法;并设计了“数据占总比”的评价指标来衡量各个区组设计产生结果的质量。由于仿射平面区组设计算法“数据占总比”接近下界、产生的块数利于并行、算法简单易于实现,我们选择了该算法作为分割算法,并分析了时间复杂度。最后,结合FD-Combine算法与仿射平面区组设计算法,我们提出了一个通用并行策略,可以实现数据并行模式的并行。使用这个策略,每个单机发现算法都可以不加修改,直接并行运行在分布式环境中。我们证明了该策略在一定条件下,p线程的加速比为((?),p)。我们利用Spark进行线程管理,对该策略在不同算法、不同数据集上做了实验,实验结果显示,“列高效”算法的加速比通常接近(?),一些情况下甚至超过p/2。例如,FastFDs使用该策略后,在letter数据集上6线程加速比为5.0,20线程加速比为10.5。实验中,在使用该策略后,当前最优的多线程HYFD算法的性能也取得了显著的提升。在lineitem数据集上,原多线程HYFD算法54线程的加速比为2.9,使用策略后54线程的加速比达到了4.9。

其他文献

锻制直径140mm B3钢球性能精确控制研究

我国的耐磨钢球生产技术水平相对较为落后,生产的磨球普遍存在着质量差、寿命短的问题,极大地加剧了矿业消耗。因此,制备高性能的磨球,具有十分重要的经济价值和社会意义。针

学位

锻造磨球扫描电子显微镜显微组织正交实验法热处理

卷积特征选择在图像检索中的应用研究

图像检索是计算机视觉的一个重要分支领域。图像检索的一般流程是,首先提取训练集中图像的特征,然后提取待检索图像的特征,接着计算待检索图像特征和训练集中图像特征的相似

学位

深度学习卷积神经网络图像检索特征融合

基于主动学习的恶意代码检测技术研究

当前新型恶意代码数量和种类日益增多,对网络空间安全提出了新的挑战。基于特征码等传统的恶意代码检测技术,其检测形式单一,难以检测新型恶意代码。基于常规机器学习的检测

学位

恶意代码检测新型恶意代码主动学习样本分析特征提取特征降维

非常规致密砂岩油藏渗流特征研究

近年来国内致密砂岩油藏在水平井、体积压裂与“工厂化”作业等技术的支持下,得到了有效的开发利用,但对致密砂岩储层孔隙结构特征的研究和致密砂岩油藏水驱油效率影响因素的

学位

孔隙结构低渗致密油藏注水效率渗透特征

岩石破裂过程的自组织临界特性及岩爆倾向性

在深部资源开采工程和地下空间拓展工程中,岩柱的稳定性问题一直是实际工程开展所面临的一项难题。由于深部岩体处于“三高一扰动”的特殊地质力学环境,天然或人造岩体发生失

学位

岩石破裂过程自组织临界性幂律分布岩爆倾向性声发射

人类长非编码RNA-疾病关系网络的表示学习研究

随着人类长非编码RNA和疾病关系研究不断深入,出现了预测长非编码RNA-疾病关系的方法。引入被证实的长非编码RNA和疾病的关系组建关系网络,科研人员使用网络表示学习获得节点

学位

长非编码RNA同质网络网络表示学习异质网络

面向不确定图的社区发现与搜索算法研究

图作为建模大规模网络的通用数据结构一直以来受到了学术界的广泛关注,比如交通网络、社交网络、生物网络、协作网络和通信网络等都可以抽象为图。由于数据采集和处理过程中

学位

不确定图聚类问题社区发现社区搜索网络采样贪心算法近似算法

三羟甲基丙烷二辛酸酯/聚醚（环氧）共改性硅油的合成及性质研究

有机硅具有很多其他材料不可比拟的优良性能,广泛应用于工农业生产和国防等高科技领域。随着现代工业的快速发展和新一轮科技革命的到来,对高性能材料的需求更为迫切,具有良

学位

有机硅油聚醚环氧共改性有机酯乳化

基于无线传感网络的稀土矿采场边坡在线监测预警系统设计及实验研究

山体滑坡一直是人类面临的重大自然灾害之一。离子型稀土矿因地质环境及采矿工艺的特殊性,矿山采场频繁发生滑坡灾害。为尽可能减少因矿山采场滑坡给企业及矿区周边人民造成

学位

无线传感网络稀土矿边坡监测预警

单轴压缩条件下红砂岩特征强度点声发射特性试验研究

岩石变形破坏过程的实质是内部微裂纹的演化,声发射是岩石变形破坏过程的伴生现象,其活动特征与微破裂演化活动的机制最为接近。岩石破坏前常存在声发射相对平静期,且其产生

学位

声发射相对平静期特征强度频带能量分形

函数依赖发现算法的通用并行策略研究

与本文相关的学术论文