分布并行字符串相似性连接方法研究与应用

来源 :东华大学 | 被引量 : 0次 | 上传用户:jifengrgj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似性连接是数据挖掘分析领域的基础操作,在数据清洗、生物信息学和信息集成等众多领域有着广泛的应用意义。相似性连接处理的数据类型一般包括字符串、集合、向量和图等类型,对于不同数据类型对象之间的相似程度的衡量也有多种度量标准,如杰卡德距离、余弦距离、编辑距离。本文主要研究基于编辑距离度量的字符串相似性连接,即在被查询字符串数据集中找出所有与给定的查询字符串集合中元素满足编辑距离不小于给定阈值的字符串。目前处理字符串的相似性连接算法大多为基于单机的内存算法,他们在处理海量字符串数据时需要耗费大量时间,而分布式计算平台的兴起与广泛应用为高效解决海量字符串连接提供了条件。本文基于Spark并行计算框架良好的扩展性、容错性,将单机计算转至集群模式,研究并行字符串相似性连接问题。首先,在对传统字符串相似性连接相关技术的研究基础上,设计了字符串相似连接的并行化处理框架,在分布式计算框架Spark中进行实现,给出并分析了并行化的具体实现过程。通过字符串的频率向量信息,在数据划分的基础上,有效地过滤掉不符合相似条件的字符串,避免了大量的无效计算,通过实验证明了数据并行化与计算并行化能够有效的提高海量字符串相串相似连接的处理效率。其次,对字符串的相似连接进行优化,主要包括并行化算法的优化及平台的优化。在并行化算法方面,对字符串联合频率向量进行广播,减少连接过程中数据传输量。由于Spark基于内存计算的特性,集群环境中数据传输成为Spark计算平台的瓶颈,对此,在计算平台方面,针对任务调度策略中数据本地性进行优化,降低由于数据划分所带来的通信开销,进行有效的优化。最后,深入分析字符串相似连接解决和处理的问题,将本文提出的并行字符串相似连接算法具体应用到不同实际应用中,充分挖掘数据价值。
其他文献
利用通用多核平台构建高速软件路由器是当前的一个研究热点,研究发现基于Linux的网络子系统是影响软件路由器性能的一个重要瓶颈。我们分析了Linux网络子系统的开销分布以及Pa
人类对于面部表情的研究,最始于生理学家和心理学家对于表情和情绪的研究,他们对表情和情绪之间的关系、表情的多样性、脸部表情含义的表述以及表情的分类等问题进行了研究。从
随着语义网(The Sematic Web)的发展,本体得到了越来越多的应用。本体是概念化的明确的规范说明,其主要目标是实现某种程度的知识共享和重用,以提高互操作、系统通讯和可靠性
李群学习模型不仅提供了描述数据的几何表示方法,而且给出了具体的代数求解方案。相对于传统的学习算法,李群学习可以高效处理矩阵样本,避免了因为维数的急剧增加而给分类识别带
图像是机器视觉系统的重要视觉信息。然而,图像采集和成像系统不可避免的存在模糊、运动变形和噪声等降质和退化过程,不但影响了人们对图像的视觉感受,而且大大降低了图像中
无线传感器网络WSN是由大量传感器节点以自组织方式构成的网络,网络安全性问题是制约无线传感器网络发展的重要难题,是国内外学者广泛关注的研究方向。其中密钥管理是WSN安全
最近十多年,农作物病害、虫灾越来越严重,其病害种类越来越多、规模越来越大,因此而造成了大幅度的农业减产。伴随着计算机技术的发展,特别是人工智能技术、图像处理技术在各领域
近年来,随着因特网的快速发展,Web网页的数量也呈现出急剧增长的趋势,海量的网页中通常蕴含着丰富的企业竞争情报,如何从海量的网页中挖掘企业所需的竞争情报成为人们研究的热点
闪存首先由东芝公司于1984年提出,此后因特尔公司和日立公司相继推出其产品。闪存由于性能更好、体积小、抗震以及低功耗等优良特点已广泛应用于移动设备和嵌入式设备,随着其容
红我国加入WTO以后,国内的航运需求增长很快。为了保证航运的正常进行,航运企业每天都要处理大量的信息,传统的凭个人经验决策的方法已不能满足现代航运业发展的需求,实现船