大数据环境下文本数据相似重复记录检测方法研究

来源 :东北电力大学 | 被引量 : 7次 | 上传用户:kaiserking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似重复记录的有效检测是保证数据质量的关键,也是获取可靠决策知识的重要保障。随着智能化应用系统的广泛普及,数据规模呈指数级增长,并且在这快速增长的大规模数据中,大部分相似重复数据以文本形式存在。因此,大数据环境下文本数据相似重复记录的有效检测对提高数据质量具有重要意义。本文将文本数据相似重复记录的检测转换为对其二进制串相似重复性的检测,传统Simhash算法可实现该功能,但存在文本数据记录与Simhash指纹(二进制串)的转换精度低以及Simhash指纹相似度匹配效率不高的问题。因此,本文首先引入基于内维尔插值算法的缺失数据填补方法对原数据中的缺失数据进行填补,接着利用汉语词法分析系统对已填补的数据记录进行关键词提取,并采用词频-逆文档频率算法计算关键词的权重,从而提高文本数据记录与Simhash指纹的转换精度。其次,设计基于图聚类分析的指纹分类策略,并引入海明距离,解决指纹相似度匹配效率不高的问题。最后,基于对Simhash的改进提出相似重复记录检测算法(SRDA,Similar Repeat Detection Algorithm),实现文本数据记录与Simhash指纹的转换以及文本数据相似重复记录的检测。大数据环境下的文本数据规模庞大,单机计算资源难以满足其处理要求。因此,针对大规模文本数据相似重复记录检测问题,提出基于MapReduce模型的文本数据相似重复记录检测方法。首先,设计基于狄利克雷抽屉原理的Simhash指纹倒排索引算法。其次,利用该算法对文本数据相似重复记录检测算法SRDA进行优化,避免在相似重复记录检测中对Simhash指纹每“比特位”的依次比较。最后,基于MapReduce模型对优化后的算法进行并行化设计,实现大规模文本数据相似重复记录的并行检测。大数据环境下的文本数据产生速度快,需要响应性高的处理技术,而MapReduce相对Spark虽具有高吞吐量的优势,但其运行速度相对缓慢。为此,针对文本数据相似重复记录的快速检测问题,提出基于Spark的文本数据相似重复记录检测方法。首先,鉴于Spark内存计算的优势,设计基于图论的Simhash指纹搜索策略。然后,结合SRDA设计相似重复记录检测算法,并在Spark上设计实现该算法,完成文本数据相似重复记录的快速检测。利用本文提出的方法对来自UCI的数据进行实验对比分析,实验结果表明,本文所提出的方法能够准确、客观的实现大数据环境下文本数据相似重复记录的检测,并具有较高的检测精度、召回率和执行效率,能为数据清洗的研究工作提供一定的参考。
其他文献
石斛是兰科石斛属的植物,约有1000种。黔西南州的石斛资源丰富,有铁皮石斛、美花石斛、兜唇石斛、黑毛石斛、玫瑰石斛等十多个种。这些石斛在药用、观赏以及科研方面均有重大
目的:对乙肝病毒携带者术后手术间的消毒处理措施进行分析。方法:选取2011年4月-2014年4月在我院进行手术的乙肝病毒携带者治疗200例,依据术后手术间管理措施进行分组,常规组
<正> 中国遥感卫星地面站是1979年签订的中美科技合作项目,1986年建成并正式运行。 中国遥感卫星地面站拥有世界先进水平的对地观测卫星遥感数据接收、处理、存档、分发运行
背景与目的:缺氧诱导因子-1α(hypoxia-inducible factor-1α,HIF-1α)是细胞对缺氧应答的一个重要的转录因子,目前对缺氧条件下血液系统恶性肿瘤,尤其是白血病生物学改变的
背景与目的:目前胸中段食管癌手术治疗的入路多数为经左胸或右胸,两者各有优缺点。既往较少文献报道手术入路对手术疗效的影响。本研究拟评价经左胸或右胸手术入路治疗胸中段
根据现有人口状况并考虑影响人口发展的各种因素,按照科学的方法可以预测在未来某个时间的人口规模、水平和趋势。通过人口预测可以预测未来经济发展中可能发生的问题,为制定社
以"一带一路"倡议为背景,基于"产业共生水平评价指标体系",选取2011-2017年相关数据,从融合、竞争、互补和依存四个方面研究了中国与沿线国家制造业共生水平对中国制造业增加
我国中小企业融资渠道多为内源性融资,间接融资和证券融资比较缺乏,主要通过民间借贷方式来获取资金。由于金融机构、中小企业自身以及中介服务体系的原因,中小企业需要突破
目的炎琥宁联合蓝芩口服液治疗手足口病的临床观察及护理。方法选择我院2012年1月至2013年1月收治手足口病患儿中随机选择100例,随机分组为对照组和治疗组,各组50例,对照组采