基于划分的海量数据相似重复记录检测

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:w_h1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升.
其他文献
介绍了一种基于调试系统的回放式自动化测试平台,可以自动化测试"魂芯"DSP配套软件单元.该测试平台以主机调试器为测试对象,通过主机调试器调试应用程序,间接地测试编译器、软
针对传统协同过滤推荐算法没有充分考虑用户属性及项目类别划分等因素对相似度计算产生的影响,存在数据稀疏性,从而导致推荐准确度不高的问题.提出一种基于用户属性聚类与项
Hub会对高维数据分析产生显著消极影响,现有研究分别采用了五种降Hubness策略以提高分类效果,但单个降Hubness策略适用范围有限.为解决这一问题,提出对五种降Hub分类器进行基
在用爬虫爬取到大型商品网站的大规模网页数据集后,要将网页数据集作进一步筛选以得到目标数据集,筛选之前要做的一项准备工作就是删除网页中多余的标签.为此,用递归算法的思