一种改进的相似重复记录检测方法

来源 :控制与决策 | 被引量 : 0次 | 上传用户:zxd19811219
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对当前相似重复记录检测方法中存在的问题.提出一种改进方法.该方法根据关系表的决定属性值划分记录集,并在每个决定属性值类中检测相似重复记录.在决定属性值聚类时,提出了动态优先队列聚类算法和合并逆序算法.尽可能使相似重复的属性值聚为同一类;在记录聚类时提出了类调整算法,以提高类的代表记录的代表性.通过大量的实验分析,验证了该方法的有效性.
其他文献
本期主打小游戏开门游戏2:板具创意的开门游戏最新续作,
提出一种结合频率试验的MIMO系统稳定裕度分析方法,通过对图解方法的分析,提出了逆Nyquist阵对角占优的解析判别式,简化了多变量频率域鲁棒性分析和设计,给出一种在线数值计算方
M3001A模块是飞利浦心电监护仪MP系列上的功能模块,M3001A模块有M3001A模块B和M3001A模块A两种结构,这两种结构模块的血压组件相同,但其他部件的内部结构有很大的差异,其中M3
用模糊离散事件系统(FDES)从离散事件的角度描述一类包含“具有确定性的不确定/模糊”问题以及与人的主观观察/判断密切相关的复杂系统。提出了基于规则的FDES描述方法及自寻优监
目的分析凝血酶联合奥美拉唑治疗残胃出血患者的临床效果。方法选取2015年6月至2016年6月医院收治的124例残胃出血患者为研究对象,分为对照组和试验组,每组62例。对照组采用
目前双核的广告是铺天盖地,新买电脑的朋友也大多用上了全新的双核CPU。双核CPU在性能方面应该是单CPU的两倍吧?菜鸟们会这样想……但现实效果却让人郁闷,似乎双核CPU的优势
夏日炎炎,好不容易呆在办公室享受着空调的凉爽,可温度过高的笔记本温度总让人心烦……华硕“以人为本”的设计思想在这个夏天为我们带来了主打凉爽舒适使用体验的K401N,全新K
提出一种新型的基于环交换邻域的迭代局部搜索算(ILS).用于求解一类聚类问题,算法的主要特点是:1)基于环交换的邻域结构;环交换邻域与传统的Swap和Insert邻域相比,算法在一次迭代中允
研究分段线性(PL)系统预测控制问题,提出了PL系统双模预测控制,并证明了该方法的稳定性.该方法使用混合逻辑动态系统来建模PL系统,利用PL系统状态反馈控制来确定PL系统的受控不
目的 观察万泰口胶治疗单纯性牙龈炎患者的临床效果。方法 选取2014年1月至2017年1月就诊的单纯性牙龈炎患者100例,随机分为对照组和试验组,每组50例。对照组使用0.9%氯化钠