基于长度过滤和动态容错的SNM改进算法

来源 :计算机应用研究 | 被引量 : 16次 | 上传用户:yidehua_2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库中相似重复记录的清洗对于数据质量影响很大,传统的基本邻近排序算法(sorted-neighborhood method,SNM)时间效率和准确率均不高。针对SNM算法的缺陷,提出了一种基于长度过滤和动态容错的SNM改进算法。根据两条记录的长度比例和属性缺失情况,首先排除一部分不可能构成相似重复记录的数据,减少比较次数,提高检测效率;进一步提出了动态容错法,校准字段相似度评判结果,解决了因属性缺失而误判的问题,提高了准确率。针对实际数据集的实验分析表明,在相同的运算环境下,优化算法在准确率和时
其他文献
为了在遇到不利工作环境之前,提前采取措施控制元件故障发生,提出基于ANN求导的元件故障概率变化趋势的确定方法。该方法可在不了解系统或元件构成和性质的情况下,仅利用实际故障监测数据分析不同工作环境下元件故障概率变化的趋势和程度;同时该方法也充实了空间故障树(SFT)下的离散型空间故障树(DSFT)理论。给出了ANN求导法处理问题的理论基础和公式推导,结合了一个元件进行该方法的应用,最终得到了该元件的
为进一步提高数据测试算法性能,提出一种基于控制流图支配树的测试数据灰度编码进化生成算法。利用三角分类程序示例构建数据测试的数据流控制流图,并利用其支配树关系构建测试数据的数据流分析,建立程序变量间的支配关系集。结合遗传算法并利用支配关系及分支距离构建测试数据生成的适应值函数,同时在应用遗传算法时,采用灰度编码方式取代二进制编码,简化编码更新过程。通过在测试程序样例中的实验对比显示,所提方法在平均数
(一)发病情况曲麻莱县约改镇长江村位于曲麻莱县东北部,2012年9月16日,疫控中心接到该村一家的疫情报告,说自家放牧的牦牛有86头,有22头发病,已死亡8头。接到疫情后,县动物防疫部门立
就目前国内禽流感疫情而言,整体呈现:一是成点状散发状态;二是南方疫情相对较重:三是病毒毒力比较强。同时,禽流感疾病对国内禽畜养殖带来的危害也是显而易见的。禽流感曾一度称为
针对一些多标签文本分类算法没有考虑文本—术语相关性和准确率不高的问题,提出一种结合旋转森林和Ada Boost分类器的集成多标签文本分类方法。首先,通过旋转森林算法对样本集进行分割,通过特征变换将各样本子集映射到新的特征空间,形成多个具有较大差异性的新样本子集。然后,基于Ada Boost算法,在样本子集中通过多次迭代构建多个Ada Boost基分类器。最后,通过概率平均法融合多个基分类器的决策结
根据具有低碳需求的制造企业的实际情况,建立了考虑机器速度的低碳柔性作业车间调度问题模型。该模型考虑机器加工速度,增加了工件的装夹和卸载时间及机器在不同状态下的碳排
2013年以来,在省、市动物疫病预防控制中心上级主管部门的指导下,宁洱县动物疫病预防控制中心认真组织开展春秋动物防疫工作,贯彻落实云南省生猪疫病“321”防控技术,现将云南省
农业部新闻办公室5月5日发布,国家禽流感参考实验室报告在山东采集的412份样品中检出3份环境样品为H7N9禽流感阳性,来自山东省枣庄市市中区幸福路市场。江西省动物疫病预防控制
为进一步掌握尤锡地区H5型高致病性禽流感免疫效果、病原分布态势,对全市部分养禽场、野鸟栖息地、养猪场进行了半年定点、定期的高致病性禽流感的情况调查,通过免疫抗体检测、
软件定义无线网络(SDWN)作为一种控制转发解耦合的架构,有利于快速获取全局拓扑,为无线接入点(AP)间无缝切换提供了便利。针对传统基于信号强度(RSSI)的AP选择算法可能会造成资源利用率低及负载不均衡问题,充分考虑流量负载对AP性能的影响,对传统Odin架构进行扩展,提出了一种软件定义无线网络下基于流量负载感知的AP间无缝切换算法。该算法考虑客户端收到的信号强度及AP的流量负载,可有效解决AP