【摘 要】
:
数据集成往往会形成一些近似重复记录,如何检测重复信息是数据质量研究中的一个热门课题.文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测.该方
【机 构】
:
国防科学技术大学,国防科学技术大学
论文部分内容阅读
数据集成往往会形成一些近似重复记录,如何检测重复信息是数据质量研究中的一个热门课题.文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测.该方法在评估两个记录之间是否近似等价的问题上,解决了原来的算法忽略序列结构特点的问题,基于条件概率分布定义了记录间的距离;并根据近邻函数准则选择了一个评议聚类结果质量的准则函数,采用动态聚类算法完成对序列数据集的聚类.使用该方法,对仿真数据进行了聚类实验,都获得了比较好的聚类结果.
其他文献
目的观察茵栀黄口服液联合更昔洛韦治疗小婴儿巨细胞病毒性(CMV)肝炎的临床疗效。方法51例患儿按人院时间次序分为对照组19例和观察组32例,对照组给予更昔洛韦5mg/kg静脉滴注,每日
清代赣南烟草生产因其影响之大,长期以来倍受学界关注。在论者中,有陈述其在全国烟草生产中地位之显要者,有探析其发展兴盛之原由者,有援引为中国资本主义萌芽之佐证者。 然而。
由于并行应用程序的运行效率往往很低,如何帮助程序员提高性能就成为高性能计算中的重要问题.本文介绍了一个基于MPI的性能评价工具,它可以在应用程序运行的同时收集系统负载
近日,由中国移动政企事业部、技术部主办,中国移动云能力中心、研究院承办,中国移动科协协办的中国移动云智融合峰会在苏州召开,大会通过移动云官网平台直播,同时在线上线下
本文中作者提出了一种新的基于鲁棒统计的快速线搜索方法 ,可以用于图象帧间主运动估计 ,能够提高算法速度 .近年来 ,一种新的参数估计技术—鲁棒统计—被越来越广泛地用于主运动估计 ,与传统的基于最小二乘的估计方法相比较 ,鲁棒统计对于外点具有更好的鲁棒性 ,但运算复杂度较高 .而主运动估计中耗时最大的部分是线搜索 ,因此我们针对鲁棒统计中常用的 M估计函数形式 ,采用近似函数拟合的方法 ,设计了一种
IVS(INRIA Videoconferencing System)是英特网上广泛使用的视频会议系统.本文通过模拟实验对IVS流与TCP流争抢带宽资源中的TCP友好性问题进行分析.通过实验数据分析,本文研
基于商品化软件"压力容器焊接专家系统"的开发经验,本文从系统实现角度提出专家系统的设计方法.在获取大量专家知识和经验的基础上,对专家知识进行分类研究并提出相应的表示