基于内码序值聚类的相似重复记录检测方法

来源 :计算机应用研究 | 被引量 : 19次 | 上传用户:yeyennn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
检测和消除相似重复记录是数据清理和提高数据质量要解决的关键问题之一,针对相似重复记录问题,提出了基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;然后,通过等级法计算各字段的权值,并将其应用在相似重复记录的检测算法中;最后,在各个小数据集中检测和消除相似重复记录。为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法进行多次检测。通过实验表明,该方法具有较好的检测精度和时间效率,能很好地应用到中英文字符集,通用性
其他文献
一、基本情况治安系设有治安管理、交通管理、安全保卫三个专业,以培养能适应治安管理、交通管理、安全保卫工作需要的应用型专门人才为目标。本系共有教师16人,其中教授4人
无线传感网的低功耗、低成本等特性,要求设备能在低信噪比环境下快速完成突发通信的载波频偏估计,保证数据传输的正确性,因而需要对低信噪比和大频偏范围的频偏估计算法进行研究。Fitz算法是较为经典的载波频率偏移估计方法,具有算法精确度高和估计信噪比门限低等优点,但此算法的频偏估计范围与精度之间呈反比关系,频偏估计范围越大,估计精度越低。针对Fitz算法进行改进,利用迭代的方法展开信号自相关相位,代入Fi
提出汉语语义分析的方法,具体策略是借用依存语法作为表示框架,通过在基本内部—外部算法中结合知识识别句子中的依存关系。实验结果说明,利用借助知识的内部—外部算法训练无指导模型是可行的汉语语义分析方法。
在已知的多输入多输出(MIMO)及正交频分复用(OFDM)系统的信号检测算法中,球型译码检测算法的译码性能十分接近于性能最优的最大似然检测算法,并且其译码复杂度有很大的降低,但其会受到译码半径的影响。普通的球型译码检测算法,信道噪声对算法的译码半径影响较大,为了降低信道噪声对译码半径的影响度,提出了一种新型的球型译码检测算法,该算法在译码初始半径分别根据两种不同的情况作出选择。仿真结果显示,其选择
针对目前没有直接对事件图模型进行形式化验证的方法,提出了一种基于行为时态逻辑(temporal logicof action,TLA)的事件图模型形式化验证方法。该方法利用TLA语言能够同时表达模型行为与逻辑规则的特点及其与事件图的相似性,将事件图模型及性质规约用TLA语言进行形式化描述,从而使该模型能够被TLA模型检验工具进行验证。这种方法不仅能够有效提高仿真模型的正确性,而且能够提高模型的可重
非负矩阵分解(NMF)能够提取图像的局部特征,是一种基于局部的数据挖掘方法,在一定程度上勾勒出了相关图像在基矩阵所代表空间上的分布,但NMF并未考虑数据的内在几何结构。提出了一种新颖的基于非负矩阵分解与非线性降维方法Isomap相结合的新方法,全局的非线性降维方法Isomap能发现数据的内在结构和相关性,使高维数据在低维空间变得可视化。将本算法应用于图像检索,实验表明,该方法能够更加准确地获取信息
新型的笔式交互技术要求能够高效地识别用户手势,适应用户的手绘风格。建立了基于隐性马尔可夫的手势识别模型,在此基础上提出了在重采样阶段的中点补偿和编码阶段的方向编码优化方法。实验结果表明该识别模型能以更精简的采样点数量表示手势并给出良好的识别结果,减少了模型训练的运算量。
针对目前的软件盗版现象,在没有软件源代码的情形下提出一种程序相似性的比较方法。该方法是运用程序系统调用之间的参数依赖关系组成依赖图,对程序行为进行描述;在此基础上定义了一种动态程序胎记,用它比较两个功能类似的应用程序。最后的试验数据表明,该方法能够有效地检测出相似程度不一的各组程序之间的相似度,具有一定的可信度和适用性。
针对传统马尔可夫模型(HMM)状态停留时间必须服从指数分布假设的不足,提出了一种基于隐半马尔可夫模型(HSMM)的两阶段设备缺陷状态识别方法。首先,通过分析HSMM模型的参数构成及基本特点,并结合两阶段设备的劣化过程特点提出合理的假设条件,建立起用于描述两阶段设备运行状态的HSMM模型;其次,针对HSMM模型的参数估计问题,引入最大似然估计法,并提出了小样本条件下求解状态持续时间的方法;再次,基于
为了提高E-Learning情绪教学的适应性和教学效果,针对传统学生模型的不足,引入人格、学习情绪及学习风格。通过OCC三维情绪空间描述学习情绪和丹尼尔.沙博人格划分理论进行情绪调节,通过美国心理学家布鲁姆的认知理论描述学生的认知能力,通过Felder-Silverman学习风格并结合支持向量机技术描述学习偏好的个性化特征。将情绪、认知、学习风格相结合构建一个完善的适合E-Learning教学的学