一种在高维空间中聚类检测重复记录的新方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：jxysb250

【摘要】

：

数据清理是构建数据仓库中的一个重要研究领域。检测相似重复记录是数据清洗中一项非常重要的任务。提出了一种聚类检测相似重复记录的新方法，该方法是基于N-grmn将关系表中的

【作者】

：

曹渠江董明

【机构】

：

上海理工大学计算机与电气工程学院

【出处】

：

计算机工程与应用

【发表日期】

：

2008年29期

【关键词】

：

相似重复记录 N-GRAM 入侵检测系统 approximately duplicate database N-gram Intrusion Detectio

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据清理是构建数据仓库中的一个重要研究领域。检测相似重复记录是数据清洗中一项非常重要的任务。提出了一种聚类检测相似重复记录的新方法，该方法是基于N-grmn将关系表中的记录映射到高维空间中，并且通过可调密度的改进型DB—SCAN算法IDS来聚类检测相似重复记录。并用实验证明了这种方法的有效性。

其他文献

数据挖掘技术在漏洞扫描系统中的应用研究

首先介绍了漏洞扫描和数据挖掘技术的相关知识，然后在此基础上提出了一个数据挖掘技术在漏洞扫描系统上的应用模型，并采用遗传算法与神经网络相结合的方法对系统进行了优化仿真

期刊

漏洞扫描数据挖掘遗传算法神经网络vulnerability scanning data mining genetic algorithm n

序信息系统属性约简的一种启发式算法

在序信息系统中引入了知识的信息量和知识粒度的概念,得到了它们的若干性质和定理。证明了在知识约简过程中,信息量的变化趋势是递减的;利用信息量的概念,定义了属性的重要性

期刊

粗糙集序信息系统属性约简信息量知识粒度优势关系rough setordered information systemsattribute red

论地方高校扩招后年轻教师的培养

高校扩招后，年轻教师已经成为高校教师队伍的主力军，加强对年轻教师的培养，促其尽快成长是各地方高校的当务之急。当前部分高校对年轻教师的培养仍然重视不够，对年轻教师的培养工

期刊

地方高校年轻教师教师培养local universities young teachersteacher training

动态单像素模板算法

高斯模板用于图像旋转时会产生较严重的模糊,其原因是大邻域的亮度值加权平均造成的。为减小加权平均的邻域范围,提出图像空域变换的小邻域局部相关性原理。据此提出动态单像素模板算法:将当前像素分割为3×3的子像素,对每一个子像素求得一个模板。用当前像素的这9个模板之一和邻域像素的亮度进行卷积运算求得变换后的亮度值。实验和分析表明,它消除了高斯模板旋转图像时产生模糊的问题。旋转图像的质量与双线性插值算法相近

期刊

单像素模板动态模板像素分割高斯模板双线性插值图像旋转single pixel templatedynamic template pixel se

关于衡水学院图书馆向社会开放的思考

全球信息化、网络化给高校图书馆带来了生机与活力。衡水学院图书馆在方针政策、信息资源、人才与知识结构、技术与设备等方面在本地区占有一定的优势,有能力在作好为本校师

期刊

高校图书馆网络化信息资源社会读者服务衡水学院图书馆college library networking information resource

一种在高维空间中聚类检测重复记录的新方法

其他学术论文