相似重复记录的数据清洗技术的研究

来源 :沈阳理工大学 | 被引量 : 8次 | 上传用户:haili20102010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的不断发展和数据存储技术的广泛应用,每天都有大量的数据产生。在这大量的数据中,存在着许许多多的错误数据,尤其是在数据库合并过程中,产生了大量的相似重复数据,严重影响着数据质量和数据使用率。对相似重复数据的数据清洗任务已经成为各大企业亟待解决的问题,对提高数据质量有着很大的现实意义。本文主要研究相似重复记录的数据清洗技术,首先对相似重复记录的属性结构以及产生原因进行分析,进而采用N-Gram算法,对数据记录进行计算,从而得到能够代表每条记录属性的键值--N-Gram值。然后运用排列合并的清洗思想,根据得到的键值,对数据库中的数据记录进行排序处理,得到有序的数据库,然后对其进行相似度计算。为了提高相似度匹配的准确率和效率,利用滑动窗口的算法思想,给待清洗数据一个固定大小的窗口,对窗口内的数据记录,通过递归的字段匹配算法,来计算数据记录之间的相似度,不仅能够有效地识别出字段缺失、顺序颠倒和名词缩写的相似重复记录,提高数据清洗的准确性,还能够减少数据记录之间的比较次数,提高数据清洗的效率。最后采用优先级的思想,根据每条记录之间的优先级,对相似度大于给定阈值的数据记录进行数据清洗,很大程度上提高了数据清洗的智能性,减少人工的参与。本文通过采用N-Gram算法和递归的字段匹配算法相结合的方式,实现了相似重复记录的识别功能,然后对识别出来的数据记录进行清洗,达到提高数据质量的目的。
其他文献
随着数字化社区的普及,互联网上存在众多的数字化社区应用支撑软件,然而因为这些软件使用不同的开发平台、开发语言和数据库,增加了集成的难度。Web服务的出现使得应用集成跨
无线传感器网络(Wireless Sensor Network,WSN)在节点特性以及应用环境区别于传统网络,故对节点资源最大化利用具有重要研究意义。区域覆盖是指通过研究传感器节点调度、覆盖
大多数存储系统都有严重的安全缺陷,因为数据主要是通过操作系统的访问控制机制来进行保护,用户只要绕过操作系统,物理上接触存储设备,就能随意访问这些数据。鉴于数据已成为
随着社交软件的普及,与之相关的社交网络也逐渐成为学术界研究的热点。在对社交网络进行拓扑分析时,计算距离(定义为组成点与点之间最短路径的边的条数)是第一步。目前存在一
随着现代文明的飞速发展,家居设计已经成为社会文化的一个重要组成部分,家不再仅仅是作为一个遮风避雨的居所而存在,人们对家居环境和氛围提出更高的要求。为了满足人们对于
进入21世纪以来,随着Internet等基础设施的迅速发展,以及信息产业的快速发展,世界经济一体化进程空前加速,世界的联系日益紧密,在这种浪潮下,人们对获取用非母语表达的信息和
随着科学技术的发展和科学研究的需要,延迟容忍网络(Delay-TolerantNetwork)开始出现。本文以延迟容忍网络的路由算法为主要研究对象。叙述了延迟容忍网络的技术背景和协议框
P2P网络是在应用层建立的逻辑网络,它能够灵活高效地利用网络中闲置的资源。网络中各个节点之间的逻辑或物理互联关系形成了P2P网络拓扑结构。P2P网络中逻辑网络与物理网络不
随着我国国民经济的快速发展,税务、国库、银行的涉税业务量迅猛增加。同时,国税、国库、银行等部门各自的业务已基本实现了信息化管理。为了提高税务、国库、银行的工作效率
进入21世纪以来,人们加快了高科技发展的步伐,人们生活中,视频聊天、视频会议、网络电视、高清电视等已经非常普遍,这些应用导致了巨大的视频数据,对存储以及网络传输构成了