基于聚类的数据清洗研究

来源 :江苏科技大学 | 被引量 : 12次 | 上传用户:zhx35003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘中的数据大多来自现实世界,这些数据集中或多或少地存在数据缺失、数据冗余、数据不一致等问题,这些数据称之为“脏数据”。数据收集条件的制约、度量方法错误、人工录入时出现遗漏和违反数据约束等都是导致数据集中存在大量“脏数据”的原因。在某些领域的数据集中,各种“脏数据”的比例甚至高达50%-60%以上。这些问题数据不仅意味着错误信息,更重要的是它会影响后续数据挖掘工作,导致抽取模式错误和导出规则的偏差,即“脏数据进,脏数据出”。如何处理这些“脏数据”变得尤为重要,数据清洗就是完成这方面的工作。因此,数据清洗已成为数据预处理及数据挖掘领域研究的主要内容之一。本文重点研究数据挖掘领域中的数据清洗技术,特别是对缺失值的数据清洗。数据清洗的种类主要有异常数据处理、缺失值处理和重复记录的处理,其中缺失值清洗尤为常见。传统的基于聚类缺失值填充算法仍然存在填充准确率低的缺陷,且填充效率不稳定。为此,本文对聚类缺失数据填充方法加以研究和改进,提出距离最大化和缺失数据聚类的填充策略。通过多个实验表明,相应的改进算法有很好的效果。本文主要研究工作如下:(1)首先,本文算法对聚类方法进行改进。原填充算法需要提前输入k值,而且难以确定k值为多少时产生的聚类结果最优,这样直接影响了填充数据的正确率。因此,根据相距最远的数据不在同一类中的原则,改进后的算法使用数据间的最大距离确定聚类中心,可以自动确定k值,使得聚类结果快速达到最优,更高效的进行数据填充;(2)其次,对填充算法的流程进行优化,将聚类和计算缺失数据相似度合并。由于聚类方法不可对含有缺失数据的数据集进行聚类,通过对聚类的距离函数加以改进,采用缺失距离计算方式聚类。改进后的算法可以对含有缺失值的记录进行聚类,做到同时进行聚类和标记缺失数据所属类,从而简化原填充算法流程,提高效率;(3)最后,在填充过程中,增加对离散型数据的填充处理。如果缺失值属性是离散性属性,则改为使用标记类中出现频率最高的值填充缺失值;如果缺失值属性是数值型属性,则依然用标记类的相应属性的平均值填充缺失值。
其他文献
随着互联网技术的迅猛发展,特别是近年来云计算、物联网、社交网络等新兴服务的快速普及,人类社会产生的数据规模正以一种前所未有的速度增长.从大规模复杂数据中,以应用需求
随着通信技术的快速发展,人们对通信质量的要求也越来越高。如何在有限的带宽下实现信息的高速率、大容量、优质量传输引起了研究者们的极大关注。光正交频分复用(OFDM)技术作
路由协议是短距离无线网络系统研究的重要部分,网络低能耗是ZigBee技术最基本的要求,研究高效率的路由协议能够有效的降低并均衡网络的能耗,延长网络的使用。因为ZigBee技术有着
人脸表情是一种重要的非语言交流方式,在人与人之间的日常交流中,有55%的信息是通过面部表情传递的。随着科学技术的发展和对机器智能化要求的提升,使计算机能理解人的情感并
DeepWeb数据集成系统是获取并利用万维网上的自由分布的DeepWeb数据库中数据信息的一种有效方式,但是由于DeepWeb数据库数量繁多且涉及不同领域,因此按领域对DeepWeb数据库分类
在现实世界中,随着互联网和多媒体技术的发展,多标签数据大量出现,这些数据的每个实例样本往往同时属于多个类别,导致需要处理的信息急剧增加。如何高效的处理这些信息,需要
计算机技术和互联网的快速发展为各种形式的数字媒体产品的访问和使用提供了极大的便利,但同时也出现了一系列的问题,如产品的随意复制、盗用、篡改等。三维模型同图像、文本、
随着互联网的飞速发展和互联网信息爆炸式的增长,推荐系统越来越受到人们的关注。微博,作为今后互联网发展方向的一个重要的代表模式,已经成为了许多人最重要的沟通、营销工具。
无线传感器网络(WirelessSensorNetworks,WSNs)由部署在监测区域内的大量廉价微型传感器节点组成,通过无线通信方式形成一种多跳自组织的网络系统。WSNs能有效的通过各种功能的