基于聚类的数据清洗算法的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:ccb332
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代来临的当前,数据量的增长速度飞快。获得干净的数据显得尤为重要。尤其随着数据收集的方式多种多样,其中必须要进行的阶段就是数据清洗。不正确的度量方法、收集条件的限制、多数据源的合并、手工的录入都会造成大量的缺失数据和重复记录,传统的方法对于这两方面的应用都略有不足。因此本文在现有的聚类算法的基础上,提出了基于聚类的数据清洗算法。首先对当前的数据清洗问题做了分析,发现现实社会中主要存在重复记录和缺失记录两种问题,并分析了当前存在的缺失值的处理方法和重复记录的检测方法,发现了它们的不足。然后对聚类算法进行了分析,针对处理数据量很大的这种情况,选择了基于密度的聚类算法。其次对缺失值的清洗问题做了概述,并探讨了几种缺失值填充方法。研究了基于密度的DBSCAN算法如何应用于缺失值的填补当中。发现了DBSCAN算法不适合应用于字符型缺失值填充。提出了DBSCAN算法和关联规则算法综合利用的改进算法。并进行实验验证了此改进算法在填充准确度上有很大优势。最后研究了重复记录的清洗问题。先给出了相似度的度量方法和现有字段匹配算法。进而提出了解决多表记录匹配的匹配算法,并进行了实验分析。研究发现了DBSCAN算法在形成聚类簇方面很受参数设置的影响,会造成重复记录检测方面准确度不高的问题。对此提出了检测精度更高的算法,通过实验验证了算法的可行性。
其他文献
食品券项目是美国联邦政府解决低收入者温饱和营养问题的重要措施,在构建社会安全网过程中发挥重要作用。食品券项目兼具福利政策、农业政策和经济政策三重功能,并具有完善的
正值跨年之际,新型冠状病毒感染的肺炎疫情来势汹汹。$$疫情就是命令,防控就是责任。连日来,漳州市各级党组织和广大党员干部坚决贯彻落实习近平总书记有关重要指示精神,坚决贯彻
报纸
【正】 初中同学普遍觉得物理难学,虽然原因是多方面的,其中在学习物理过程中的思维障碍是不可忽视之一。笔者,从新课程理念出发结合物理教和学的体会,以心理学的角度对初中
本文采用因子分析法,分剐从盈利能力、偿债能力、成本费用率、营运能力等方面对我国33家在上海证券交易所上市的零售业公司的10项财务指标进行了竞争力综合评价和排名,其样本
在定常计算结果的基础上,对带放气型周向槽的低速离心压气机内部进行了非定常的全三雏数值模拟计算。将计算结果与实验结果进行了比较,并详细对比分析了带实壁机匣和放气型周向
“我不想倒下,可我要守卫我的国家。我不想倒下,可我更不想看到我的战友倒下。祖国需要我,冲上去,是军人必须的回答。人民需要我,项上去,用那永不退却的步伐。”这首诗铿锵有力,抒写
目前大部分植被指数主要针对绿色植被构建,缺乏针对其他颜色特别是红色植被的指数。此外,面向湿地或潮间带植被识别提取的植被指数也相对较少。为拓展针对红色植被指数构建的
为实现立式铆钉机与小型半自动化送料装置的一体化,提高铆接效率和质量,提出了一种基于双目视觉的铆钉薄板几何参数测量方法。采用形态学边缘提取算子、改进的Hough变换提取
北京房地产开发企业如何取得开发资质等级董锋,张奕北京房地产市场中,众多的开发企业在资金能力、开发规模、工程质量、技术人员着方面存在着差异。购房者需要货比三家,合作者需
本文以杂草科学中有关科学度规的变革为切入点,阐述了人类与杂草作斗争的历史,分析了现代农业生产中除草方式的革命性变化及其困境,并探讨了将来的杂草问题及其对策、以及杂