异构数据源集成中清洗策略的研究及应用

被引量 : 0次 | 上传用户:linzsu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据集成的需求由来已久,对数据集成技术的研究一直是数据管理领域及其相关领域中一个非常热门的课题。论文研究数据集成过程中“脏数据”和“数据源异构”问题的解决方法,重点研究了数据清洗策略及其相关算法,为消除脏数据、保证集成数据的质量提供了一套通用的解决方案。 论文提出了利用集成工具软件将数据清洗与模式转换有机结合实现数据集成的基本策略;构造了通用的异构数据源集成框架,为增强集成工具的脏数据处理功能提供了一种新的途径。将脏数据按照清洗方式的差异划分为单记录型和多记录型脏数据两类,并提出了解决两类脏数据的清洗策略。构建了清洗规则定制模块,解决了单记录型脏数据的清洗问题;研究了缺损数据和相似重复记录两类常见多记录型脏数据的清洗策略;针对缺损数据提出了基于策略模式的缺损数据处理方法,该方法利用具体的策略类实现了简单处理、KNN和DTB三种缺损数据处理算法;针对相似重复记录提出了对象识别过程框架,设计了该框架中的数据预处理、词法分析、记录特征标记、相似度分析、相似对象聚类等过程的相应算法。 最后,将研究成果应用到联通统一客户资料系统之中,利用客户资料数据进行了集成实践和清洗实验,结果表明所提出的清洗策略及其相关算法是可行的、有效的。
其他文献
本文针对现有资源分配问题中因素的复杂性和目前研究中存在的不足,从递阶优化的角度,运用两层决策理论和方法,就两层结构的、下级之间有关联的、多个优化目标的资源优化进行了研
听力是语言输入的主要途径之一,也是学生感知语言和学习语言的重要途径,它既是语言学习的手段,也是语言学习的目的。听力是交际活动的核心,是发展其他一切语言技能的基础,良好的英
本文运用长时段理论、“真了解”之法和统计例证法研究了中国古代教育发展周期。 教育发展周期是指教育作为一个总体由衰而盛又由盛而衰所经历的时间。教育结构是指一个教
外部粘贴高强材料加固建筑物,在今天已经广泛的应用于工程当中。特别是粘贴钢板加固,更是一种安全、可靠、经济、快捷的加固方法。 本文主要介绍了粘贴钢板加固轴心受压混凝
目的:为掌握安徽省健康居民的口腔健康状况及探索龋病、牙周疾病的发病情况,预测发展趋势与人群特点以及与社会环境因素的关系,为各级卫生行政部门制定口腔保健目标与规划提供依
郭熙是北宋著名的山水画家和理论家,《林泉高致》中汇集了他的绘画理论,其中的许多命题不仅是中国古代山水画论中的重要观点,也是中国古代不可忽视的美学思想。本文拟在借鉴前人
目的探讨快速康复外科理念融入手术室护理中的临床价值。方法选取2016年4月-2018年3月我院外科诊治的98例需实行手术治疗的患者,随机分为两组(实验组、对照组),每组49例。实
在中国植被分区上,山西恒山是温带草原地带与暖温带落叶阔叶林地带的分界,其南北坡分属于不同植被带。本文以恒山南北坡植被为研究对象,对南北坡植被类型、物种多样性、生态位及
在分析医学影像学临床实践教学现状及存在问题的基础上,构建了基于网络的医学影像学临床教学“导·学·练”新模式;同时指出该模式的应用实现了教师教学质量和学生学习