论文部分内容阅读
数据集成的需求由来已久,对数据集成技术的研究一直是数据管理领域及其相关领域中一个非常热门的课题。论文研究数据集成过程中“脏数据”和“数据源异构”问题的解决方法,重点研究了数据清洗策略及其相关算法,为消除脏数据、保证集成数据的质量提供了一套通用的解决方案。 论文提出了利用集成工具软件将数据清洗与模式转换有机结合实现数据集成的基本策略;构造了通用的异构数据源集成框架,为增强集成工具的脏数据处理功能提供了一种新的途径。将脏数据按照清洗方式的差异划分为单记录型和多记录型脏数据两类,并提出了解决两类脏数据的清洗策略。构建了清洗规则定制模块,解决了单记录型脏数据的清洗问题;研究了缺损数据和相似重复记录两类常见多记录型脏数据的清洗策略;针对缺损数据提出了基于策略模式的缺损数据处理方法,该方法利用具体的策略类实现了简单处理、KNN和DTB三种缺损数据处理算法;针对相似重复记录提出了对象识别过程框架,设计了该框架中的数据预处理、词法分析、记录特征标记、相似度分析、相似对象聚类等过程的相应算法。 最后,将研究成果应用到联通统一客户资料系统之中,利用客户资料数据进行了集成实践和清洗实验,结果表明所提出的清洗策略及其相关算法是可行的、有效的。