论文部分内容阅读
经过多年的信息化建设,许多组织机构在不同历史时期建立了各种不同的管理信息系统,积累了大量的历史数据。但由于这些系统设计之初没有考虑到将来组织机构的变化及信息共享的需要,没有统一的结构设计,造成系统中存在大量冗余数据、垃圾数据及异构数据,无法保证数据的一致性,从而导致数据不能共享,降低了信息的利用效率。为解决以上问题,异构数据集成的研究成为了人们关注的热点,对其相关技术的研究也成为了该领域中一个非常热门的课题。
在研究数据集成常用方法及“脏数据”、“数据源异构”和“数据质量”等问题的解决方法基础上,重点讨论了数据集成过程中相似重复记录的识别、清洗策略及其相关算法,利用分阶段进行实体识别技术来消除相似重复记录,为保证集成数据的质量提供了一套通用的解决方案。提出了一种利用两次聚类的方法对数据进行匹配,在进行聚类的过程中利用两条记录的编辑距离来实现相似重复记录的比较工作,为异构数据集成中的实体识别提供了一种新的途径。
最后,将研究的方法应用到某市质量技术监督局特种设备管理数据集成系统之中,利用系统数据进行了集成实践和实体识别实验,结果表明所提出的集成方法及实体识别相关算法可行、有效。