论文部分内容阅读
在对网络交易中的信用主体进行信用评估时,需要对分散在各机构中的基础信用信息进行整合。在对信用信息的处理过程中,由于各机构对信息的表达方式不尽相同,因此需要对采集来的数据进行清洗,特别是要对数据库字段不匹配和数据重复冗余等现象进行处理。
本文针对多数据源中数据库字段不匹配的问题,提出一种基于领域知识的字段映射方法,对字段进行分类,并从字段的基本信息和实例的内容信息进行分析,最终得出所比较字段的相似性,从而识别出不同的数据库模式中表达相同含义的重复字段,并能够对以后的字段映射提供有效的支撑,最后通过引入信用领域的相关知识对各机构的数据库字段进行映射,验证了本方法的实用性。本文针对已映射字段中的重复记录问题,提出了一种新的重复记录检测算法,该算法是对MPN(多趟邻近排序)算法的改进,并通过改进的相似度计算方法判断两条记录的重复程度,从而检测出隐含的数据重复冗余问题,最终通过对实际信用数据的处理,验证了该算法的正确性,为半自动化检测多数据源数据集成过程中出现的数据重复问题提供了解决办法。本文最后介绍了工商信用服务平台的设计与实现,并对数据清洗模块进行了分析。