数据清洗关键技术研究及在工商信用服务平台上的应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:d34276
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在对网络交易中的信用主体进行信用评估时,需要对分散在各机构中的基础信用信息进行整合。在对信用信息的处理过程中,由于各机构对信息的表达方式不尽相同,因此需要对采集来的数据进行清洗,特别是要对数据库字段不匹配和数据重复冗余等现象进行处理。   本文针对多数据源中数据库字段不匹配的问题,提出一种基于领域知识的字段映射方法,对字段进行分类,并从字段的基本信息和实例的内容信息进行分析,最终得出所比较字段的相似性,从而识别出不同的数据库模式中表达相同含义的重复字段,并能够对以后的字段映射提供有效的支撑,最后通过引入信用领域的相关知识对各机构的数据库字段进行映射,验证了本方法的实用性。本文针对已映射字段中的重复记录问题,提出了一种新的重复记录检测算法,该算法是对MPN(多趟邻近排序)算法的改进,并通过改进的相似度计算方法判断两条记录的重复程度,从而检测出隐含的数据重复冗余问题,最终通过对实际信用数据的处理,验证了该算法的正确性,为半自动化检测多数据源数据集成过程中出现的数据重复问题提供了解决办法。本文最后介绍了工商信用服务平台的设计与实现,并对数据清洗模块进行了分析。
其他文献
随着互联网产业的快速发展,主题模型作为近些年来在文本挖掘中出现的一种概率模型逐渐成为了国内外的研究热点,其应用几乎覆盖了文本挖掘和信息处理的所有领域。   短文本可
XML数据由于其开放性、通用性、半结构化等特性,已经成为互联网上数据表示和交换的标准。随着XML应用的不断扩展,大量数据源产生出千差万别的XML文档,它们所遵循的文档模式(DTD
随着计算机软件、硬件和通信等技术的不断发展,形成了一种新的“以人为中心”的计算模型——云计算。在云计算环境中,人们通过多种方式普适地获得云服务,这需要云中心提供相
近年来,随着计算机图形技术的高速发展和信息量的快速膨胀,人们对高分辨率、高亮度显示系统的需求越来越迫切。由于传统的显示设备不能满足分辨率需求,高性能显示设备又太昂
从图像数据中提取出的高维特征给构建高效的图像索引带来了很大的困难。通过语义哈希索引思想来构建图像索引是一种有效的解决方案。但是传统基于语义哈希索引思想的索引算法
随着互联网的飞速发展,互联网业务日趋多样化,传统的网络体系结构无法适应的互联网业务需求,改造升级网络体系架构刻不容缓。但是,由于互联网服务提供商间的利益竞争关系,互联网的
随着计算机技术的日益成熟,各种结构复杂、功能强大的计算机系统被广泛应用到航空航天、交通运输、医疗卫生和核电能源等安全关键领域。一旦这些系统失效,将造成人类生命财产的
随着信息技术的发展,当今社会的数据信息量呈指数增长,很多存储平台的量级都上升为PB级别。作为海量数据存储系统在用户层上普遍使用的管理平台一分布式文件系统已经日渐成熟
随着存储技术的发展,可获得的数据集在样本个数及样本特征维度方面都有很大的提高。因此,我们需要降维(Dimensionality Reduction,DR)技术来帮助探索和分析如此庞大的数据集。一
系统建模语言SysML(Systems Modeling Language)是由UML2.0发展而来的,凭借其在解析用户需求等方面的优势,已经成为了分析与建立复杂系统模型的重要建模工具。Petri网分析工具