异构数据集成中实体识别与处理技术的研究与应用

来源 :东北大学 | 被引量 : 0次 | 上传用户:chenzulong198867
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过多年的信息化建设,许多组织机构在不同历史时期建立了各种不同的管理信息系统,积累了大量的历史数据。但由于这些系统设计之初没有考虑到将来组织机构的变化及信息共享的需要,没有统一的结构设计,造成系统中存在大量冗余数据、垃圾数据及异构数据,无法保证数据的一致性,从而导致数据不能共享,降低了信息的利用效率。为解决以上问题,异构数据集成的研究成为了人们关注的热点,对其相关技术的研究也成为了该领域中一个非常热门的课题。   在研究数据集成常用方法及“脏数据”、“数据源异构”和“数据质量”等问题的解决方法基础上,重点讨论了数据集成过程中相似重复记录的识别、清洗策略及其相关算法,利用分阶段进行实体识别技术来消除相似重复记录,为保证集成数据的质量提供了一套通用的解决方案。提出了一种利用两次聚类的方法对数据进行匹配,在进行聚类的过程中利用两条记录的编辑距离来实现相似重复记录的比较工作,为异构数据集成中的实体识别提供了一种新的途径。   最后,将研究的方法应用到某市质量技术监督局特种设备管理数据集成系统之中,利用系统数据进行了集成实践和实体识别实验,结果表明所提出的集成方法及实体识别相关算法可行、有效。
其他文献
NP难度问题是计算机科学中最难求解的一类问题的总称。在人类文明高度发达的今天,人们对于NP难度问题仍然无法给出经典数学所希求的那种完整精确,快速高效的求解办法。然而在
随着Internet的迅速发展,组播技术的应用越来越广泛,例如视频会议、金融市场数据、远程教学等。但由于组播技术存在着很多安全性问题,因此安全组播成为目前研究的焦点。组播
随着Internet的不断普及,实现跨平台使用资源的网格技术已经越来越受到人们的重视。尤其是海洋数据非常庞大,存储和计算对于现在的硬件发展是一个挑战。如何发现世界各地提供的
随着计算机网络技术的飞速发展,计算机网络日渐成为人类社会的一个重要组成部分,而计算机犯罪、计算机网络攻击也在计算机网络日益普及的同时变得更加的普遍和猖獗。在这种背景
无线传感器网络是信息感知和采集的一场革命,在新一代网络中具有关键作用。随着网络的广泛应用,其安全问题得到越来越多的重视。由于网络资源的限制,无线传感器网络的安全问题面
在密码学的最新进展研究中,圆锥曲线密码学是密码学发展的一个新方向。在圆锥曲线群上的各项计算比椭圆曲线群上的更简单,在其上的编码和解码都很容易被执行。同时,还可以建
煤炭是我国的主要能源,以煤炭消耗为主的经济格局在长时期内不会改变。然而近年来,煤矿事故频繁发生:如矿井火灾事故,瓦斯、煤尘爆炸事故,煤与瓦斯突出事故,矿井水灾事故和冒顶事故
边缘检测技术是图像处理和计算机视觉等领域最基本的技术之一。如何准确、快速的检测图像的边缘一直是这些领域的研究热点。自适应边缘检测的特点是能够在系统运行时动态的改
“计算机组成原理”是计算机相关专业学生需要学习的基础课程之一。对于学生而言,他们想要真正了解“计算机组成原理”这门课程的精髓,并掌握计算机内部的工作原理,这是有一定难
近年来,互联网的爆炸式发展,给人类社会、经济、文化等带来了无限的机遇,同时也给信息安全带来了严峻的挑战。人们采用反病毒,防火墙和入侵检测等技术手段来保证网络信息安全。随