异构数据集成中实体识别与处理技术的研究与应用

来源 :东北大学 | 被引量 : 0次 | 上传用户：chenzulong198867

【摘要】

：

经过多年的信息化建设，许多组织机构在不同历史时期建立了各种不同的管理信息系统，积累了大量的历史数据。但由于这些系统设计之初没有考虑到将来组织机构的变化及信息共享的需

【作者】

：

安云哲

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2008年期

【关键词】

：

异构数据集成实体识别相似重复记录编辑距离

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

经过多年的信息化建设，许多组织机构在不同历史时期建立了各种不同的管理信息系统，积累了大量的历史数据。但由于这些系统设计之初没有考虑到将来组织机构的变化及信息共享的需要，没有统一的结构设计，造成系统中存在大量冗余数据、垃圾数据及异构数据，无法保证数据的一致性，从而导致数据不能共享，降低了信息的利用效率。为解决以上问题，异构数据集成的研究成为了人们关注的热点，对其相关技术的研究也成为了该领域中一个非常热门的课题。　　在研究数据集成常用方法及“脏数据”、“数据源异构”和“数据质量”等问题的解决方法基础上，重点讨论了数据集成过程中相似重复记录的识别、清洗策略及其相关算法，利用分阶段进行实体识别技术来消除相似重复记录，为保证集成数据的质量提供了一套通用的解决方案。提出了一种利用两次聚类的方法对数据进行匹配，在进行聚类的过程中利用两条记录的编辑距离来实现相似重复记录的比较工作，为异构数据集成中的实体识别提供了一种新的途径。　　最后，将研究的方法应用到某市质量技术监督局特种设备管理数据集成系统之中，利用系统数据进行了集成实践和实体识别实验，结果表明所提出的集成方法及实体识别相关算法可行、有效。

其他文献

求解等圆Packing问题的完全拟物算法

NP难度问题是计算机科学中最难求解的一类问题的总称。在人类文明高度发达的今天,人们对于NP难度问题仍然无法给出经典数学所希求的那种完整精确,快速高效的求解办法。然而在

学位

等圆packing问题NP难度问题拟物方法启发式算法全局优化

基于容错机制的安全组播密钥管理研究

随着Internet的迅速发展,组播技术的应用越来越广泛,例如视频会议、金融市场数据、远程教学等。但由于组播技术存在着很多安全性问题,因此安全组播成为目前研究的焦点。组播

学位

组播安全容错性口令认证

海洋环境信息网格中服务管理系统的设计和实现

随着Internet的不断普及，实现跨平台使用资源的网格技术已经越来越受到人们的重视。尤其是海洋数据非常庞大，存储和计算对于现在的硬件发展是一个挑战。如何发现世界各地提供的

学位

网格技术WebServices海洋环境信息服务管理系统数据索引模拟实验

网络攻击防范技术研究与实现——入侵检测系统与客户机协同防范技术

随着计算机网络技术的飞速发展，计算机网络日渐成为人类社会的一个重要组成部分，而计算机犯罪、计算机网络攻击也在计算机网络日益普及的同时变得更加的普遍和猖獗。在这种背景

学位

协同防御入侵检测客户机代理马尔可夫网络攻击防范网络安全

无线传感器网络中数字水技术的研究

无线传感器网络是信息感知和采集的一场革命，在新一代网络中具有关键作用。随着网络的广泛应用，其安全问题得到越来越多的重视。由于网络资源的限制，无线传感器网络的安全问题面

学位

无线传感器网络数据安全数字水印嵌入算法检测算法

圆锥曲线密码系统的研究与CC-CSP的构建

在密码学的最新进展研究中,圆锥曲线密码学是密码学发展的一个新方向。在圆锥曲线群上的各项计算比椭圆曲线群上的更简单,在其上的编码和解码都很容易被执行。同时,还可以建

学位

圆锥曲线密码系统双线性配对CC-CSP数字签名签密离散对数

基于WebGIS煤矿应急救援指挥系统的设计与实现

煤炭是我国的主要能源，以煤炭消耗为主的经济格局在长时期内不会改变。然而近年来，煤矿事故频繁发生：如矿井火灾事故，瓦斯、煤尘爆炸事故，煤与瓦斯突出事故，矿井水灾事故和冒顶事故

学位

煤矿应急救援指挥系统网络地理信息系统Oracle空间数据库地理标志语言可扩展矢量图

用于图像边缘检测的可重构计算系统研究实现

边缘检测技术是图像处理和计算机视觉等领域最基本的技术之一。如何准确、快速的检测图像的边缘一直是这些领域的研究热点。自适应边缘检测的特点是能够在系统运行时动态的改

学位

FPGA边缘检测动态局部重构技术可重构计算系统Impulse C

面向计算机组成原理数学的MML模拟器

“计算机组成原理”是计算机相关专业学生需要学习的基础课程之一。对于学生而言，他们想要真正了解“计算机组成原理”这门课程的精髓，并掌握计算机内部的工作原理，这是有一定难

学位

高等院校计算机组成原理课程实验教学平台冯诺依曼体系结构模拟器哈佛体系结构模拟器

基于模式匹配的入侵检测系统的研究与实现

近年来，互联网的爆炸式发展，给人类社会、经济、文化等带来了无限的机遇，同时也给信息安全带来了严峻的挑战。人们采用反病毒，防火墙和入侵检测等技术手段来保证网络信息安全。随

学位

入侵检测模式匹配网络攻击网络信息安全防火墙三维链表

异构数据集成中实体识别与处理技术的研究与应用

其他学术论文