基于实例的异构数据模式匹配方法研究与实现

被引量 : 1次 | 上传用户:debaobei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大部分企业已经完成业务数据信息化,各企业都搭建了自己的数据存储系统来存放自身业务数据。企业兼并引起的数据库合并,跨数据库查询服务,数据集成等应用都依赖异构数据源合并技术。数据模式匹配作为异构数据源数据合并中的基本问题,其目标是通过从与数据模式相关的信息中提取有效特征信息来描述数据模式之间的相似程度,进而找出数据模式中所有元素之间的最佳对应关系。当前大部分的数据模式匹配工作通过手工完成,但是数据规模的膨胀和数据源之间的异构性使人工匹配工作变得繁杂、耗时且极易出错,因而人工匹配数据模式的代价变得非常昂贵,通过实现模式匹配过程自动化来降低该过程耗费的时间已经成为各个数据集成应用的主要任务。经过多年的研究,目前在数据模式匹配领域已经许多不同类型的数据模式匹配方法,有依赖诸如字典等辅助信息的方法,也有依赖列名、列类型等数据模式描述信息的方法,也有一些依赖数据实例的方法。尽管不乏一些具有划时代意义的方法,但大多数方法还是缺乏领域无关性,因而仅对某个或者某几个特定领域的数据有效,缺乏通用性。在本文中通过分析总结当前方法的匹配原理的基础上,从解决通用性和匹配效率两个角度出发,提出了一种基于有序互信息的非透明列名和列数据值的数据模式匹配方法,该方法不依赖数据模式描述信息,直接从数据实例中抽取特征信息建立相似模型,因此具有良好的通用性。在多个公开数据集上的实验结果表明该方法能够在大幅降低匹配花费时间的同时提高匹配结果的准确率。
其他文献
随着软件系统的演化,系统的模块化结构会逐渐偏离其最初设计,并且这种偏离的不断积累通常会降低软件的可维护性,损害软件的整体质量,甚至使软件更容易引入缺陷或错误,进而导
本文主要讨论最小邻居化问题和邻居最大化规则下Voronoi博弈形式的竞争选址问题。最小邻居化问题是指对平面中给定的n个点,选址放置k个新点使得在n+k个点的Voronoi图中,所有
实验教学是教学活动中的重要环节,有利于学生深刻理解理论知识、积极发挥主观能动性、进行科学研究与再创造,是从理论走向实践的桥梁,也是高校教学中不可或缺的重要组成环节。实
物联网技术成为近些年人们研究的热点,而作为物联网关键技术之一的无线传感器网络更是热点中的关键点。无线传感器网络是一种特殊的Ad-hoc网络,因此其除了具有Ad-hoc网络的一般
随着互联网技术的爆炸式发展,在线交易渐渐成为日常生活中越来越受重视的商品交换方式。确保参与者之间交易的公平性是保证电子支票,电子机票,电子合同签订等电子商务活动可
图是一种重要的数据结构,有着强大的信息表达能力,可以描述现实中诸多网络类型的问题。随着互联网中数据规模的增长,其形成的图结构越来越复杂,如何在大规模数据图中有效地进
可逆水印技术是指水印被提取之后,原始数据能够完全恢复,主要应用于对图像的完整性和真实性要求高的领域,如法律仲裁、医学、军事等。随着三维建模技术的发展,网格水印技术受
随着信息科技的飞速发展,在信用卡欺诈监测、网络流量监控和在线金融交易等场景中产生了大量的数据流。这些数据流中蕴含着大量有价值的信息,为了获取这些信息,人们开展了大
人脸检测技术在人们日常生活中越来越受到关注,特别是在学术研究、国防等领域,每年正以突飞猛进的速度发展壮大。人脸检测是一项综合了多学科、多领域、多层次的高新复合型技术
随着人们对安全问题的重视,监控系统变得无所不在。利用监控系统信息进行人的身份识别变得非常迫切。步态识别,即利用人走路的姿势进行身份识别,是一种新兴的生物特征识别技