异构医疗数据库语义集成迭代算法

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lu471085958
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义集成可以消除异构数据库中的数据冲突和异常,实现同一行业不同企业和机构之间的异构数据集成。异构数据的语义集成对于国家进行宏观调控、建立公共数据平台具有十分重要的作用。采用语义一致性检测的迭代流程,在同一迭代流程中,通过结合属性和元组语义的检测提高语义集成的精度。采用聚类方法分析属性之间的语义一致性,根据直接从属性的数据值中提取的特征,分别采用K-means聚类算法、模糊聚类算法和改进的chameleon凝聚层次聚类算法,得到三种属性的语义匹配结果进行投票,以得票数不低于2的属性对作为语义一致属性对,用作迭代流程的初始属性语义匹配结果。在聚类分析中,属性特征只从属性的数据值中提取;在改进的chameleon算法中,以Normalized Cut准则取代原算法的Min-cut准则。在迭代过程中,首先依据属性语义匹配的结果,采用分类方法检测元组之间的语义一致性。手工挑选数量相同的匹配元组对和不匹配元组对,作为训练样本数据集训练logistic回归分类器,并对分类结果进行分析和评价;然后对分类所得匹配元组对做相关分析和线性回归分析,通过皮尔逊相关系数和线性回归拟合参数发现新的语义一致属性对,更新属性匹配结果并用于下一步迭代。使用三峡医院和南漳医院的药品表作为实验数据,药品表的属性个数分别为20和27个,从中各挑选603个匹配元组对和不匹配元组对,用作研究中的实验数据。实验结果表明,在语义集成迭代流程中,随着迭代次数的增加,能够不断发现新的匹配属性和匹配元组,且识别出的属性对和元组对具有很高的正确率。
其他文献
伴随大数据时代的到来,人们每天面临着海量数字信息,信息过载问题日益严重。传统的获取信息的方式是传统的门户网站和通过搜索引擎主动搜索,这已经不能及时满足人们对有效信
随着软件产品在整个社会中的作用越来越重要,公司在生产和交付软件产品及服务上的竞争进一步加剧,使得在短时间内有效地开发出高质量的软件成为必须。其中,测试是保证软件质
当今,我们可以从网络上获取大量的数据与服务来满足人们对知识的需求。语义Web的出现为知识工程、数据工程提供了上下文环境,它帮助我们改善了网络上的知识组织,并使用户更加
随着数字媒体产业的高速发展,近年来,在国内动漫产业正日益成为一个巨大的产业。媒体技术的发展给动画带来巨大的发展机遇,无论从电影到电视还是互联网、移动通讯,我们正处在媒体
无线传感器网络是集信息采集、信息传输。信息处理于一体的综合智能信息系统,在环境监测、医疗卫生、智能家居、国防军事等方面会有极大的应用。无线传感器网络是一项重要的
可信计算组织认为隐私保护是可信系统的一个必要因素,用户对自己的隐私信息必须拥有选择和控制权,为此可信计算组织于2004年发布了DAA方案来保证证过程的匿名性和解决Privacy
集成了传感器、微机电系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术,其目的就是协作地感知、采集和处理网络覆盖区域中感知对象的信息,并发送给观察
在互联网广泛普及的今天,电子邮件已经成为人们进行信息交互的重要工具之一。它在给人们带来极大便利的同时,也给人们带来了造成很大困扰的副产品——垃圾邮件。为了解决垃圾
随着有限元结构分析的不断复杂,传统的有限元串行计算方法因运算速度的限制,己远远不能满足工程应用的需求。网格技术和并行计算方法的飞速发展,使得这一问题得到很好的解决。利
反编泽是将较为低级的程序代码翻译成与之等价的、更为高级和抽象的程序语言表示的过程。作为软件逆向工程的重要组成部分,反编译在软件移植、恶意代码检测、程序调试以及软件