基于本体的Web信息集成若干关键技术研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:zxw123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web提供了一个极其丰富而有价值的信息资源库。如何从Web信息源中获取并提供给用户符合需要的Web信息这是一个具有重要意义的理论和实际应用课题。Web上的数据具有半结构性、异构性和分布性等特点,这些特点决定了Web信息集成是一项十分具有挑战性的工作。 本文在分析Web信息特点和当前Web信息集成方法的基础上,以基于中间层本体的混合方法(MBH方法)为线索,就基于本体的Web信息集成若干关键技术进行了研究。这些研究包括了从对象集合中自动提取本体概念、面向Web表格的信息抽取、MBH方法中中间层本体的构造、本体上的柔性查询及MBH方法中的查询重写等内容,所做的工作和取得的创新成果主要体现在下面五个方面: 1.提出了一个基于互关联后继树模型的概念格构造算法以提高从对象集合中提取概念的效率。该算法将我们在全文检索研究中的成果——互关联后继树模型应用于概念格构造当中,利用形式背景的互关联后继树模型,结合数据挖掘中对频繁项集的挖掘技术实现概念内涵的提取,在概念提取过程中避免了大量候选属性集的生成。与其它概念格构造算法相比,理论分析和实验都证明该算法具有一定的优越性。 2.针对中文信息,提出了一个基于正则表达式、面向Web表格的信息抽取方法。该方法在分析表达概念的中文短语特点基础上,将表达同一本体概念的中文短语自动概括为一类正则表达式表示的方言模式,通过正则表达式的匹配实现从Web信息到本体概念的映射,并同时针对Web表格特点,制定相应的策略解决匹配冲突。该方法重点解决了信息抽取中同一概念不同表达带来概念不易识别的问题,实验证明该方法具有一定实用性。 3.借鉴需求工程中的多视点理论,基于一些限定和假设,提出了一个基于多视点的中间层本体构建方法,将各局部本体视为中间层本体的一个视点,根据构建过程中应遵循的三条原则,通过检查和处理各局部本体间的不一致性,使用启发式规则推理不同局部本体概念之间的关系等手段获取中间层本体。该方法在获取中间层本体的同时,也保证了中间层本体与局部本体间的语义一致性。 4.将柔性查询和半柔性查询概念引入到本体查询当中,同时针对本体图为树的情况,提出了一个本体上半柔性查询的有效求解方法。该方法通过摘要 建立索引和使用叶序区间判断£扒condition(半柔性条件)是否满足实现 本体上的半柔性查询求解。同传统的深度优先遍历方法相比,理论分析 和实验都证明该求解方法具有一定优越性。5.根据所研究的关键技术和实际项目中的应用需求,提出了一个使用MBH 方法的W七b信息集成体系结构,并基于该体系结构开发了一个基于本体 的W七b信息集成原型系统,该原型系统具有本体管理、节几b信息抽取、 查询重写等功能,具有一定的实用价值。
其他文献
目的:通过回顾性分析仪征市近4年的剖宫产情况,探讨有效降低措施。方法:对仪征市各级助产医疗机构近4年上报的有关资料进行统计,分析剖宫产率变化趋势及1 802例剖宫产指征构成
目的探讨气管插管引导下置入硬质气管镜及硅酮支架治疗气道狭窄的疗效及安全性。方法选取2016年1月-2019年5月在南通市第一人民医院就诊的拟行硅酮支架置入的中心性气道狭窄
阳台上挂着一串紫色风铃,每有清风路过,就会发出叮叮当当的响声,听着美妙悦耳的铃声,就想起一位年轻美丽的女孩。
Internet在给人们带来了巨大方便的同时,也使得网络与信息安全问题变得越来越突出。入侵检测作为网络安全的重要一环,对网络的安全保障起到了重要的作用。本文针对不同的需求和
随着信息资源共享越来越迫切的需求,随着互联网逐渐成为信息共享的支撑平台,以语义Web为代表的语义技术,以其严格的逻辑基础和标准化的技术路径,正逐渐成为未来Web信息系统的一项
目的:机会性筛查宫颈病变,规范化应用三阶梯诊疗程序管理控制宫颈癌前病变,促进女性生殖健康。方法:机会性筛查非孕女性宫颈感染HPV状况,应用三阶梯诊疗程序筛查宫颈癌前病变即
加拿大CPT新型浮选柱在历经兴衰后 ,采用易于从柱体外部拆装检修的SlamJet○R气体分散器等新技术 ,解决了充气器易结钙堵塞等技术难题 ,提高了自动控制程度 ,使CPT浮选柱在国
新建马桥镇16A-02/04地块商业办公项目环境复杂,民宅均采用明代-清代的砖、木、瓦结构已拆除下来的古建筑材料,为原貌移建并改良设计建造的古建筑。考虑到古建筑木结构的施工