论文部分内容阅读
Web提供了一个极其丰富而有价值的信息资源库。如何从Web信息源中获取并提供给用户符合需要的Web信息这是一个具有重要意义的理论和实际应用课题。Web上的数据具有半结构性、异构性和分布性等特点,这些特点决定了Web信息集成是一项十分具有挑战性的工作。 本文在分析Web信息特点和当前Web信息集成方法的基础上,以基于中间层本体的混合方法(MBH方法)为线索,就基于本体的Web信息集成若干关键技术进行了研究。这些研究包括了从对象集合中自动提取本体概念、面向Web表格的信息抽取、MBH方法中中间层本体的构造、本体上的柔性查询及MBH方法中的查询重写等内容,所做的工作和取得的创新成果主要体现在下面五个方面: 1.提出了一个基于互关联后继树模型的概念格构造算法以提高从对象集合中提取概念的效率。该算法将我们在全文检索研究中的成果——互关联后继树模型应用于概念格构造当中,利用形式背景的互关联后继树模型,结合数据挖掘中对频繁项集的挖掘技术实现概念内涵的提取,在概念提取过程中避免了大量候选属性集的生成。与其它概念格构造算法相比,理论分析和实验都证明该算法具有一定的优越性。 2.针对中文信息,提出了一个基于正则表达式、面向Web表格的信息抽取方法。该方法在分析表达概念的中文短语特点基础上,将表达同一本体概念的中文短语自动概括为一类正则表达式表示的方言模式,通过正则表达式的匹配实现从Web信息到本体概念的映射,并同时针对Web表格特点,制定相应的策略解决匹配冲突。该方法重点解决了信息抽取中同一概念不同表达带来概念不易识别的问题,实验证明该方法具有一定实用性。 3.借鉴需求工程中的多视点理论,基于一些限定和假设,提出了一个基于多视点的中间层本体构建方法,将各局部本体视为中间层本体的一个视点,根据构建过程中应遵循的三条原则,通过检查和处理各局部本体间的不一致性,使用启发式规则推理不同局部本体概念之间的关系等手段获取中间层本体。该方法在获取中间层本体的同时,也保证了中间层本体与局部本体间的语义一致性。 4.将柔性查询和半柔性查询概念引入到本体查询当中,同时针对本体图为树的情况,提出了一个本体上半柔性查询的有效求解方法。该方法通过摘要 建立索引和使用叶序区间判断£扒condition(半柔性条件)是否满足实现 本体上的半柔性查询求解。同传统的深度优先遍历方法相比,理论分析 和实验都证明该求解方法具有一定优越性。5.根据所研究的关键技术和实际项目中的应用需求,提出了一个使用MBH 方法的W七b信息集成体系结构,并基于该体系结构开发了一个基于本体 的W七b信息集成原型系统,该原型系统具有本体管理、节几b信息抽取、 查询重写等功能,具有一定的实用价值。