论文部分内容阅读
随着计算机应用的普及和近年来因特网的发展,特别是Web网的迅猛发展,信息的增长规模在速度上达到了空前的水平。如何协助用户更加方便有效地利用现有的网络资源,并且从中获得真正有用的信息,是计算机研究人员不得不面对的一项重任。本课题主要就概念检索模型展开研究,提出一套抽取中文网页中信息的有效解决方案。根据领域概念知识库,该方案构建网页信息,使网页内容结构化,将来可以和用户需求匹配,实现二次检索。概念检索是近年来兴起的信息科学领域的一个研究热点。目前有许多研究者提出了自己的概念检索模型,希望通过语义关系来扩充检索范围,获得对用户而言有价值的信息。但是,目前为止缺乏实际的实现框架与研究成果。本文首先介绍概念及其属性的定义,概念之间关系和概念图等基本知识。然后,给出基于概念模型的中文信息抽取的总体框架。文中从资源库的建立和信息抽取两个方面详细论述该框架的具体内容。在资源获取阶段,着重介绍概念知识库的意义,现有成果及未来发展方向。在信息抽取方面,介绍在抽取过程中的主要模块,包括文本块过滤,文本块内容分类和文本块信息抽取。文中定义三种基本信息表达方式(SearchBox、List和PureText),并分别对三种类型的信息抽取过程进行讨论。随后,本文论述了实体关系模板的获取技术。确定实体之间的关系有助于从语义角度理解文本,构建概念体系,从而提高信息检索的正确率。为此,我们提出一种Slim Template Getter(STG)的bootstrapping训练方法。该方法采用生物信息学中的序列比对技术计算上下文的语义模板,使用一定的评估机制筛选模板,并有效地扩充元组以提高下一轮训练的质量。实验结果表明,STG生成的模板不仅能覆盖大量的元组,而且正确率可达99%。最后,本文结合以上两项成果实现了一个中文信息抽取系统Squib。在实验中,该系统围绕火车票建立概念知识库模型,对Google搜索返回的前50张网页进行过滤,提取需求概念的属性值,构建网页信息,并且重新排列其搜索结果。根据测评,该系统不仅能够抽取出需求概念的一部分属性值,而且从语义角度而言有效地改善了原有搜索结果的排名。