基于概念模型的中文网页信息抽取技术的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:TC3000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用的普及和近年来因特网的发展,特别是Web网的迅猛发展,信息的增长规模在速度上达到了空前的水平。如何协助用户更加方便有效地利用现有的网络资源,并且从中获得真正有用的信息,是计算机研究人员不得不面对的一项重任。本课题主要就概念检索模型展开研究,提出一套抽取中文网页中信息的有效解决方案。根据领域概念知识库,该方案构建网页信息,使网页内容结构化,将来可以和用户需求匹配,实现二次检索。概念检索是近年来兴起的信息科学领域的一个研究热点。目前有许多研究者提出了自己的概念检索模型,希望通过语义关系来扩充检索范围,获得对用户而言有价值的信息。但是,目前为止缺乏实际的实现框架与研究成果。本文首先介绍概念及其属性的定义,概念之间关系和概念图等基本知识。然后,给出基于概念模型的中文信息抽取的总体框架。文中从资源库的建立和信息抽取两个方面详细论述该框架的具体内容。在资源获取阶段,着重介绍概念知识库的意义,现有成果及未来发展方向。在信息抽取方面,介绍在抽取过程中的主要模块,包括文本块过滤,文本块内容分类和文本块信息抽取。文中定义三种基本信息表达方式(SearchBox、List和PureText),并分别对三种类型的信息抽取过程进行讨论。随后,本文论述了实体关系模板的获取技术。确定实体之间的关系有助于从语义角度理解文本,构建概念体系,从而提高信息检索的正确率。为此,我们提出一种Slim Template Getter(STG)的bootstrapping训练方法。该方法采用生物信息学中的序列比对技术计算上下文的语义模板,使用一定的评估机制筛选模板,并有效地扩充元组以提高下一轮训练的质量。实验结果表明,STG生成的模板不仅能覆盖大量的元组,而且正确率可达99%。最后,本文结合以上两项成果实现了一个中文信息抽取系统Squib。在实验中,该系统围绕火车票建立概念知识库模型,对Google搜索返回的前50张网页进行过滤,提取需求概念的属性值,构建网页信息,并且重新排列其搜索结果。根据测评,该系统不仅能够抽取出需求概念的一部分属性值,而且从语义角度而言有效地改善了原有搜索结果的排名。
其他文献
面对日益激烈的市场竞争,国内许多企业都将推进信息化进程作为其一项重要的战略举措,但企业利用其信息系统收集大量信息以加强自身运作的同时,数据逐渐泛滥而信息相对缺乏却
如何保持应用系统内部的透明性,如何解决组织内的信息孤岛问题,使用户更加方便的按照需要定制各种数据输出格式,使软件开发更加从容的应对系统需求的变化,是软件开发的一个重要的
优化排样问题是指寻求二维图形在特定长度,宽度区域内的摆放尽可能多,以使区域的利用率达到最优。它在服装、皮革制品、体育用品、机械等制造行业中都有应用。国内有成千上万
智能手机日渐普及,而Android手机在智能手机的市场占有率占了81%。人们在手机里存储的信息越来越多,其中不乏很多隐私信息,包括短信、通讯录、通话记录、照片等。一旦手机丢失,人
复杂介质中的弹性波数值模拟是力学、数学、地球物理学领域内重要并相当活跃的研究方向,有限差分法是实现弹性波正演模拟的重要方法之一。传统的差分算法要想提高计算精度,就必
未来的路由器/交换机设备将具有多端口和高端口速率高的特点,而多媒体应用数据的服务质量需求使路由器/交换机必须具备高速交换能力和对不同数据的服务质量给予保障的能力,这
相对于Web上的海量数据而言,个人阅读和理解信息的能力非常有限,很难获得他们所期望的知识,此即“信息爆炸”问题。为了解决这个问题,人们提出了很多技术来帮助用户利用网上资源,W
随着信息技术的发展,软件规模不断扩大,如何保证和提高软件质量成为软件工程最为关心的问题之一。软件测试能够有效地发现软件中的缺陷和故障,是保证软件质量的关键技术。但
人工神经网络具有优良的非线性特性,特别适用于高度非线性系统的处理,基于神经网络的智能预测是解决非线性预测问题的有效方法。电力行业信息化建设积累了大量的历史数据,迫
空管设备主要是指通信、导航、雷达等设备,其设备正常运行率要求为99.99%,如何有效地提高空管设备的维护维修效率,是目前空管设备保障的重要课题,如何在现有员工的技术水平基础上,