信息抽取算法研究及其在科研服务系统中的应用

来源 :东北大学 | 被引量 : 2次 | 上传用户:jiahongtao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,万维网已经成为全球最大的信息源和知识库,如何从中抽取出有用的信息,已成为研究学者关注的热点。科研服务系统是为高校的教师提供一个便捷的从事教学、科研、管理各项成果,以及与外界交流的服务网站。该系统的核心部分是文献管理与教学信息管理,主要技术是针对电子期刊数据库网站中文献信息和教务处网站中课表信息进行抽取。本文分别对两种网页的结构进行了深入研究,并在研究国内外信息抽取方法的基础上,提出了各自的抽取方法。针对文献信息抽取问题,鉴于电子期刊数据库网站中网页大多由相同模板生成,本文充分利用该类网页的特征,采用基于模板的文献信息抽取方法。首先,对信息提取的整体结构进行了设计,其次,对主题信息模板生成方法以及主题信息抽取方法进行了研究和设计。在主题信息抽取模板生成方法中,针对文献网页的特点,提出一种启发式规则,并结合DSE算法,生成精确模板生成算法,用于获取主题信息抽取路径。仿真结果表明本文所设计的方法是可行的,具有一定的适应性。针对课表信息抽取问题,鉴于课表网页大多是采用网页表格的形式表示,本文充分利用该类网页的特征,采用基于启发式的表格信息抽取方法,首先,对表格信息抽取的整体结构进行了设计,其次,对表格定位方法和表格信息抽取方法进行了设计。在表格定位方法设计中,针对表格网页的特点,将网页构造出Table-DOM树,并提出一种启发式规则,用于定位网页表格的位置。并采用本文提出的基于启发式的表格抽取方法获取主题信息路径。仿真结果表明所设计的方法是可行的,具有一定的适应性。针对抽取到的主题信息需要进行分类的问题,鉴于主题信息的的特征,本文采用基于支持向量机的文本分类方法,首先,对基于支持向量机的文本分类的整体结构进行设计,其次,对文本预处理方法、特征项选择与提取方法、模型训练方法和文本分类方法进行设计。针对主题信息为多分类问题,采用了一对一(One-against-One)的多分类算法。最后,根据文献抽取信息与课表抽取信息集合作为样本数据进行了模拟仿真实验,结果表明本文所采用的方法是可行的,具有一定的适应性。最后,针对科研服务系统的目标与需求,对总体功能结构进行设计。并将文献信息抽取方法与课表信息抽取方法在科研服务系统中进行应用,设计了各自的功能结构图。
其他文献
混沌因其独特的魅力一直是国内外学者研究的热点。近年来,混沌同步及其在保密通信中的应用研究,引起了人们的广泛关注。但是,当前的混沌系统同步问题的研究主要通过设计连续
本文对两类图像匹配算法进行了研究:基于图像灰度信息的匹配算法和基于图像特征的匹配算法。基于图像灰度信息的匹配算法可以实现精确的图像匹配,但对图像质量要求严格,当存
光电稳定伺服控制系统是跟踪、侦察、定位、导航等应用领域的关键组成部分,为保证载体晃动条件下跟踪设备的空间相对稳定和视轴精确指向跟踪目标,本文针对陀螺稳定伺服控制系
定量反馈理论(quantitative feedback theory, QFT)是鲁棒控制理论的一个重要分支,与其他鲁棒控制理论相比,它具有以下几个重要特点:可以定量估计反馈代价;可以考虑相位信息;不
能力分配问题作为企业生产经营过程中的一类重要的决策问题,具有广泛的应用背景和研究意义。由于近些年,随着经济全球化和企业的跨国经营,为了实现自身的不断增长,快速响应市场需求和变化,越来越多的企业采用分布式的运作模式,因此,对分布式环境下的能力分配问题的研究迫在眉睫。另一方面,由于当今社会的多样化和复杂化,企业决策者在决策过程中要面临着越来越多的不确定因素和不对称信息。因此,不确定性环境下带有私有信息