论文部分内容阅读
随着Internet的迅猛发展,万维网已经成为全球最大的信息源和知识库,如何从中抽取出有用的信息,已成为研究学者关注的热点。科研服务系统是为高校的教师提供一个便捷的从事教学、科研、管理各项成果,以及与外界交流的服务网站。该系统的核心部分是文献管理与教学信息管理,主要技术是针对电子期刊数据库网站中文献信息和教务处网站中课表信息进行抽取。本文分别对两种网页的结构进行了深入研究,并在研究国内外信息抽取方法的基础上,提出了各自的抽取方法。针对文献信息抽取问题,鉴于电子期刊数据库网站中网页大多由相同模板生成,本文充分利用该类网页的特征,采用基于模板的文献信息抽取方法。首先,对信息提取的整体结构进行了设计,其次,对主题信息模板生成方法以及主题信息抽取方法进行了研究和设计。在主题信息抽取模板生成方法中,针对文献网页的特点,提出一种启发式规则,并结合DSE算法,生成精确模板生成算法,用于获取主题信息抽取路径。仿真结果表明本文所设计的方法是可行的,具有一定的适应性。针对课表信息抽取问题,鉴于课表网页大多是采用网页表格的形式表示,本文充分利用该类网页的特征,采用基于启发式的表格信息抽取方法,首先,对表格信息抽取的整体结构进行了设计,其次,对表格定位方法和表格信息抽取方法进行了设计。在表格定位方法设计中,针对表格网页的特点,将网页构造出Table-DOM树,并提出一种启发式规则,用于定位网页表格的位置。并采用本文提出的基于启发式的表格抽取方法获取主题信息路径。仿真结果表明所设计的方法是可行的,具有一定的适应性。针对抽取到的主题信息需要进行分类的问题,鉴于主题信息的的特征,本文采用基于支持向量机的文本分类方法,首先,对基于支持向量机的文本分类的整体结构进行设计,其次,对文本预处理方法、特征项选择与提取方法、模型训练方法和文本分类方法进行设计。针对主题信息为多分类问题,采用了一对一(One-against-One)的多分类算法。最后,根据文献抽取信息与课表抽取信息集合作为样本数据进行了模拟仿真实验,结果表明本文所采用的方法是可行的,具有一定的适应性。最后,针对科研服务系统的目标与需求,对总体功能结构进行设计。并将文献信息抽取方法与课表信息抽取方法在科研服务系统中进行应用,设计了各自的功能结构图。