论文部分内容阅读
随着计算机在各个领域的广泛应用和互联网的迅速发展,社会信息总量呈爆炸式指数增长,特别是进入21世纪后,信息总量更是以每三年增加一倍的速度递增。因此,为应对全球信息爆炸给当前互联网用户带来的巨大挑战,迫切需要开发一些可自动化的技术来协助人们从形形色色的信息中找到自己感兴趣的信息。信息抽取正是解决这个问题的一种方法。信息抽取技术是指从一段自然语言文本中抽取出用户指定的事件或事实信息,并以结构化形式描述信息,它最终目的是开发实用的信息抽取系统。从自由文本中抽取用户感兴趣的信息。本文的研究工作是将本体技术应用到信息抽取系统中,协助完成信息抽取工作。本体的引入即保证了结构的一致性,又保证了数据的一致性。在前人工作的基础上,本文主要完成以下工作:(1)介绍了本文的研究背景和研究意义,并分析了目前本体领域和信息抽取领域的研究现状。(2)深入研究了基于本体的信息抽取系统的相关理论技术,主要包括本体技术和信息抽取技术。详细探讨了本体的定义、分类、建模原语、构建规则与方法、描述语言以及本体的构建工具。其次,对信息抽取也进行了深入研究,包括信息抽取的概念、信息抽取系统以及基于本体的信息抽取系统等。(3)在对科研合作网络的结构特征进行分析的基础上,提出了一种面向科研合作网络领域构建领域本体的方法,并使用此方法构建了面向目标对象科研合作网络的领域本体。使用protégé4.1定义领域本体的概念、概念的数据属性和对象属性等,并利用protégé自带的推理工具对已构建的领域本体(包含描述领域的概念、关系、约束等许多信息)进行解析和推理,保证了本体的正确性和一致性。另外,利用本体解析还可以将领域本体中包含的领域信息提取出来,如本体的概念、概念之间的关系、关系的定义域和值域、类的实例等。(4)对非结构化文本采用自然语言处理技术,完成预处理和中文分词操作,并生成预处理的文档集。设计了基于本体的信息抽取系统框架结构,并对其中的重要模块进行了详细分析。(5)根据本体解析的结果生成信息抽取规则,使用此规则对生成的预处理文档进行信息抽取操作。并将信息抽取的结果按照科研合作网络构造的需求保存,最后利用社会网络可视化工具Ucinet实现科研合作网络的可视化和分析。