论文部分内容阅读
对于海量的学术资源,若是将知识的控制单元由文献深化到知识元,并把文献分解为一个个独立的知识元,这样会便于知识的存储与查找,以缩短知识创造的过程。另外,文献中知识元的链接关系可以揭示出相关领域之间的隐性知识,以挖掘出新的知识单元,从而实现知识的增值转化,加速知识创新的进程。学术资源中知识元的研究,对于推动人类对知识利用及新知识创造的进程有着至关重要的作用。知识元的抽取是其相关研究领域的基础性工作。目前关于知识元的理论研究还没有统一的认知,不同知识元研究领域对知识元的模型有不同的定义。另外当前研究证实了文献之间存在着知识元的隐含关联,但是要从学术资源中抽取知识元还没有行之有效的方法,而采用人工操作的工作量太大,实现起来比较困难。虽然有学者已经尝试着利用计算机自动抽取知识元,但是他们对知识元的认知有些差异,系统的抽取效果也不够理想,因此不适合用到学术资源的知识元抽取工作当中。本文将基于学术文献资源,致力于该领域知识元的自动抽取研究工作。本文首先结合数字图书馆学术资源的特征,提出能够体现其特征的知识元七元组结构模型。为了知识元抽取的全面性,对学术文献资源进行主题划分成为不可或缺的工作。针对主题划分工作,本文引入归一化割准则用于主题划分,其中权值矩阵需要准确地反映文本关系图中各个节点间的相似程度,它影响着分割准则的分割效果。文中从语义的角度计算节点间的相似度,完成权值矩阵的构建,并在此基础上提出基于归一化割的主题划分算法,并验证了该算法在主题划分中的有效性。然后,本文基于同一领域内的学术文献资源,提出术语定义句子抽取算法。该算法首先对学术文献中句子进行硬匹配,生成候选术语定义句库,然后结合定义隶属度算法和句子重要度排序算法,进一步提升抽取术语定义句子的准确性。实验表明本文算法的效果表现良好。接着,将主题划分算法及术语定义抽取算法融入抽取系统中。首先针对学术文献资源在规模上变大的问题,本文借助潜在语义分析模型构建文本关系图,并用于主题划分模块,然后结合术语定义抽取模块,构建知识元抽取系统,最终完成知识元属性-内容描述的抽取工作。同时,本文在抽取到该属性的基础上介绍了知识元其它属性的抽取思想。最后,本文对研究工作进行总结,并提出了展望。