论文部分内容阅读
随着科技文献数量的爆炸式增长,如何在浩瀚的检索资源中精确定位自己所需要的知识变得尤为重要。传统的以文献为单位的知识组织方式,主要是从篇名、主题、作者、关键字、参考文献等外部特征进行研究,或者对单篇文献中的知识对象和语义关系进行文本揭示,缺乏对相同主题文献间内容的深度挖掘与组织,导致科技文献内容知识大多仍以“游离态”存在,知识间缺乏协作,难以生成跨文献的知识簇和知识链。本文针对所存在的问题,在借鉴现有有益研究成果的基础上,提出了基于内容地图的科技文献内容深度揭示方法,该方法以科技文献为主要研究对象,通过文本挖掘技术对科技文献集中的文本片段内容进行核心知识对象及其之间的语义关系进行提取,构建多篇科技文献内容地图,并基于内容地图来实现文献内容知识的细粒度描述、多维度聚合。整个研究包括三个关键问题:(1)如何从科技文献中提取符合研究所需的核心知识对象及其之间的关系:(2)如何将提取得到的核心知识对象和关系利用图结构进行表示;(3)如何借助内容地图实现科技文献内容知识的深度揭示和多维聚合。论文针对这三个关键问题,做了以下三方面的研究:(1)在将原始文本数据集进行丰富化处理后,设计了基于领域词典的文献知识对象及其关系提取方法;(2)考虑语义集合与语义子集合中知识对象的关系强度,提出了知识对象重要度计算公式,并基于此公式进行知识对象排序和语义子集合的提取,来构建科技文献内容地图;(3)提取基于内容地图的“向下揭示,向上聚合”的科技文献内容深度揭示方法,借助已构建的多篇科技文献内容地图,在平面空间和立体空间生成跨文献的知识簇和知识链,并实现文献知识间的推理,从知识对象、语义关系、知识单元及统计等维度,实现科技文献内容知识的深度聚合。论文选取PubMed数据库中“Ebo1a”主题相关的172篇文献构建文本集,选用其标题和摘要作为原始数据集,对整个研究提出的方法开展有效性实验。通过将本文方法得到的实验结果与广泛使用的LDA方法、Louvain算法得到的结果进行对比分析,以及将本文方法聚合结果与原文献内容进行回溯对比分析,结果表明本文提出的方法能够将科技文献的知识组织方式由文献外部特征深入到其内部特征,能够对科技文献内容知识进行深度揭示,可以实现科技文献内容知识的细粒度描述和多维度聚合。