论文部分内容阅读
本文从网络社区用户知识交流特征出发,提出一种用户需求的知识聚合方案。网络社区知识组织的主要依据是用户交流内容中的主题及其对应的领域概念关联。因此网络社区知识聚合的核心是构建面向特定领域的概念关联体系。传统知识组织体系不能很好地满足网络社区中的知识聚合需求,因此本文研究的重点为通过融合已有的领域背景知识体系和基于UGC内容挖掘生成的知识关联体系,构建领域多元概念关联体系;以此为支撑实现面向网络社区的多维知识聚合。第一章研究网络社区知识聚合的模式问题。首先,在分析网络社区用户交流特征的基础上讨论了其知识聚合需求,在回顾网络社区知识聚合发展路径的基础上,重点探讨了概念知识关联的特征与形式,以此为基础提出了网络社区知识聚合的模式。第二章以领域知识分析为视角,讨论基于领域概念关联的网络社区知识聚合模型构建问题。在引入领域知识分析视角的基础上,进一步讨论了以领域知识为背景的领域概念关联的特征,及其在知识组织中的作用机制。在此基础上,提出了包括领域多元概念关联体系构建流程和基于概念关联的网络社区知识聚合实现方案在内的总体模型。第三章研究领域结构化概念关联体系的构建。通用性和专业性的结构化知识组织体系(分类法、主题词表、本体、主题图等)为构建面向特定领域的结构化概念关联体系提供了基础,因此从已有的结构化概念关联体系中提取领域概念单元、合并概念关联是最直接的方案。另一方面,大多数领域都缺乏可利用的有针对性的结构化知识组织体系,因此从其他资源途径获取领域概念单元和概念关联有其必要性。本文讨论了基于用户用词领域概念单元抽取、基于资源内容挖掘的领域概念单元抽取、基于资源挖掘的领域概念关联识别等问题;并进一步阐述了如何将这些从其他资源途径获取的领域概念关联体系基本元素与已有的概念关联体系进行合并,包括概念映射和标准化、概念关联合并等问题。领域结构化概念关联体系的形式化是后续知识利用的基础,通过对比SKOS和OWL 2两种语言对概念关联体系的表述细节,本文选定基于OWL 2语言的领域结构化概念关联体系形式化方案。为了检验上述思考和方案的有效性,本文开展了基于主题词表和百科内容挖掘的心血管领域结构化概念关联体系构建实验。第四章研究领域共现型概念关联体系的构建,其思路是从网络社区用户交流内容中挖掘概念关联。文本图模型为概念单元在用户交流内容中的共现关系表示提供了理论基础,通过探讨基于文本图模型的领域概念共现网络构建流程,本文将领域共现型概念关联体系划分为两大阶段。其一是由用户交流文本集向概念共现关系矩阵转化,核心步骤包括文本集构建、中文切分词与同义词合并、领域术语识别、概念共现关系提取与共现矩阵构建;其二是概念共现关系矩阵向概念共现网络的转化,核心步骤包括概念共现关系强度的标准化、概念相似度计算、基于相似度的概念关联边强度映射和概念共现网络生成。根据上述思路和方案,本文以著名的医学社区丁香园为例,选定其中影响力较大的心血管论坛作为对象,构建了基于用户交流内容挖掘的心血管领域共现型概念关联体系。第五章研究领域多元概念关联体系的融合。本部分研究开展的前提是探讨结构化概念关联体系和共现型概念关联体系融合的机理,在对两者优劣势分析的基础上可提出基于优势互补的融合原则,并制定将结构化概念关联体系中的概念内涵、概念和关联类型、层次组织结构赋予共现型概念关联体系的融合方案。融合方案的实现主要体现为体系间元素映射,包括概念术语映射和语义关系映射,在语义映射部分重点探讨了语义相似度融合方案和细粒度关系发现两个问题。此后,通过对多元概念关联体系融合后的数据关系进行梳理,确立了基于关系数据模型的多元概念关联体系形式化方案。在实验部分,对前文已构建的心血管领域结构化概念关联体系和共现型概念关联体系进行了融合。第六章研究基于多元概念关联体系的网络社区知识聚合实现问题。在探讨了多元概念关联体系对网络社区知识聚合作用机制的基础上,本部分提出了以知识单元粒度和知识聚合形式为维度的多维知识聚合模式。此后,分别对不同知识单元粒度的知识类聚和知识共聚方案和实现方法进行了探讨。知识共聚方案是本文有别于传统知识聚合形式的创新点,以概念单元的多维度和细粒度关联为支撑,可实现网络社区分面检索与导航、主题多维推荐、知识元链接体系构建和资源关联发现等功能。在实验部分,专门针对丁香园心血管论坛的知识聚合方案实现进行了实验。