论文部分内容阅读
互联网的迅猛发展,带来了大量非结构化、异构化的数据,互联网环境下相同领域中不同的知识概念间存在着多种关系,但是这些无序化的知识概念数据相互杂糅在一起,给学习者快速而又全面的了解与学习领域知识带来了困难,同时也给构造互联网领域知识的应用带来了挑战。目前关于领域知识的研究大多集中于上下位关系、等同关系等关系的研究。然而领域知识间的演化关系对于学习者学习和理解领域知识,梳理领域知识的前序和后续逻辑关系具有重要意义。就目前的研究所阅读的文献而言,暂未发现针对这一方面的研究。因此,针对领域知识的演化关系抽取具有重要的研究意义与实用价值。本文对Web环境下的领域知识演化关系抽取开展了以下工作:第一,针对Web数据的特殊性,利用词频统计与人工挑选的方法构建特征词词典,为Web数据进行文本分类提供前提;第二,在构建特征词词典的基础上,提出一种基于特征词的Web领域知识文本分类方法。实验表明该方法具有良好的准确率与召回率,能有效的从Web数据中分类出含有领域知识的数据,为面向Web的领域知识演化关系抽取研究奠定基础;第三,提出演化关系的定义,根据定义建立了领域知识演化关系推理模型,为不同结构、不同语义的领域知识关系表达建立准确的句法分析机制,利用知识概念之间的语义角色关系设计领域知识演化关系模式;第四,在定义与推理模型的研究基础上,提出了基于条件随机场(Conditional Random Fields,CRF)模型的领域知识演化关系抽取方法,对于不同的演化关系模式,建立了统一的演化关系抽取理论模型。实验表明,该方法较同类关系抽取模型具有更好的实验性能,能有效地发现领域知识之间的演化关系;最后,在前面的研究基础上,将演化关系抽取的结果应用在“机器学习”领域,设计并绘制了一个“机器学习”领域知识图谱,该图谱能够有效挖掘领域学科下知识集合的演化体系,识别重难点知识,清晰明了的展示“机器学习”领域中具有演化关系的领域知识,给学习者学习与了解“机器学习”领域提供支撑,对学科建设以及相关课程教学可能具有一定的参考价值。