论文部分内容阅读
北京大学网络与信息系统研究所开发的大学课程在线(http://realcourse.grids.cn)为学习者和教师提供了一个良好的课程交流平台。但是,realcourse课程在线的学习资源缺乏丰富的元数据描述,目前只能提供最简单的按课程名关键码的检索。为此,我们有必要为学习资源提供更高效的检索服务支持。
语义检索的基础是高质量的语义标注。本文采用语义web方法、利用领域本体对学习资源进行组织,同时利用数据挖掘方法对课件涉及的知识点和关键词进行发现、提取和概念标注,上述工作是建立高效推理检索的重要基础。
在DLOnto的《中国分类主题词表》本体基础之上,结合《中国计算机科学与技术学科教程2001》,本文定义了计算机专业领域本体CompOnto。该本体利用标准本体语言OWL对计算机专业学习资源的属性和联系进行定义,得到了一个学习资源所涉及的领域和知识点的语义概念级组织和表示。同时,参考学习对象元数据模型(LOM)对各类学习资源定义了一套标准化的、层次化的以及互操作的元数据描述规范,以便提供多种粒度和多种手段的检索方式。
本系统为每篇文档自动挖掘出一组主题概念和一组能反映其主要特征的关键词组,作为该资源的重要描述元数据,并对之进行索引。
文档的主题概念既要和文档内容有相当的联系,又应具备一定的归纳能力。为此,本系统的概念选取算法采用六个基本参数——概念的S-频度、概念的T-频度和概念归纳度、概念的S-分散度、概念的T-分散度和概念的分散归纳度,来综合考察一个概念被选取为文档主题概念的可能性。
对于关键词组提取,我们将决策树学习方法C4.5和词共现分析算法相结合,并对之进行改进,设计并实现了符合realcourse资源特点的关键词提取算法。基于统计的词共现分析算法先按词频提取出频繁词集G,然后计算文档中每个候选词与频繁词的共现分布情况,该共现分布情况能够反映该候选词在文档中的重要程度:如果在共现分布中候选词a与G的某个特定子集呈现较大偏置,则a就是文档关键词。这里偏置度用x2检验来计算。接下来,对词共现分析得到的候选关键词集建立训练集,用C4.5算法对之进行学习,得到更符合需求的关键词提取规则。经实验验证,本算法效果良好。
目前,realcourse标注系统能够有效地运转,标注的准确性达到了预期的设计目的。以后我们会从计算文档关联度、自然语言处理、查询结果语义排级等方面做进一步的改善。