基于Ontology的real-course课件标注子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:whfork
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
北京大学网络与信息系统研究所开发的大学课程在线(http://realcourse.grids.cn)为学习者和教师提供了一个良好的课程交流平台。但是,realcourse课程在线的学习资源缺乏丰富的元数据描述,目前只能提供最简单的按课程名关键码的检索。为此,我们有必要为学习资源提供更高效的检索服务支持。 语义检索的基础是高质量的语义标注。本文采用语义web方法、利用领域本体对学习资源进行组织,同时利用数据挖掘方法对课件涉及的知识点和关键词进行发现、提取和概念标注,上述工作是建立高效推理检索的重要基础。 在DLOnto的《中国分类主题词表》本体基础之上,结合《中国计算机科学与技术学科教程2001》,本文定义了计算机专业领域本体CompOnto。该本体利用标准本体语言OWL对计算机专业学习资源的属性和联系进行定义,得到了一个学习资源所涉及的领域和知识点的语义概念级组织和表示。同时,参考学习对象元数据模型(LOM)对各类学习资源定义了一套标准化的、层次化的以及互操作的元数据描述规范,以便提供多种粒度和多种手段的检索方式。 本系统为每篇文档自动挖掘出一组主题概念和一组能反映其主要特征的关键词组,作为该资源的重要描述元数据,并对之进行索引。 文档的主题概念既要和文档内容有相当的联系,又应具备一定的归纳能力。为此,本系统的概念选取算法采用六个基本参数——概念的S-频度、概念的T-频度和概念归纳度、概念的S-分散度、概念的T-分散度和概念的分散归纳度,来综合考察一个概念被选取为文档主题概念的可能性。 对于关键词组提取,我们将决策树学习方法C4.5和词共现分析算法相结合,并对之进行改进,设计并实现了符合realcourse资源特点的关键词提取算法。基于统计的词共现分析算法先按词频提取出频繁词集G,然后计算文档中每个候选词与频繁词的共现分布情况,该共现分布情况能够反映该候选词在文档中的重要程度:如果在共现分布中候选词a与G的某个特定子集呈现较大偏置,则a就是文档关键词。这里偏置度用x2检验来计算。接下来,对词共现分析得到的候选关键词集建立训练集,用C4.5算法对之进行学习,得到更符合需求的关键词提取规则。经实验验证,本算法效果良好。 目前,realcourse标注系统能够有效地运转,标注的准确性达到了预期的设计目的。以后我们会从计算文档关联度、自然语言处理、查询结果语义排级等方面做进一步的改善。
其他文献
外存模型的简化在很多实际应用中有着非常重要的意义,因此外存模型的简化算法是当前计算机图形学的一个研究热点。本文针对外存模型简化算法的优化进行了如下研究工作: 第
协作学习是一种在国际上比较流行、比较有效的教学策略,而且网络环境的特定优势更加有利于开展协作学习活动。但是我们通过研究发现,在网络环境下开展协作学习活动,目前的网络教
知识管理系统是实现知识管理的系统平台,是一个以能够实现知识共享、知识发现、促进知识创新以及有效支持决策为主要目标的人机互动的计算机网络应用系统。企业知识管理对企业
随着计算机网络技术的飞速发展,人们对Internet的应用日趋广泛与深入,与此同时,与Internet有关的安全事件也愈来愈多,安全问题日益突出。其中,拒绝服务(DoS)攻击以其易于展开
如何利用Agent技术和机器学习理论构建动态议价模型,模拟现实经济生活中最为普遍的经济现象,在更为深入的层面上揭示人类议价行为的一般规律一直是经济和计算机研究者在跨学科
  Internet由IPv4过渡到IPv6是一个循序渐进的过程。在过渡初期势必会存在一些孤立的IPv6网络与大量的IPv4网络共存于Internet之中,为了使这些孤立的IPv6网络能够互相通信,并
本文首先回顾了电子商务模式的变迁和发展,指出动态电子商务是电子商务发展的目标,而Web服务是动态电子商务的核心技术,也是Web的下一个革新。随后详细分析了Web服务的体系结构
工作流技术广泛应用于企业应用集成。Web服务的出现引领了电子商务的变革,随着互联网的发展以及跨企业间协作的需要,新一代的工作流系统需要Web服务技术的支持,来加强应用资
现代机构(企业)的结构有从面向功能的金字塔型组织结构转向面向过程的网络化的组织结构的趋势,这一趋势对机构(企业)的管理手段提出了更高的要求,机构(企业)的各个功能模块之间
计算机技术已经在高校信息管理工作中得到广泛地应用,各种管理信息系统和办公自动化系统经过多年的使用,积累了大量的数据信息。数据仓库作为新型的数据库管理技术,可以更加有效