基于文本挖掘的Topic Maps自动构建方法研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:hghg2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅速发展带来了丰富而庞杂的信息。传统知识组织方式在应对数字化信息环境中类型多样、存在方式各异的信息时,往往显得力不从心。Topic Maps作为一种新的知识组织方式由此应运而生,其通过富有表现力的数据结构,直观自然的知识建模方式、由数据驱动的灵活的模式、简单而系列化的数据格式、明确的合并规则等,迅速成为互联网知识组织的主流技术之一。   TopicMaps提出了一种基于主题的元数据组织和描述方法,借助主题(Topic)、联系(Association)和资源指引(Occurrence)三要素提供语义级的数据导航和资源组织方式。但是研究发现,在构建Topic Maps的过程中,构建者面临着诸多问题,如内容的概念化和分类,主题的识别与标识以及主题间关系的发现与表征等。TopicMaps的构建者必须要处理大量复杂的知识体系中形式各异的知识,概念或角色。从这一角度出发,借鉴文本挖掘能从大量非结构化的文本中发现潜在的概念以及概念间的相互关系的特性,本文提出了基于文本挖掘的Topic Maps自动构建方案。   以学前教育领域为例,基于文本挖掘的Topic Maps自动构建方案首先提出一种简洁而高效的术语抽取方法,从领域文档中抽取出作为领域表征的术语词。在此基础上,综合考虑语义语法和统计学的特征对抽取出的术语进行词聚类,构建出以术语簇的形式表征的主题;通过文档与表征主题的术语簇相似度的计算,进行文档与主题的匹配,形成资源与主题的映射,最终形成领域的主题地图。学前教育领域的实验充分考虑到中文语料的特性,初步验证了基于文本挖掘的Topic Maps自动构建方案的有效性,实现了学前教育领域知识结构的自动化客观表征。
其他文献
社交媒体语境下,传统新闻业的专业权威正在面临新的挑战,这在风险议题中表现得尤为强烈。本研究通过分析《人民日报》《南方都市报》对于P×风险议题的报道,发现传统媒体专业
信息技术学科是一门集信息科学常识和常用信息技术于一体的综合型课程,其内容的广泛性和实用性都是其他学科难以相比的,而且信息技术具有明显的时代特征。从计算机诞生之日起
宽恕是指人际侵犯发生之后,被侵犯的一方由消极反应向积极反应转化的心理活动过程。受害者的社会认知、共情、人格特质、人口学与文化变量,侵犯者的态度及道歉,侵犯者与受害
教育不平等是我国教育改革进程中出现的一个大问题,教育差距的不断拉大成了和谐社会进程中的最不和谐音。教育发展不均衡主要是教育资源配置的不均衡。我国义务教育财力资源的
计算机在各行各业中的使用已日进常态化,计算机的熟练操作,办公软件的灵活运用已经成为大学生步入职场的必备技能。《计算机应用基础》课程旨在提高学习者对计算机的认知,是学习
职业妥协一直在职业决策中扮演着重要的作用。本文概述了研究者们的相关研究,着重介绍了Gottfredson和Gati的理论及其发展过程。在此基础上,本研对职业妥协进行了两部分实证