论文部分内容阅读
互联网的迅速发展带来了丰富而庞杂的信息。传统知识组织方式在应对数字化信息环境中类型多样、存在方式各异的信息时,往往显得力不从心。Topic Maps作为一种新的知识组织方式由此应运而生,其通过富有表现力的数据结构,直观自然的知识建模方式、由数据驱动的灵活的模式、简单而系列化的数据格式、明确的合并规则等,迅速成为互联网知识组织的主流技术之一。
TopicMaps提出了一种基于主题的元数据组织和描述方法,借助主题(Topic)、联系(Association)和资源指引(Occurrence)三要素提供语义级的数据导航和资源组织方式。但是研究发现,在构建Topic Maps的过程中,构建者面临着诸多问题,如内容的概念化和分类,主题的识别与标识以及主题间关系的发现与表征等。TopicMaps的构建者必须要处理大量复杂的知识体系中形式各异的知识,概念或角色。从这一角度出发,借鉴文本挖掘能从大量非结构化的文本中发现潜在的概念以及概念间的相互关系的特性,本文提出了基于文本挖掘的Topic Maps自动构建方案。
以学前教育领域为例,基于文本挖掘的Topic Maps自动构建方案首先提出一种简洁而高效的术语抽取方法,从领域文档中抽取出作为领域表征的术语词。在此基础上,综合考虑语义语法和统计学的特征对抽取出的术语进行词聚类,构建出以术语簇的形式表征的主题;通过文档与表征主题的术语簇相似度的计算,进行文档与主题的匹配,形成资源与主题的映射,最终形成领域的主题地图。学前教育领域的实验充分考虑到中文语料的特性,初步验证了基于文本挖掘的Topic Maps自动构建方案的有效性,实现了学前教育领域知识结构的自动化客观表征。