论文部分内容阅读
互联网作为人们日常生活中不可或缺的资源,它的发展速度快得超乎人们的想象。呈指数级增长的网页同时意味着不断膨胀的海量数据,而蕴含其中有价值的信息却不容易被机器发现,人们在使用和管理互联网的过程中显得有些力不从心。为了使这些文档能够被计算机挖掘出语义信息,为web应用提供更为准确的服务,这些现实需求和语义网不谋而合。语义标注是语义网发展的重要技术支撑,该技术为现存互联网中海量文档贴上语义标签。凭借特定的领域本体为网页文档增加语义信息,即发布网页文档的语义信息就是语义标注。本文主要研究语义标注,主要内容内容如下:首先,本文是为中文网页的初中数学领域文档做标注,介绍了语义标注所需的技术的发展现状,包括语义网技术、中文分词技术以及语义标注等相关理论及技术等。其次,提出了一种基于本体距离的分类方法,通过计算文档的语义聚合度来选标注文档。将网页转化为结构化文档之后,通过中文分词,将结构化文档转化为词汇文档,利用初中数学知识本体网络图计算词汇文档中专有词汇之间(此处和后面提及的专有词汇均指初中数学专业词汇)的本体距离,当词汇之间的本体距离在某个阈值之内时将这两个词汇视为同一类,将这些专有词汇归类之后,计算前k类词汇集合占整个词汇文档的比重,即语义聚合度,聚合度较高的认为是初中数学主题相关的网页,如果聚合度低则丢弃文档。再次,提出了一种基于本体前驱累计统计算法,抽取文档的深层语义,将提取出来的语义信息作为标注添加到结构化文档中。在筛选出待标注文档之后,对词汇文档中的专有词汇做前驱累计统计,计算出文档中所有专有词汇的词频,通过特定算法选出专有词汇作为语义标注信息,以节点的形式添加到原结构化文档中,最终实现了文档的自动语义标注。最后,实现了一个用于标注初中数学的中文网页的自动语义标注系统,在上述算法的基础之上实现了该系统的核心模块--自动语义标注模块和系统其他功能模块,并对比了标注前后带来的效果和优势。