基于语义网的初中数学的自动语义标注方法研究与实现

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:langfenggw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网作为人们日常生活中不可或缺的资源,它的发展速度快得超乎人们的想象。呈指数级增长的网页同时意味着不断膨胀的海量数据,而蕴含其中有价值的信息却不容易被机器发现,人们在使用和管理互联网的过程中显得有些力不从心。为了使这些文档能够被计算机挖掘出语义信息,为web应用提供更为准确的服务,这些现实需求和语义网不谋而合。语义标注是语义网发展的重要技术支撑,该技术为现存互联网中海量文档贴上语义标签。凭借特定的领域本体为网页文档增加语义信息,即发布网页文档的语义信息就是语义标注。本文主要研究语义标注,主要内容内容如下:首先,本文是为中文网页的初中数学领域文档做标注,介绍了语义标注所需的技术的发展现状,包括语义网技术、中文分词技术以及语义标注等相关理论及技术等。其次,提出了一种基于本体距离的分类方法,通过计算文档的语义聚合度来选标注文档。将网页转化为结构化文档之后,通过中文分词,将结构化文档转化为词汇文档,利用初中数学知识本体网络图计算词汇文档中专有词汇之间(此处和后面提及的专有词汇均指初中数学专业词汇)的本体距离,当词汇之间的本体距离在某个阈值之内时将这两个词汇视为同一类,将这些专有词汇归类之后,计算前k类词汇集合占整个词汇文档的比重,即语义聚合度,聚合度较高的认为是初中数学主题相关的网页,如果聚合度低则丢弃文档。再次,提出了一种基于本体前驱累计统计算法,抽取文档的深层语义,将提取出来的语义信息作为标注添加到结构化文档中。在筛选出待标注文档之后,对词汇文档中的专有词汇做前驱累计统计,计算出文档中所有专有词汇的词频,通过特定算法选出专有词汇作为语义标注信息,以节点的形式添加到原结构化文档中,最终实现了文档的自动语义标注。最后,实现了一个用于标注初中数学的中文网页的自动语义标注系统,在上述算法的基础之上实现了该系统的核心模块--自动语义标注模块和系统其他功能模块,并对比了标注前后带来的效果和优势。
其他文献
“当官不为民做主、不如回家卖红薯”说的是明朝嘉靖年间.保定府清苑县知县唐成以小小七品知县的身份.与当朝一品大奸臣严嵩作斗争的故事。唐成不畏权贵,凭着自己的勇气、智慧.历
自担任阜阳市人大代表以来,我一直加强学习,积极调研,撰写议案、建议时力求真实反映社情民意、群众呼声,尤其关注教育事业的发展。
基坑支护结构与主体结构相结合与传统的深基坑工程实施方法相比,具有利于环境保护、节约工程造价、缩短建设周期等优点。本文介绍澳门氹仔成都街地下停车场基坑的中心岛顺作—
8月23日,省人大代表视察民生工程实施情况动员会在省人大机关召开。会议听取了省财政厅关于全省民生工程实施情况的汇报,部署视察活动安排。省人大常委会副主任郭万清作动员讲
作为革命老区的金寨县,近几年农村公路建设发展迅速,各乡村都铺设了水泥路或柏油路.大大方便了村民的出行。但由于一些省际公路因建设标准低、使用年限长以致损毁严重.对乡镇经济
介绍用MCS-96系列单片机构成的在线误码仪中固化的控制程序,利用CPU的可程控的中断挂号和屏蔽机制实现高效的进程调度,介绍了数据处理中的若干瓿,提出的“四点二次插值”算法比普通的三点
2015—2016年4个季节,采用样线法和样点法结合调查鸟类并基于遥感信息分析生境结构,研究了大山包自然保护区9个1 km~2样点鸟类多样性及其与生境的关系。结果表明:大山包共有
砀山县人民法院以科学发展观为指导,紧紧围绕社会矛盾化解、社会管理创新、公正廉洁执法三项重点工作和“为大局服务、为人民司法”的工作主题,认真履行宪法和法律赋予的职责,全
风机是矿山开采活动中重要的生产辅助设备,用于排出采矿过程中产生的有毒、有害气体,保证矿工的身体健康与生命安全。风机的运行环境复杂,易发生电化学反应和摩擦侵蚀,从而加