基于中文维基百科的全文语义标注系统

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhoulei1964
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网将各种信息提供给人们的同时,海量的信息又使人们很难迅速而准确地获取自己最需要的信息。这是因为计算机不能理解目前网页内容的语义且各种信息缺乏组织。语义网技术通过语义标注的方法将现有的互联网资源通过统一的语义将其组织起来,成为可以被机器所理解的信息。维基百科是一个基于Wiki技术由全世界的人们共同协作编辑完成的多语言百科全书,常被认为是一个含有丰富语义关系且具有固定模板的语料库。利用中文维基百科中词条之间的语义链接,结合TF-IDF和Google距离的方法从链接权重和共现两个角度可以提取出较为准确的语义知识。文档中词语之间的语义联系不仅仅是在其相邻的词语之间,在不同段落的词语同样也会有关联。因而,忽略掉文档原有的结构,文档可以看作是每个词都相互关联的词的集合。基于条件随机场模型设计出符合全文语义标注的点特征函数和边特征函数以及模型推理方法,在中文维基百科中获取的语义知识的基础上,完成中文文档的全文语义标注。实验表明,结合TF-IDF和Google距离的方法计算出来的词语之间的语义相关度精确度达到85%以上,对一般和较低的语义相关度的词语之间的精确度达到95%,使用基于中文维基百科的语义标注系统可以准确标注具有多领域语义的词语。
其他文献
随着语义Web的发展,RDF数据量不断增长,浏览语义Web数据的需求变得越来越迫切。许多国外的研究机构开展了面向语义Web浏览的研究,并推出了一些有影响力的系统和工具。   然而
为了满足呈爆炸式增长的信息存储、处理、传输的需求,大规模数据中心应运而生。在大规模数据中心里,根据经典的80/20原理,将数据都存储在高性能设备上是不经济的,为了实现资源的
语义搜索(SemanticSearch)是一种将语义Web技术与搜索系统相结合以提高搜索效果的技术。学术语义搜索系统是以特定领域的实体作为搜索对象的语义搜索系统,使用具有明确含义的
LZ77算法,又被称为“滑动窗口压缩”,它依赖两个滑动窗口来进行压缩,一个窗口包含已输入数据流,称为字典窗口DW(dictionary window);另一个窗口包含待压缩编码的字符串,即待编码窗
仿射算术作为一种可靠的数值计算模型,已经广泛应用于计算机图形学和计算机辅助几何设计中。例如,隐式曲面的绘制和参数曲面求交问题,都可以利用仿射算术予以解决。然而,串行
随着伺服控制技术的发展,伺服双轴同步运动在多个领域有越来越广泛的应用。同时伴随着数字信号处理器的性能发展,推动伺服控制往高精度、高智能化和全数字化方向发展,对伺服双轴
随着在线视频行业的发展,视频行业的广告收入也一直保持着良好的增长势头。目前在线视频广告系统由于广告投放内容随机导致广告与视频内容的相关性较差、广告投放时机固定导致
随着互联网飞速的发展,网络信息量不断增加,为提高实时检索的效率,需要一种快速的索引方法。就搜索引擎而言,对大规模文本构建索引涉及较大的数据量和计算量,会消耗大量计算资源,如
随着云计算技术的飞速发展,很多互联网服务商都推出了自己的云平台。云平台中的基础设施满足用户的虚拟机使用请求,对虚拟机分配资源并进行调度。现有云平台中的虚拟机调度模块
随着嵌入式系统应用的日益广泛,嵌入式应用系统所包含的功能也越来越多,且嵌入式应用系统的更新换代的周期越来越短。这导致了嵌入式应用系统巨大的设计与开发压力,要求进行软、