中文维基百科的结构化信息抽取及词语相关度计算

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:FollowMyHeart88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高计算机的智能化程度,在自然语言处理的过程中,加入语义知识的理解是非常必要的。随着日益增长的信息处理需求,如何从海量的语料资源中自动地获取丰富的语义知识,以及如何有效地利用这些语义知识来实现对文本语义的理解,已成为一个重要的研究课题。维基百科作为一个以开放和用户协作编辑为特点的Web 2.0知识系统,具有知识面覆盖度广,结构化程度高,信息更新速度快等优点,其中蕴涵有丰富的语义知识,是目前众多学者进行语义知识抽取所青睐的语料数据资源。然而,维基百科的官方仅提供一些半结构化的基本数据文件的备份,很多有用的结构化信息和数据,并不能直接地获取和使用。为此,本文首先从这些半结构化的基本数据中抽取整理出多种结构化信息;接着,对维基百科的知识组织形式进行了抽象架构,实现了一套开放的API接口,减轻了用户从中获取结构化信息的难度;最后,利用这些信息数据,本文提出了一种新的计算词语间语义相关度的算法。因此,本文的主要工作包含以下几个方面:第一,结构化信息的抽取。首先从维基百科官方网站下载了所需的备份数据资源;接着,先把备份数据文本中的繁体字全部转换为简体,再从中抽取整理出条目间内链接信息,分类系统,锚文本数据等多种结构化信息;然后,把这些信息全部存储到数据库中,并对重要的字段建立了索引。第二,对维基百科知识组织形式的抽象架构。首先分析了维基百科中条目的不同作用,进而把所有的条目分为六种类型;然后,针对每种类型的条目,总结并实现了获取其相应的结构化信息的方法;最终,实现了一套开放的API接口,方便了用户更直观地了解和使用这些结构化信息。第三,提出了一种新的计算词语间语义相关度的算法。在对比总结人工语义知识库与维基百科异同点的基础上,借鉴传统算法的优点,结合中文维基百科数据的自身特点,提出了一种新的计算词语间语义相关度的算法,该算法综合利用条目间内链接,锚文本和分类系统三种结构化信息,并通过核函数的思想,融合了分类间的语义知识。在实验部分,本文在不同的数据集上对比了本文算法与其他经典算法的计算结果,最终证明了本文算法的有效性。
其他文献
随着信息技术的发展和广泛应用,人们对计算机系统数据存储能力的要求也越来越高。存储系统面临的问题主要包括:数据存储的地域空间范围更加宽广;数据量成指数级增长;数据传输速度
近年来嵌入式系统中软件规模与复杂度的迅速增长给高质量系统的设计、验证与维护带来许多重要挑战,传统的基于代码的测试与分析技术方法已经不能满足一些安全关键领域中的嵌入
畜牧疫情一直是畜牧业生产上的重要灾害,一直是制约畜牧业高产,优质,高效可持续发展的主导因素之一。随着我国经济建设的不断发展,畜牧业已经成为我国农业经济中的支柱产业,
随着移动通信技术的高速发展,手机用户的数量在飞速膨胀,由于手机短信使用简单、快捷、费用低廉,已经成为日常生活中不可或缺的通信方式之一。然而,低廉的传输代价,使得我们
随着云服务的应用领域越来越广,基于虚拟化技术的服务器集群规模越来越大,这对集群的资源调度提出了新的挑战。在大规模的虚拟化集群中,虚拟机的数量和负载会随应用的需求而经常
随着软件开发技术和测试技术的发展,仅仅依靠以密集劳动为特征的传统手工测试,已经不能满足快节奏软件开发和测试的需求,在测试中引入自动化测试技术已经成为共识。论文简要介绍
The emergence of mobile computing provides the ability to access information almost anywhere and anytime. Mobility and the remote access to information is quick
随着信息技术的迅猛发展,各种网络攻击已是非常普遍的现象。数据安全和通信安全也越来越受到人们的关注,如何在保证性能一定的情况下,还能提供完善的安全服务已经成为了炙手可热
粗糙集理论是波兰科学家Pawlak提出的一种新型的数学工具,可以处理复杂的不确定系统,在人工智能、数据挖掘、机器学习等领域都取得了较为成功的应用。但是经典的粗糙集理论是基
在当今信息时代,网络已经成为人们获取各种信息的主要渠道。其中,网页是承载这些信息的最主要载体。目前,网页数量已经相当庞大,并且每天都还在增长,网页内容也混杂不堪。为了能够