Wiki百科全书中非父子语义关系抽取研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wlh0089
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本体(Ontology)是语义web的核心,它是对概念的规范化,是对概念及其之间关系的描述。本体学习(ontology learning)是产生本体的一种手段,它是从目前不含显式语义信息的资源中对本体的学习和抽取。由于手工标注本体的诸多缺点,使得本体学习成为更为重要和受关注的手段。目前,本体中概念以及其父子关系的学习已经有一定的研究成果,但对于非父子关系(non-taxonomic relations)的学习和抽取却一直进展不大,这使得目前大部分存在的本体仅仅是一个概念及概念间的父子层次结构,而很少含有非父子层次的关系,即我们一般意义上理解的关系。作为万维网发展的趋势,目前的万维网中由用户共同标注或生成的网络资源越来越多。由于是由全体用户集体来构建,使得这类网络资源天然具有一些非常好的特征。例如,资源的全面性和正确性。wiki百科全书(www.wikipedia.org)是它们中的典型代表。由于wiki语法的简易性和开放性使得普通用户也能够很容易的掌握其编辑技巧,因而在广大用户中有很大的影响,目前的wikipedia已经有超过1,500,000个文档,对应着超过一百万的实体描述,并且这些文档都具有非常好的结构特征和语言特征。
其他文献
进行眼睛视力矫正的技术主要有准分子激光手术和人工晶体植入手术,人工晶体植入手术按照植入的位置可以分为前房型人工晶体(anterior chamber intraocular lens, AC-IOL)植入
访问控制机制的主要目的在于阻止信息和数字资源的非法访问。从二十世纪六十年代到二十世纪九十年代,有三个主要的访问控制模型用于保护数字资源和信息免于未经授权用户的威胁
随着Linux操作系统在嵌入式平台的广泛应用,一方面Linux被移植到越来越多的平台,另一方面Linux上的应用越来越丰富。SH7751R开发板是Renesas公司开发的32位高性能处理器平台,
Internet自诞生以来不断成长,尤其是最近几年更是得到长足发展,功能不断扩展,信息容量呈爆炸性趋势增长,然而在信息极大丰富的同时,用户也面临着信息过载和资源迷向的问题。Intern
随着计算机网络技术的飞速发展,计算机网络在现代生活中的重要性正不断加强。但随之而来的计算机网络攻击也不断增加,顺应这一趋势,涌现出了许多的网络安全技术,如网络防火墙、病
云计算的高速发展趋势,得益于数据中心能够提供高性能的计算能力和存储能力作为支撑。数据中心将虚拟化后的资源租用给用户以便让用户构建自己的集群计算设施并在该设施上运行
结构化P2P网络现在变得非常流行。然而,当结点加入或退出时,整个网络需要重新组织。为了减小由于网络重组造成的性能降低,我们提出一种上层为Chord下层为群的两层混合P2P网络
移动通信从20世纪80年代进入公众民用通信领域至今,底层通信技术的不断进步和网络架构的逐渐成熟使得移动通信的传统业务需求得到了满足。区别于传统需求的移动通信的其他需
网格(Grid),又称为虚拟计算环境,是近年来兴起的一种重要的网络信息技术,它的出现是为了实现更全面的资源共享。随着开放网格服务体系结构OGSA(Open Grid Services Architecture
延迟容忍传感器网络是近年来新兴的一种无线网络形式,是移动传感器网络和延迟容忍网络的相互融合的结果,具有网络数据传输延迟、错误容忍的特点,可以被广泛应用在车联网、水下数