基于混合核方法的上下位语义抽取

来源 :复旦大学 | 被引量 : 0次 | 上传用户:mxqfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用海量的非结构化数据如Web文本构建知识库,已经成为近年来自然语言处理与机器学习领域的热门研究课题。自动知识库构建需要概念抽取和语义关系抽取两方面工作,概念提取旨在文本中发现名词概念,语义抽取旨在提取名词概念之间的语义关系,上下位关系是名词概念之间的一种重要关系。发掘名词概念之间的上下位语义对于构建语义字典、信息检索等具有重要作用。文本语义抽取一般采用分类模型,对于给定名词对判断其在特定上下文中是否存在语义关系,根据特征空间的不同,又分为基于传统文本特征和基于文本核的分类算法。前者使用例如N-Gram、词频词性等文本特征来描述词对周围的上下文,特征空间较为简单,并且难以刻画文本中较长的语法依赖。文本核能将原始特征映射到扩展后更高维度的希尔伯特特征空间,比以上基于特征的方法更能发掘句子的词法和语法特征。现有的文本核主要分为基于解析树和基于文本子串的核。实验显示,基于文本子串核的语义抽取准确率较高召回率较低,而解析树核则正好相反。随着目标词对之间距离的增大,这两种核的性能均会下降,但前者性能下降得更快。这主要因为当词对间距离增大时,文本子串核可以用作比较的子句变长,因而增大了不同子句之间出现相似词语序列的概率,导致相似度增大,降低了不同词对的区分度。另一方面,解析树核更强调语法解析树结构的相似度,因而对句子长度的增加相对不敏感。但对于解析树结构相似而词语完全不同的两个子句,单独从子树结构出发判断语义相似度显然不尽合理。为解决这些问题,提出一种自适应词对之间距离的混合核来进行上下位语义关系抽取的混合核。首先我们从句子的语法解析树出发,定义一种新的基于子路径的核。与其他解析树核过于依赖语法结构相比,该核加强了对原始词语参与句子成分构成上下位关系的考察。同时考虑到连续单词序列能更好的描述语义信息,我们基于词对的上下文序列定义了一种新的连续子序列核。最后我们使用加权平均方法来对这两种核进行融合。实验结果表明,混合之后的核不但显著提高了上下位语义关系抽取的准确率和召回率,还降低了子句长度对核函数性能的影响。对于概念网络构建,一方面我们需要自动化算法来尽量代替概念网络构建中的人工劳动,使构建的概念网络容易维护且易于更新,另一方面我们需要人工的知识来弥补自动构建中无法达到的部分效果,人工检验抽取出来的概念以及联系是否正确,为抽取出来的概念提供标签,这些标签是无法从文本中直接获取的抽象概念,因此自动构建算法需要与人工知识相结合才能保持准确率且适应大规模数据处理。本文利用已有的概念抽取以及关系抽取算法扩展人工构建的语义概念网络WordNet,在上下位语义抽取算法的基础上,本文设计了新的发掘文本中名词概念和语义关系的系统。该系统旨在结合现有的文本抽取工具和本文提出的新的上下位语义抽取算法,扩充已有的语义词典WordNet。通过该系统可以为语义应用如信息检索、社区问答、智能语音等提供更丰富的语义信息。
其他文献
源代码的复杂度度量和质量控制是软件质量保证体系中的一个重要环节,它面向源代码进行工作,贯穿于软件开发、代码评审、单元测试、集成测试、系统测试、以及软件维护阶段。
中医学以其几千年的深厚积累,在疾病的预防、诊断及治疗上具备了完善的理论体系和丰富的实践经验。中医的望诊能够最直接的了解疾病或健康的状态,在诊断过程中,面色与舌象对内脏
软件版本演化在软件系统的整个生命周期占有重要地位,帮助软件开发维护人员全面理解和把握整个软件产品的演化过程,辅助进行软件维护决策及维护活动实施,对于大规模、复杂软
作为集群的I/O子系统,并行文件系统实现对分布在集群内各节点上的文件、设备和网络资源的全局访问,为集群服务器系统设计一个高性能的并行文件系统是很有必要的。利用主存速
  语音增值业务不仅仅是一个单一的应用、单一的服务,它是一个结合:是数据技术和语音技术的结合、是语音增值业务和数据增值业务的结合、是基础业务和语音增值业务的融合与相
嵌入式系统设计的目标就是在使用最少代价情况下满足所有性能约束,因此设计方法在映射系统功能到相应的软件和硬件之前,必须提供形式化描述系统行为的手段,验证的工作也应该尽
随着IP网络上新应用的不断出现,对IP网络的服务质量(QoS)也提出了新的要求,传统IP网络的尽力服务已不能满足应用的需要。如VoIP业务,如果报文传送延时太长,将是用户所不能接受的,
本文阐述了智能教学的基本理念及发展现状,指出了目前智能教学建设中存在的主要问题。从智能教学的实际要求出发,以面向对象设计思想和对象/关系映射理论为基础,设计了一个以知识
设备故障诊断是一门各学科交叉的新技术,近20多年来,得到了迅速发展,并产生了巨大的经济效益。信息融合是近年来兴起的一门学科,在许多领域得到了广泛的研究和应用,在设备故障诊断
在信息融合系统中,从不同层次和不同角度采集的多源信息在系统中表现为信息的冗余性和互补性,进而导致了融合过程中信息间的冲突与合作,如何解决多源信息冲突环境下的信息融