基于特征向量的中文实体间语义关系抽取研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:abcd_11840
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体间语义关系抽取是信息抽取中的重要环节。目前,在中文语义关系抽取中基于特征向量的机器学习方法占重要地位,它的研究重点在于如何获取各种有效的词法、语法和实体等特征信息,并把它们有效地集成起来,从而产生描述对象的各种局部和简单的全局特征。本文提出在基本特征的基础上进行特征组合的方法,该方法主要包括中文语料基本特征的获取和基本特征的组合。本文采用ACE2005的中文语料库为实验数据。首先,在对文件进行预处理后,单独选取词法、实体和基本短语块为基本特征,使用SVM工具进行关系抽取,其关系探测、大类抽取和子类抽取关系识别的F值分别达到62.78、57.08和55.77。然后,本文分别在词语、实体、基本短语块内部及其相互之间进行组合,获得各种组合特征。实验结果表明组合特征能显著提高关系抽取的性能,最终在关系探测、大类抽取和子类抽取的F值分别提高了8.5、3.4和3.8。总之,基本特征及其组合特征具有较好的区分度,能有效地提高基于特征向量的中文实体间语义关系抽取性能。
其他文献
随着计算机技术的不断发展,其满足人们需求的能力不断增强,其深入领域也在不断增大。软件复用一直以来被认为是提高软件生产力和解决软件危机的有效途径。通过几十年的发展,
随着社会的进步,嵌入式系统正在悄悄的融入到人们的日常生活中:从多功能手机到MP4娱乐手持设备,从智能家电控制到汽车智能电子控制,生活中的嵌入式系统无处不在。随着嵌入式
视频中运动目标跟踪是计算机视觉领域中最富有挑战性的课题之一,在军事制导、视觉导航、安全监控、智能交通、视频编码、医疗诊断和气象分析等众多领域中有着广阔的研究和应
中文分词是中文信息处理中的一个基础部分,中文信息处理要从三个层面上对中文进行处理:字、词、句。在汉语中,词是最小的语言单位,只有处理好词层面的问题,才能更好地处理句
随着汽车保有量的增长,道路交通事故已成为世界性的问题,汽车被动安全性也成为汽车最首要的性能。汽车被动安全性研究一般有三种方法,即理论计算法、交通事故分析法和试验法,
随着科学技术的不断创新,计算机病毒技术也越来越多样化。为了对抗变幻莫测的计算机病毒,反病毒技术也随之发展起来。目前已经存在多种先进的反病毒技术,如虚拟机技术、启发
人类从当前“以设备为中心”的时代,已经进入了“以服务为中心的时代”。现在,“云”正成为IT业界关注的焦点。Hadoop是Apache开源组织的一个分布式计算开源框架,它受到最先
非刚体运动重建,是计算机视觉领域的热点研究课题。该技术主要研究如何从二维动态视频序列中恢复非刚体对象的三维结构和摄像机运动的相关参数。该技术可以广泛应用于机器人视
P2P是近年来互联网最热门的技术,在VoIP、下载、流媒体、协调计算等领域得到飞速发展,被财富杂志评为影响互联网的四大科技之一。P2P技术体现了互联网最根本的内涵——自由和
支持向量机(Support Vector Machine)是数据挖掘的新方法,也是一种小样本统计工具,它在解决小样本、非线性及高维的模式识别问题上具有其他机器学习方法难以企及的优势。在支