基于依存树的中文语义角色标注技术研究

来源 :东北大学 | 被引量 : 4次 | 上传用户：honcy456852

【摘要】

：

语义分析是自然语言处理中的一个重要任务,语义角色标注(Semantic Role Labeling,简称SRL)是一种浅层语义分析的实现方式,它只标注句子中与谓词有关的成分的语义角色。目前,

【作者】

：

白龙飞

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2013年01期

【关键词】

：

自然语言处理语义角色标注谓词标注依存句法树条件随机场模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语义分析是自然语言处理中的一个重要任务,语义角色标注(Semantic Role Labeling,简称SRL)是一种浅层语义分析的实现方式,它只标注句子中与谓词有关的成分的语义角色。目前,主流的语义角色标注研究都是基于短语的句法树进行的,针对基于短语结构的语义角色标注的研究已经较为成熟,并取得了很好的性能；然而,伴随此方法的发展所带来的瓶颈问题也日渐突出,导致其性能难以进一步提高。因此,开始有学者探索使用依存句法树进行语义角色标注。然而,中文领域的研究工作受限于语料库规模等因素,发展并不如其它语言。因此,本文从依存句法树出发,研究中文语义角色标注。本文主要内容如下：首先,构建了一个基准系统,该系统包括谓词标注(Predicate Labeling,简称PL)、语义角色标注和评价系统三部分。其中谓词标注分为谓词识别和谓词分类两部分,语义角色标注分为语义角色识别和语义角色分类两部分。本文之后的研究工作都是在这个基准系统上展开。其次,本文通过分析基准系统中使用的特征从而更有针对性的获取更多有效的特征。由于特征一直是决定语义角色标注系统性能的重要因素,所以能否找到更多有效的特征将直接决定系统的性能。最后,本文通过理论分析,将语义角色分类重新定义为序列标注任务,使用条件随机场模型替换之前使用的最大熵分类模型；并且根据错误分析,本文提出通过向语义角色分类模型中添加空类型,使该阶段拥有能够纠正一些语义角色识别阶段所遗留下来的错误的能力。本文的贡献主要表现在：研究并构建了基于依存句法树的语义角色标注系统；通过添加新特征的方法改进系统性能；通过重新定义语义角色分类为序列标注任务和向其中添加空类型来改善系统的性能。最终的实验结果表明,本文使用的方法都能大幅度的提升语义角色标注的性能,在自动谓词标注的情况下语义角色标注的P/R/F1分别为85.79%/85.85%/85.82。

其他文献

TTCN-3编译技术研究与实现

本论文的研究背景是：①IPv6协议集的测试，特别是对IPv6路由器设备的测试技术已经成为从现有Internet向基于IPv6的NGI(Next Generation Internet)过渡的关键技术之一；②现代路由

学位

编译器TTCN-3语法分析代码生成

科氏流量计的算法研究与实现——DSP算法研究及硬件实现

　　本课题的目标是研发出性能和精度达到一流水平的新一代数字化科氏流量计。本文主要研究二次仪表的信号处理问题，即科氏流量计的流量信号的算法研究和实现。　　本文对科氏

学位

科氏流量计测频测相DSPDFT线性调频Z变换

领域无关规划器预处理的研究与实现

　　在智能规划的研究上，存在领域相关和领域无关两个方向的研究，其中，领域无关规划是研究的热点和难点。长期以来，由于领域无关规划器很难充分利用特定研究领域的专家信息，领域无

学位

智能规划领域无关规划器领域动作领域约束知识

基于IPv6 Anycast技术的负载平衡研究

本论文对anycast技术在解决负载平衡所存在的不足进行了分析，提出了一种包含反馈技术的anycast下负载平衡的动态解决方案，并且对该方案的可行性进行了分析，在该方案的实现过

学位

anycast路由器IPv6负载平衡镜像服务器网络服务

基于NGN思想的企业电话网络

Next Generation Network(NGN)是基于分组的网络,能够提供包括电信业务在内的各种业务,其业务相关功能与承载的传送技术无关,充分体现了分组化、多业务、开放性、兼容性、业

学位

企业交换机下一代网络开放接口VoIPIP-PBX

基于实际设备性能的蓝牙散列网构建算法

蓝牙是一种实现短距离无线数据与语音通信的开放技术标准,近年来得到了广泛的关注。组建无线自组织网络是蓝牙技术的一个重要应用领域。但是,在蓝牙规范中只对微网结构的

学位

蓝牙无线通信散列网设备性能连接饱和

移动自组网的组建及Internet接入技术的研究

移动自组网是一种特殊的无线网络，它的组建不依赖于预先存在的网络基础设施，如基站或接入点，而是由若干个带有无线收发器的移动节点构成。与传统的无线局域网不同，移动自组网是一

学位

移动自组网Internet接入IPv6地址自动分配

基于小波的图像编码方法的研究和实现

数字图像的压缩很长时间里是人们研究的一个课题，人们提出大量的图像压缩标准来适应不同的应用。压缩的任务是降低各种形式的数据的传输的带宽和存储要求。尽管现在越来越多的

学位

峰值信噪比离散小波变换集合分裂多级树图像编码方法数字图像压缩小波变换

一种基于Flash的嵌入式数据库

目前，基于磁盘文件的数据库系统，例如BerkeleyDB、SQLite，虽然代表着嵌入式数据库应用的主流，但仍有一些应用场合的需要难以满足。它们所提供的库函数都是依托于文件系统的，所以，其

学位

Flash存储器嵌入式数据库B树结构

基于错误实例与错误特征相结合的语法检查系统的实现

　　本论文提出了一个在不降低基于错误实例系统准确率的前提下提高系统效率的方法：就是通过stringkernel、KPCA、K-means聚类等技术来提取系统错误实例数据库各个表的特征，为

学位

特征提取核主分量分析语法检查分类器特征索引表数据库

基于依存树的中文语义角色标注技术研究

其他学术论文