基于依存树的中文语义角色标注技术研究

来源 :东北大学 | 被引量 : 4次 | 上传用户:honcy456852
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义分析是自然语言处理中的一个重要任务,语义角色标注(Semantic Role Labeling,简称SRL)是一种浅层语义分析的实现方式,它只标注句子中与谓词有关的成分的语义角色。目前,主流的语义角色标注研究都是基于短语的句法树进行的,针对基于短语结构的语义角色标注的研究已经较为成熟,并取得了很好的性能;然而,伴随此方法的发展所带来的瓶颈问题也日渐突出,导致其性能难以进一步提高。因此,开始有学者探索使用依存句法树进行语义角色标注。然而,中文领域的研究工作受限于语料库规模等因素,发展并不如其它语言。因此,本文从依存句法树出发,研究中文语义角色标注。本文主要内容如下:首先,构建了一个基准系统,该系统包括谓词标注(Predicate Labeling,简称PL)、语义角色标注和评价系统三部分。其中谓词标注分为谓词识别和谓词分类两部分,语义角色标注分为语义角色识别和语义角色分类两部分。本文之后的研究工作都是在这个基准系统上展开。其次,本文通过分析基准系统中使用的特征从而更有针对性的获取更多有效的特征。由于特征一直是决定语义角色标注系统性能的重要因素,所以能否找到更多有效的特征将直接决定系统的性能。最后,本文通过理论分析,将语义角色分类重新定义为序列标注任务,使用条件随机场模型替换之前使用的最大熵分类模型;并且根据错误分析,本文提出通过向语义角色分类模型中添加空类型,使该阶段拥有能够纠正一些语义角色识别阶段所遗留下来的错误的能力。本文的贡献主要表现在:研究并构建了基于依存句法树的语义角色标注系统;通过添加新特征的方法改进系统性能;通过重新定义语义角色分类为序列标注任务和向其中添加空类型来改善系统的性能。最终的实验结果表明,本文使用的方法都能大幅度的提升语义角色标注的性能,在自动谓词标注的情况下语义角色标注的P/R/F1分别为85.79%/85.85%/85.82。
其他文献
本论文的研究背景是:①IPv6协议集的测试,特别是对IPv6路由器设备的测试技术已经成为从现有Internet向基于IPv6的NGI(Next Generation Internet)过渡的关键技术之一;②现代路由
  本课题的目标是研发出性能和精度达到一流水平的新一代数字化科氏流量计。本文主要研究二次仪表的信号处理问题,即科氏流量计的流量信号的算法研究和实现。  本文对科氏
  在智能规划的研究上,存在领域相关和领域无关两个方向的研究,其中,领域无关规划是研究的热点和难点。长期以来,由于领域无关规划器很难充分利用特定研究领域的专家信息,领域无
本论文对anycast技术在解决负载平衡所存在的不足进行了分析,提出了一种包含反馈技术的anycast下负载平衡的动态解决方案,并且对该方案的可行性进行了分析,在该方案的实现过
Next Generation Network(NGN)是基于分组的网络,能够提供包括电信业务在内的各种业务,其业务相关功能与承载的传送技术无关,充分体现了分组化、多业务、开放性、兼容性、业
蓝牙是一种实现短距离无线数据与语音通信的开放技术标准,近年来得到了广泛的关注。组建无线自组织网络是蓝牙技术的一个重要应用领域。 但是,在蓝牙规范中只对微网结构的
移动自组网是一种特殊的无线网络,它的组建不依赖于预先存在的网络基础设施,如基站或接入点,而是由若干个带有无线收发器的移动节点构成。与传统的无线局域网不同,移动自组网是一
数字图像的压缩很长时间里是人们研究的一个课题,人们提出大量的图像压缩标准来适应不同的应用。压缩的任务是降低各种形式的数据的传输的带宽和存储要求。尽管现在越来越多的
目前,基于磁盘文件的数据库系统,例如BerkeleyDB、SQLite,虽然代表着嵌入式数据库应用的主流,但仍有一些应用场合的需要难以满足。它们所提供的库函数都是依托于文件系统的,所以,其
  本论文提出了一个在不降低基于错误实例系统准确率的前提下提高系统效率的方法:就是通过stringkernel、KPCA、K-means聚类等技术来提取系统错误实例数据库各个表的特征,为