中文树库依存关系解析的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：Robert_1967

【摘要】

：

句法分析是自然语言处理的关键技术,依存关系解析是句法分析的方法之一,这种方法解析句子词语间的依存关系,依存关系可以明确地表明词语间的支配关系,并能方便地转化为语义依

【作者】

：

钱志强

【机构】

：

大连理工大学

【出处】

：

大连理工大学

【发表日期】

：

2009年期

【关键词】

：

依存关系解析中心子节点过滤表宾州中文树库 Nivre算法支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

句法分析是自然语言处理的关键技术,依存关系解析是句法分析的方法之一,这种方法解析句子词语间的依存关系,依存关系可以明确地表明词语间的支配关系,并能方便地转化为语义依存描述。宾州中文树库(Penn Chinese Treebank,CTB)是国内外研究人员公用的短语结构树库,但是CTB是短语结构树库,而且没有标明每个短语的中心子节点,所以必须首先将CTB转换为依存结构树库,然后基于转换后的CTB才能进行中文依存关系解析。本文首先根据CTB中的短语结构,通过大规模语料的分析和汉语句法的特点,总结出来中心子节点过滤表,通过中心子节点过滤表进行宾州中文树库的短语结构向依存结构的转换,以便为后续实验的学习和测试提供语料。实验采用了CTB 5.0宾州中文短语树库,利用中心子节点过滤表把短语结构向依存结构转换之后,本文随机抽取了CTB5.0语料中的200句,进行了人工的依存关系标注,测试正确率为99.95%。然后本文采用考虑远距离的确定性Nivre算法和基于根节点的确定性Nivre算法,进行了依存结构的宾州中文树库学习和测试,依存关系的正确率分别为65.43%和74.35%。考虑远距离的依存的确定性Nivre算法,在原有Nivre算法的基础上,根据汉语语法的特点适当地增加了对远距离依存关系的判断;基于根节点的确定性Nivre算法,可以将原句切分为两个较简单的分句,再对每个分句利用考虑远距离依存的确定性Nivre算法进行依存关系解析,既可以降低解析难度,又可以避免出现跨越根节点的依存关系。最后,本文分析了词典大小与依存关系解析正确率的关系。词典是为支持向量机提供词的特征所组成的字典,发现当词典为所有词的时候,依存关系识别的精确度并不是最高,而词典的容量为9000词的时候,正确率是最高的,然后随着词典的容量逐渐增大,正确率也逐渐降低,同时依存关系解析的代价变得很大。

其他文献

多光谱图像分割技术在防沙治沙关键技术中的研究与应用

TM多波段遥感图像的地物及其分类一直是遥感图像处理领域比较难解的问题。由于地物种类繁多,且各种不同的地物随着时间的推移和空间分布的不断变化,成像光谱作为多波段的地物

学位

支持向量机多光谱图像机器学习纹理特征

C程序内存安全性的运行时验证研究与实现

C程序内存安全问题是指用C语言编写的程序中存在的非法操作内存区间引起的安全问题,常见的有数组和指针访问越界、缓存区溢出和C库函数的的非法操作等。产生问题的原因是C语

学位

内存安全基于对象技术运行时验证数组越界自动化插桩

IP语音匿名通信关键技术研究

在互联网的发展中,用户隐私保护得到越来越多的关注。用户在通信过程中,除了通信内容之外,通信关系也会泄露一些重要的问题。即谁和谁在通信本身也是重要的隐私,需要加以保护

学位

匿名通信IP语音通信信息隐藏实时认证

基于Hopfield神经网络的HSDPA调度算法研究

当前,随着无线网络交互类、背景类和流类等业务的不断增长,对蜂窝移动通信系统的容量、通信质量以及覆盖范围等方面的要求不断提高,无线通信下行链路的性能成为反映系统性能

学位

HSDPA调度算法Hopfield神经网络

机制设计在服务覆盖网及认知无线电网络上的理论问题和应用

当今计算机网络发展迅速,网络的行为方式也越来越社会化,即网络中分布的个体根据各自的策略来决定自己的行为,这种策略性分布式系统随着网络服务模式的改革而变得越来越重要,

学位

分布式系统动因机制设计服务覆盖网认知无线电网络

基于切向-径向小波变换的图像压缩编码的算法研究

图像压缩给图像各方面的应用带来了很大的便利,数码相机、遥感、传真、医疗以及电子商务等多个领域的图像压缩研究使压缩技术越来越成熟和多元化。小波变换是一种数学方式,近

学位

图像压缩小波变换切向-径向小波变换虹膜图像压缩

基于语句迁移的循环变换在多核SIMD架构上的研究与实现

当代的计算机应用程序大部分是多媒体应用,包括音视频处理,图像处理,3D绘图,语音识别等,这就对处理器提出了更加严格的实时性要求。因此,多媒体SIMD扩展结构,已经逐渐为通用

学位

循环变换语句迁移数据对齐多核SIMD架构

考虑交互作用的大规模水面的快速模拟技术研究

学位

计算机仿真计算机仿真大规模水面大规模水面快速模拟技术快速模拟技术交互作用交互作用

块存储设备的数据加密算法分析与评估

伴随着信息技术的飞速发展,计算机已经成为人们最重要的生产、生活工具。块存储设备作为计算机的主要数据存储设备,携带着大量的机密信息和重要数据。由于丢失、被盗或者未经

学位

块存储设备加密模式抗攻击性随机性性能

Rails框架在电子商务系统中的应用与实现

随着Internet技术和企业信息化建设的发展，电子商务以其迅猛的速度进入人们的日常生活。电子商务的发展对传统的Web技术提出了强有力的挑战。由于电子商务的内部逻辑复杂，安全

学位

电子商务Rails框架计算机技术

中文树库依存关系解析的研究

其他学术论文