中文树库依存关系解析的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:Robert_1967
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理的关键技术,依存关系解析是句法分析的方法之一,这种方法解析句子词语间的依存关系,依存关系可以明确地表明词语间的支配关系,并能方便地转化为语义依存描述。宾州中文树库(Penn Chinese Treebank,CTB)是国内外研究人员公用的短语结构树库,但是CTB是短语结构树库,而且没有标明每个短语的中心子节点,所以必须首先将CTB转换为依存结构树库,然后基于转换后的CTB才能进行中文依存关系解析。本文首先根据CTB中的短语结构,通过大规模语料的分析和汉语句法的特点,总结出来中心子节点过滤表,通过中心子节点过滤表进行宾州中文树库的短语结构向依存结构的转换,以便为后续实验的学习和测试提供语料。实验采用了CTB 5.0宾州中文短语树库,利用中心子节点过滤表把短语结构向依存结构转换之后,本文随机抽取了CTB5.0语料中的200句,进行了人工的依存关系标注,测试正确率为99.95%。然后本文采用考虑远距离的确定性Nivre算法和基于根节点的确定性Nivre算法,进行了依存结构的宾州中文树库学习和测试,依存关系的正确率分别为65.43%和74.35%。考虑远距离的依存的确定性Nivre算法,在原有Nivre算法的基础上,根据汉语语法的特点适当地增加了对远距离依存关系的判断;基于根节点的确定性Nivre算法,可以将原句切分为两个较简单的分句,再对每个分句利用考虑远距离依存的确定性Nivre算法进行依存关系解析,既可以降低解析难度,又可以避免出现跨越根节点的依存关系。最后,本文分析了词典大小与依存关系解析正确率的关系。词典是为支持向量机提供词的特征所组成的字典,发现当词典为所有词的时候,依存关系识别的精确度并不是最高,而词典的容量为9000词的时候,正确率是最高的,然后随着词典的容量逐渐增大,正确率也逐渐降低,同时依存关系解析的代价变得很大。
其他文献
TM多波段遥感图像的地物及其分类一直是遥感图像处理领域比较难解的问题。由于地物种类繁多,且各种不同的地物随着时间的推移和空间分布的不断变化,成像光谱作为多波段的地物
C程序内存安全问题是指用C语言编写的程序中存在的非法操作内存区间引起的安全问题,常见的有数组和指针访问越界、缓存区溢出和C库函数的的非法操作等。产生问题的原因是C语
在互联网的发展中,用户隐私保护得到越来越多的关注。用户在通信过程中,除了通信内容之外,通信关系也会泄露一些重要的问题。即谁和谁在通信本身也是重要的隐私,需要加以保护
当前,随着无线网络交互类、背景类和流类等业务的不断增长,对蜂窝移动通信系统的容量、通信质量以及覆盖范围等方面的要求不断提高,无线通信下行链路的性能成为反映系统性能
当今计算机网络发展迅速,网络的行为方式也越来越社会化,即网络中分布的个体根据各自的策略来决定自己的行为,这种策略性分布式系统随着网络服务模式的改革而变得越来越重要,
图像压缩给图像各方面的应用带来了很大的便利,数码相机、遥感、传真、医疗以及电子商务等多个领域的图像压缩研究使压缩技术越来越成熟和多元化。小波变换是一种数学方式,近
当代的计算机应用程序大部分是多媒体应用,包括音视频处理,图像处理,3D绘图,语音识别等,这就对处理器提出了更加严格的实时性要求。因此,多媒体SIMD扩展结构,已经逐渐为通用
伴随着信息技术的飞速发展,计算机已经成为人们最重要的生产、生活工具。块存储设备作为计算机的主要数据存储设备,携带着大量的机密信息和重要数据。由于丢失、被盗或者未经
随着Internet技术和企业信息化建设的发展,电子商务以其迅猛的速度进入人们的日常生活。电子商务的发展对传统的Web技术提出了强有力的挑战。由于电子商务的内部逻辑复杂,安全