【摘 要】
:
句法分析是自然语言处理领域非常基础而重要的问题,提高句法分析的准确度和分析效率一直都是人们研究的重点。在各种句法分析算法中,CKY是最著名、最常用的一种。本文对CKY算
论文部分内容阅读
句法分析是自然语言处理领域非常基础而重要的问题,提高句法分析的准确度和分析效率一直都是人们研究的重点。在各种句法分析算法中,CKY是最著名、最常用的一种。本文对CKY算法的分析效率进行了实验性的研究,力图探索影响CKY算法效率的各种因素,进而提高CKY算法在实践应用中的分析速度。具体地,本文关注于两方面问题的研究:1.CKY算法的各种具体实现。尽管CKY算法具有理论的O(n~3)复杂度,然而实践中还是可以有多种不同效率的实现方式。本文系统地总结了各种实现方式,分析了时间复杂度,并提出了两种优化策略。实验表明了不同的实现的分析效率相差的确比较大,并且不同的文法上,最优的实现也并不一致。针对后一问题,我们提出了一种新的综合了其他实现的方式,称做联合实现。实验证明,联合实现可以在任何文法上都获得接近最优的分析效率。这对CKY算法的实践应用有着比较大的指导意义。2.不同的文法二元化方式。文法二元化对CKY算法获得O(n~3)的复杂度是至关重要的。然而,不同的二元化文法也会导致CKY分析效率上的差异。在做出简化假设的基础上,水文细致地分析了二元化对CKY分析效率的影响,认为好的二元化依赖于输入语言的某种内在性质,并提出了一种基于训练语料库信息的二元化方法。实验表明本文的二元化文法,相比现有的各种二元化方法,可以获得更高的分析效率。尽管在句法分析领域早面已经有许多研究CKY算法的工作,但据我们所知,还没有已知的工作总结研究过CKY的各种具体实现和文法二元化对CKY分析效率的影响。本文的工作对这两个基本问题做了有益的探索和研究。
其他文献
随着计算机网络技术的迅猛发展,信息资源的开发利用已经深入社会发展的各个领域,给人们的日常生活带来了极大的方便;然而,计算机网络所具有的开放性与共享性,使得信息安全问
随着网络信息技术的高速发展,Internel上的Web页面数量呈指数增长,如何有效的组织和处理这些海量信息,如何更好地搜索、过滤和管理这些网络资源,成了一个亟待解决的问题。其中,Web
传统的密码学用密钥对信息进行加解密,其安全性依赖于对密钥的保护。这种体制存在很多安全隐患,不能防范非法的密钥共享与抵赖,而且过长的密钥不可能被记忆且容易丢失。为了
随着计算机网络技术的发展,不同需求的用户通过Internet跨地区、跨部门进行数据交换。然而,Internet中的安全漏洞给攻击者提供了对网上传输数据进行窃听、伪造、篡改等攻击的
随着因特网和多媒体技术的的迅猛发展,信息隐藏技术已经成为信息安全领域一个新的研究热点。而目前研究的主要方面是针对图像、视频、音频等载体来进行信息隐藏,文本由于其冗
随着计算机网络的不断发展,信息全球化己成为人类发展的大趋势。但由于计算机网络具有连接形式多样性、终端分布不均匀性和网络开放性、互联性等特征,致使网络易遭受黑客、骇客
传统的中医舌诊是通过观察舌的特征了解病人的身体状况。舌的颜色是舌诊中非常重要的特征之一。采集得到的舌图像由于采集设备、光源等因素的影响往往造成不同程度的颜色失真
发布/订阅系统是一个满足信息的生产者和消费者互动的分布式中间件系统,它的出现改变了人们处理信息的方式。发布/订阅系统的主要设计目标包括:表达能力、高效性、可靠性和扩展
随着经济发展和人民生活水平的提高,人们对健康知识的追求和对健康状况的关心程度正在逐步提高,在移动互联网技术不断发展的推动下,二者结合产生了“移动健康”的思想。移动
机器人学是21世纪重要的前沿学科之一,现阶段国内外很多研究者都致力于全自主仿人机器人的研究。机器人足球是联系机器人和人类社会的桥梁,而近年来,FIRA的足球机器人比赛项目也