中心词驱动汉语统计句法分析模型的改进

来源 :南京大学 | 被引量 : 0次 | 上传用户:sfeixxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理的一个基本问题。许多自然语言处理任务,如机器翻译、问答系统、信息检索、信息抽取等往往需要依赖句法分析的精确结果才能最终获得满意的解决。总体上来看,由于起步较晚、语料库资源缺乏等原因,汉语句法分析技术不如英语句法分析技术那样成熟。目前的汉语句法分析技术还满足不了各种中文信息处理系统的要求,所以对汉语句法分析的研究既意义重大又任重道远。   歧义将会导致对同一个句子分析得到多个句法树,统计方法则可以为每一个生成的句法树指派一个概率值,从而选择可能性更大的分析树。统计方法在分析自然语言方面已经取得了显著的成效。本文主要研究统计框架下汉语句法分析问题。论文对Dan Bikel基于Collins中心词驱动概率句法分析模型实现的句法分析器进行了深入研究,认为原句法分析器存在以下两方面的问题:    1.原模型将句子中词语词性的标注过程整合在整个分析过程中,即使提供候选词性,在分析过程中也并不完全采用输入所提供的词性,这不仅导致分析变得更加复杂,而且影响分析精度。   2.汉语存在长句较多的特点,而长句中更多的歧义导致模型的分析效率低下,很多的分析错误是由分析树的底层分析错误造成的,因此,要使用原模型对汉语进行分析,需要针对汉语自身的特点,缩短句子的长度,减少句子的歧义。   在原句法分析器的基础上,针对上述的两个问题,本文对其进行了两个方面的改进:   1.通过提供N-best词性候选序列,改进原模型在词性方面的处理,改善了句法分析的结果;   2.在该模型中引进单独的基本名词短语识别,从而降低句法分析的复杂度,提高了效率,其中,针对中文的特点,通过对BaseNF的概念进行一系列的扩展,深入研究了基于不同层次概念的BaseNF对句法分析的影响并探讨更适合中文句法分析的BaseNF定义。   论文利用改进的句法分析器进行中文句法分析实验,实验结果表明,改进的句法分析器可以缩短分析时间26%,提高F值4.4个百分点,交叉括号平均减少18%。  
其他文献
近来,全球范围内越来越多的组织已经迅速采用云范例提供按需存取、存储以及大数据处理。基于位置服务的应用对采用云服务起到了巨大的推力作用。由于车辆GPS数据的实时性及其
网格技术虽然有着非常广阔的前景和发展空间,但是对它的许多研究还处在起步阶段,还有许多关键技术问题需要解决。经过二十多年的研究和发展,网格计算技术取得了一系列重大的
由于网络技术与移动通信技术的发展,基于移动计算设备的应用已经越来越普及。人们广泛地使用个人数字助理(PDA,Personal Digital Assistant),、智能电话等移动手持设备随时随
当今,用户需求频繁变化,对软件系统灵活性的期望日益增长。但是,大多数系统由于自身设计的局限性,不能及时满足用户期望,导致软件满意度降低;与此同时,开发者却疲于满足不同用户的个
软件成本估算的方法和技术众多且各有千秋,没有一种方法被证明在各种情况下的估算都是最精确的。组合估算是一种非常有效的估算方法,它避免了去选择一种单一的最优的估算方法,而
作为一种全新的信息获取和处理技术,无线传感器网络综合了传感器技术,微机电系统和无线网络技术。它能够用来进行实时监测、感知和采集各种环境或监测对象的信息并对其进行处
互联网的飞速发展极大地方便了人们从网络上获取多媒体数据,同时也给版权保护这一问题提出了新的挑战。数字水印技术作为一种新的有效数字产品版权保护的技术手段,是目前国际
随着软件产业的迅速发展,软件系统的功能和结构日益复杂,如何有效地理解复杂软件系统的结构,理解其在生命周期里的变化规律,成为人们进行软件开发、再工程、维护和重构时关注的一
随着信息技术的发展,政府、企业的日常工作都离不开信息系统。互联网技术的发展使得系统在开发和维护中产生的漏洞暴露在大量的攻击和入侵事件中,一旦数据因系统入侵受破坏将造
随着国民经济的快速发展,国内汽车拥有量与日俱增,也引发了越来越多地交通事故和道路拥堵,造成了巨大的人员伤亡和经济损失。实践证明,采用交通事件检测系统对交通事件进行快