基于机器学习的决策式中文依存句法分析的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:yobisisi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理(NLP)的重要研究任务之一。依存分析作为句法分析的一种重要方法,通常是衔接自然语言处理中词法分析与语义分析的桥梁,在自然语言处理中具有至关重要的作用。依存分析是指基于依存语法来确定句子中词与词之间的依存关系,而这些依存关系的解析对于整句的语义分析具有重要的帮助。   当前,一种以统计学习分类算法为基础,具有快速、有效、易于实现的决策式依存分析模型引起了大家的关注。鉴于这种决策式依存分析模型对英语进行依存关系分析时的优良表现,本文在深入研究了该类依存句法分析器的基础上,发现原始决策式依存句法分析模型存在以下两方面的问题:   1、算法本身是一种贪婪的算法,它把依存分析的每一个分析步骤孤立开来,在每一个分析步骤中只挑选最有可能的分析动作,对于整句而言,容易产生依存关系的遗漏和依存操作的混淆;   2、由于分析过程是决策式的缘故,容易产生错误累积,后面的分析会继承前面遗留下来的错误。一旦错误累积超过一定的程度,将会导致后继的分析出现连锁错误的情形。   针对上述两个问题,本文结合中文自身的特点,给出了相应的改进办法并提出一种改进的中文依存句法分析器:   1、使用局部搜索策略。作为一种优化算法,它摆脱了仅在“点”选取最优动作分类的不足,把“点”扩展到“线”,即在更大的范围内寻找分析动作的最优序列。它有助于缓解贪婪算法带来的局限,控制错误的产生,从而提升分析器的性能。   2、使用两阶段分析。针对一些特定易错结构,在第一阶段,不急于进行归并处理,选择跳过;在第二阶段,待到其余结构合并完整以后,再专门处理这些特定结构。两阶段分析技术适当地延缓了这些易错结构的处理时机,避免了因信息不全而造成分析错误的概率,从而更准确地判断出句子中依存关系,尤其是对根结点的确定。   论文利用改进的依存句法分析器进行中文依存句法分析实验,实验结果表明,基于局部搜索的两阶段决策式依存分析模型,在性能上好于原始决策式依存分析方法,同时保持较低的时间复杂度。  
其他文献
现实世界许多应用中的数据,不是有限的离散数据集,而是无限的连续数据集。这种由连续、无限、随时间变化的数据项组成的有序序列被称为数据流。数据流的到达速度及数据量一般是
互联网科技蓬勃发展,新技术术语层出不穷。云计算、大数据、物联网等信息通信技术的发展,互联网+与各领域的融合,AI浪潮推动使互联网行业的竞争格局新变化。及时发现互联网新技
随着Internet的不断发展,网络上的在线数据库越来越多,许多用户可以通过Web站点提供的查询接口来访问Web数据库中的信息,这种在Web中可通过查询接口访问的在线数据库,被称为Web数
软件开发的成败与需求的质量有紧密的关系。充分获取和理解用户的目标和需求,并采取有效的方法支持多涉众(用户、项目经理、开发人员等)间通过协商就需求达成共识,对软件开发的
在经历了主机(mainframe)时代和个人电脑(personal computer)时代后,随着嵌入式设备、无线网络等技术的蓬勃发展,信息空间与人们生活和工作的物理空间逐渐融合,普适计算这一新的
在图像分类任务中原本可以被正确分类的图片,在添加一些细微的非随机扰动后形成的新的图片却使得深度学习分类模型以高置信度分类错误。更令人沮丧的是在同一训练集的不同子集
如今是信息时代,电子商务已经逐渐成为一种主流的商务模式,全球航空客运机票已经逐渐被电子机票所取代。为了适应市场需要,各航空公司以及机票代理都纷纷研发了各自的电子购票系
学位
如今,P2P越来越成为网络计算领域中的研究热点,它被广泛地应用于网络互联技术领域,极大地提高了互联网中信息、带宽和计算资源的利用率。 P2P技术颠覆了传统的C/S信息服务模
P2P流媒体系统在过去几年里用户群急速膨胀、应用面不断拓宽。典型的P2P流媒体系统有Skype、PPLive、PPStream等,其中无论网络音频、网络视频领域均存在数十家公司激烈竞争,这
可变剪接方法是当前生物信息学领域的一种重要的研究工具,它通过调节选择不同的外显子的组合方式来搜索mRNA亚型的可能,已经成为扩展蛋白质组变体的最主要的方法。近几年里,