基于机器学习的决策式中文依存句法分析的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：yobisisi

【摘要】

：

句法分析是自然语言处理(NLP)的重要研究任务之一。依存分析作为句法分析的一种重要方法，通常是衔接自然语言处理中词法分析与语义分析的桥梁，在自然语言处理中具有至关重要的

【作者】

：

马若策

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2009年期

【关键词】

：

依存句法分析决策式算法错误累积自然语言处理机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

句法分析是自然语言处理(NLP)的重要研究任务之一。依存分析作为句法分析的一种重要方法，通常是衔接自然语言处理中词法分析与语义分析的桥梁，在自然语言处理中具有至关重要的作用。依存分析是指基于依存语法来确定句子中词与词之间的依存关系，而这些依存关系的解析对于整句的语义分析具有重要的帮助。　　当前，一种以统计学习分类算法为基础，具有快速、有效、易于实现的决策式依存分析模型引起了大家的关注。鉴于这种决策式依存分析模型对英语进行依存关系分析时的优良表现，本文在深入研究了该类依存句法分析器的基础上，发现原始决策式依存句法分析模型存在以下两方面的问题：　　 1、算法本身是一种贪婪的算法，它把依存分析的每一个分析步骤孤立开来，在每一个分析步骤中只挑选最有可能的分析动作，对于整句而言，容易产生依存关系的遗漏和依存操作的混淆；　　 2、由于分析过程是决策式的缘故，容易产生错误累积，后面的分析会继承前面遗留下来的错误。一旦错误累积超过一定的程度，将会导致后继的分析出现连锁错误的情形。　　针对上述两个问题，本文结合中文自身的特点，给出了相应的改进办法并提出一种改进的中文依存句法分析器：　　 1、使用局部搜索策略。作为一种优化算法，它摆脱了仅在“点”选取最优动作分类的不足，把“点”扩展到“线”，即在更大的范围内寻找分析动作的最优序列。它有助于缓解贪婪算法带来的局限，控制错误的产生，从而提升分析器的性能。　　 2、使用两阶段分析。针对一些特定易错结构，在第一阶段，不急于进行归并处理，选择跳过；在第二阶段，待到其余结构合并完整以后，再专门处理这些特定结构。两阶段分析技术适当地延缓了这些易错结构的处理时机，避免了因信息不全而造成分析错误的概率，从而更准确地判断出句子中依存关系，尤其是对根结点的确定。　　论文利用改进的依存句法分析器进行中文依存句法分析实验，实验结果表明，基于局部搜索的两阶段决策式依存分析模型，在性能上好于原始决策式依存分析方法，同时保持较低的时间复杂度。　　

其他文献

传感器网络中压缩数据流管理技术

现实世界许多应用中的数据，不是有限的离散数据集，而是无限的连续数据集。这种由连续、无限、随时间变化的数据项组成的有序序列被称为数据流。数据流的到达速度及数据量一般是

学位

数据压缩连续查询无线传感器网络数据流管理

互联网新技术术语发现研究

互联网科技蓬勃发展，新技术术语层出不穷。云计算、大数据、物联网等信息通信技术的发展，互联网+与各领域的融合，AI浪潮推动使互联网行业的竞争格局新变化。及时发现互联网新技

学位

互联网术语信息提取聚类分析位置权重排序学习

Web数据库查询结果个性化分类方法研究

随着Internet的不断发展，网络上的在线数据库越来越多，许多用户可以通过Web站点提供的查询接口来访问Web数据库中的信息，这种在Web中可通过查询接口访问的在线数据库，被称为Web数

学位

网络数据库查询结果个性化分类方法技术管理

一种用户主导的需求获取与共赢协商方法研究

软件开发的成败与需求的质量有紧密的关系。充分获取和理解用户的目标和需求，并采取有效的方法支持多涉众(用户、项目经理、开发人员等)间通过协商就需求达成共识，对软件开发的

学位

需求获取用户主导领域知识个性化推荐用户偏好需求协商软件开发

普适计算关键技术研究:上下文建模与行为识别

在经历了主机(mainframe)时代和个人电脑(personal computer)时代后，随着嵌入式设备、无线网络等技术的蓬勃发展，信息空间与人们生活和工作的物理空间逐渐融合，普适计算这一新的

学位

普适计算上下文建模行为识别

图像分类中的对抗样本攻击与防御技术研究

在图像分类任务中原本可以被正确分类的图片，在添加一些细微的非随机扰动后形成的新的图片却使得深度学习分类模型以高置信度分类错误。更令人沮丧的是在同一训练集的不同子集

学位

图像分类对抗样本攻击算法防御算法自编码器

数据仓库及OLAP技术在航空票务系统的应用

如今是信息时代，电子商务已经逐渐成为一种主流的商务模式，全球航空客运机票已经逐渐被电子机票所取代。为了适应市场需要，各航空公司以及机票代理都纷纷研发了各自的电子购票系

学位

数据仓库

P2P流量检测技术的研究与实现

如今，P2P越来越成为网络计算领域中的研究热点，它被广泛地应用于网络互联技术领域，极大地提高了互联网中信息、带宽和计算资源的利用率。 P2P技术颠覆了传统的C/S信息服务模

学位

流量检测神经网络网络计算互联网

PSP流媒体系统的若干关键属性的优化方案

P2P流媒体系统在过去几年里用户群急速膨胀、应用面不断拓宽。典型的P2P流媒体系统有Skype、PPLive、PPStream等，其中无论网络音频、网络视频领域均存在数十家公司激烈竞争，这

学位

PSP流媒体系统Gossip协议关键属性优化设计测试实验

可变剪接问题的网格计算环境设计与实现

可变剪接方法是当前生物信息学领域的一种重要的研究工具,它通过调节选择不同的外显子的组合方式来搜索mRNA亚型的可能,已经成为扩展蛋白质组变体的最主要的方法。近几年里,

学位

网格计算科学计算遗产程序可变剪接问题领域服务环境设计

基于机器学习的决策式中文依存句法分析的研究

与本文相关的学术论文