论文部分内容阅读
句法分析是自然语言处理(NLP)的重要研究任务之一。依存分析作为句法分析的一种重要方法,通常是衔接自然语言处理中词法分析与语义分析的桥梁,在自然语言处理中具有至关重要的作用。依存分析是指基于依存语法来确定句子中词与词之间的依存关系,而这些依存关系的解析对于整句的语义分析具有重要的帮助。
当前,一种以统计学习分类算法为基础,具有快速、有效、易于实现的决策式依存分析模型引起了大家的关注。鉴于这种决策式依存分析模型对英语进行依存关系分析时的优良表现,本文在深入研究了该类依存句法分析器的基础上,发现原始决策式依存句法分析模型存在以下两方面的问题:
1、算法本身是一种贪婪的算法,它把依存分析的每一个分析步骤孤立开来,在每一个分析步骤中只挑选最有可能的分析动作,对于整句而言,容易产生依存关系的遗漏和依存操作的混淆;
2、由于分析过程是决策式的缘故,容易产生错误累积,后面的分析会继承前面遗留下来的错误。一旦错误累积超过一定的程度,将会导致后继的分析出现连锁错误的情形。
针对上述两个问题,本文结合中文自身的特点,给出了相应的改进办法并提出一种改进的中文依存句法分析器:
1、使用局部搜索策略。作为一种优化算法,它摆脱了仅在“点”选取最优动作分类的不足,把“点”扩展到“线”,即在更大的范围内寻找分析动作的最优序列。它有助于缓解贪婪算法带来的局限,控制错误的产生,从而提升分析器的性能。
2、使用两阶段分析。针对一些特定易错结构,在第一阶段,不急于进行归并处理,选择跳过;在第二阶段,待到其余结构合并完整以后,再专门处理这些特定结构。两阶段分析技术适当地延缓了这些易错结构的处理时机,避免了因信息不全而造成分析错误的概率,从而更准确地判断出句子中依存关系,尤其是对根结点的确定。
论文利用改进的依存句法分析器进行中文依存句法分析实验,实验结果表明,基于局部搜索的两阶段决策式依存分析模型,在性能上好于原始决策式依存分析方法,同时保持较低的时间复杂度。