论文部分内容阅读
随着社会信息化迅速发展,自然语言处理作为人工智能的重要研究领域之一。句法分析已成为自然语言处理中的关键问题,因此长期以来一直是自然语言处理领域的重要课题。句法分析主要在机器翻译、信息抽取等方面有着重要的意义,并能极大地提高系统的智能性和实用性。其主要任务就是自动对句子进行句法分析,生成满足句法分析模型的所有句法分析树。句法分析结果的好坏直接影响到系统的准确性。由于汉语言自身的结构、语义复杂性,当前存在多种句法分析方法。本文继承前人的一些有效、经典的思想方法,结合汉语言自身的特点,在二元组合文法的基础上提出了一种基于规则和统计相结合的汉语分析方法。句法分析算法是句法分析器的重要组成部分,它直接影响了句法分析的准确性和时间效率。本文介绍了几种传统的句法分析算法,并且从工作原理、时间复杂度、搜索策略等方面进行比较和分析。其中,重点介绍了经典CYK句法分析算法,首先,根据BCG文法的特性将二元运算关系优先级融合到算法中,实现了分析过程中的剪枝和一定程度上的歧义消解,其最终产生的分析结果树的数量和花费的时间均明显低于传统的CYK算法。其次,本文的图算法以表格方式存储分析过程的中间结果,分析树可以共享空间,降低分析算法的时间花费。并在此基础上对算法进行改进,提出了基于二元组合文法的概率CYK算法。歧义消解是句法分析研究中的重点,本文针对歧义消解问题建立了概率歧义消解模型。在传统的概率上下文无关文法模型的基础上,提出了一个包含中心词信息、语义信息、二元运算关系信息、词间距以及从大规模语料库中抽取出来的概率信息的消歧模型。本文使用基于动态规划思想的Viterbi算法在句法分析过程中动态剪掉不可能导致最优分析结果的无用边,降低了分析算法的时间花费,同时记录下旬法分析的路径,反向回溯输出了最佳分析树结果;采用最大似然估计的方法,为文法规则选择概率,使得训练句子的概率最大:并改进分值计算方法,重新定义计算公式。通过对系统的测试发现,该模型处理12个字长内和16个字长内句子的句法分析准确率达到了72.4%和81.0%,能够较好的保证句法分析的准确性。因此,本文所提出的基于二元组合文法的句法分析模型具有一定的研究意义和实用价值。