论文部分内容阅读
电子文本往往包含各种错误,纠错环节的工作量较大,人工纠错的方式已经无法解决迅速增长的电子文本。为此利用计算机自动对文本进行纠错显得越来越重要。语法纠错算法(GrammaticalError Correction,GEC)也受到了许多研究者的重视,许多GEC方法应运而生。目前的语法纠错方法主要包括基于规则的方法、基于N-gram模型的方法和基于句法分析的方法,这些方法存在以下问题:(1)基于规则的方法需要建立大规模的规则库。在不断添加硬性规则的同时,规则之间会出现互相矛盾的情况,严重降低纠错效率和准确率。试图用有限的规则去规范复杂的真实语言,显然是不合理的。(2)基于N-gram的方法无法兼顾长距相依问题和数据稀疏问题。N-gram模型只能描述句子中的局部联系,当句子中的成分间距超过N-gram长度时,该纠错算法就失去了纠错能力。另一方面,当N-gram长度足够长时,虽然能解决长距问题,但是会出现数据稀疏问题,同样会使算法失效。(3)基于句法分析的方法无法有效纠正局部错误。在某些靠局部联系决定词语用法的情况下,句法分析会忽略这种联系,导致纠错失败。本文针对上述问题提出了一种结合句法分析与N-gram模型的纠错方法具体工作工作如下:(1)首先使用句法分析,将英语复句分割成多个分句;然后对每个句子N-gram建模,得出每个分句的概率;最后为分句赋予权值,所有分句概率求积得到复句概率。(2)考虑到N的值过大会出现数据稀疏以及过小会降低准确率的问题,本文提出了 LeftBigram、RightBigram 和 Trigram 的组合建立分句的 N-gram 模型。(3)在纠错算法上,采用错误候选集和N-gram得分投票策略。该策略计算每个错误候选实例的N-gram在语料库中的频率,通过加权求和得到实例的频率,最后取集合中最高者为纠正结果。实验表明本文提出的结合句法分析与N-gram模型的语法纠错是可行、有效的。