结合N-gram模型与句法分析的语法纠错

来源 :东南大学 | 被引量 : 9次 | 上传用户:chly31
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子文本往往包含各种错误,纠错环节的工作量较大,人工纠错的方式已经无法解决迅速增长的电子文本。为此利用计算机自动对文本进行纠错显得越来越重要。语法纠错算法(GrammaticalError Correction,GEC)也受到了许多研究者的重视,许多GEC方法应运而生。目前的语法纠错方法主要包括基于规则的方法、基于N-gram模型的方法和基于句法分析的方法,这些方法存在以下问题:(1)基于规则的方法需要建立大规模的规则库。在不断添加硬性规则的同时,规则之间会出现互相矛盾的情况,严重降低纠错效率和准确率。试图用有限的规则去规范复杂的真实语言,显然是不合理的。(2)基于N-gram的方法无法兼顾长距相依问题和数据稀疏问题。N-gram模型只能描述句子中的局部联系,当句子中的成分间距超过N-gram长度时,该纠错算法就失去了纠错能力。另一方面,当N-gram长度足够长时,虽然能解决长距问题,但是会出现数据稀疏问题,同样会使算法失效。(3)基于句法分析的方法无法有效纠正局部错误。在某些靠局部联系决定词语用法的情况下,句法分析会忽略这种联系,导致纠错失败。本文针对上述问题提出了一种结合句法分析与N-gram模型的纠错方法具体工作工作如下:(1)首先使用句法分析,将英语复句分割成多个分句;然后对每个句子N-gram建模,得出每个分句的概率;最后为分句赋予权值,所有分句概率求积得到复句概率。(2)考虑到N的值过大会出现数据稀疏以及过小会降低准确率的问题,本文提出了 LeftBigram、RightBigram 和 Trigram 的组合建立分句的 N-gram 模型。(3)在纠错算法上,采用错误候选集和N-gram得分投票策略。该策略计算每个错误候选实例的N-gram在语料库中的频率,通过加权求和得到实例的频率,最后取集合中最高者为纠正结果。实验表明本文提出的结合句法分析与N-gram模型的语法纠错是可行、有效的。
其他文献
近几年,我国政府在危机管理时的不当处置导致出现了政府公信力缺失的现象,使政府施政时面临空前的压力与难题。面对挑战,政府如何通过完善自身有效解决社会问题,提高公信形象
腹主动脉瘤破裂是最常见、最凶险的疾病之一。提高对其治疗的临床决策水平至关重要。比较传统开腹修复治疗和血管腔内修复治疗的优缺点,以最佳证据为指导,选出最佳方案应用于临
受初始义"询问说话方式"的影响,话语标记"怎么说",在互动式口语交际中,其核心义表现为对后续信息的组织与斟酌。该核心义为"怎么说"的进一步虚化提供了认知动因,使"怎么说"的
中国木刻运动是近代中国革命文艺运动的重要组成部分。这场运动早期存在着主题模仿、脱离中国实际等种种局限性,影响了革命作用的发挥。1938年,中国木刻运动中心转移到延安后
随着互联网的不断普及和农村互联网应用水平的提高,农村居民的消费方式也在逐渐改变,农村居民对于网上购物的方式接受程度越来越高,再加上农村网络基础设施的完善、政策的支
聂华苓是台湾旅美的著名女作家,湖北省应山县人,一九二六年出生在宜昌。聂家是书香门弟。祖父中过举,曾被清政府委任为知县。父亲是桂系官僚,常年赋闲,绝大部分时间在家中读
为研究华南8号木薯叶绿素荧光参数的日变化情况及其与温度湿度等环境因子间的关系,采用调制式叶绿素荧光成像系统Imaging-Pam对光系统Ⅱ(PSⅡ)的叶绿素荧光参数进行测定,记录
来自全国两会的政策“大礼包”如何才会顺顺当当地送到百姓手中?从中央到地方,其间会有一个不算轻松的落地、落实过程,甚至也可能存在落不了地、落不了实的风险。$$实施更大规模
报纸
以三疣梭子蟹(Portunus trituberculatus)为研究对象,研究氨氮胁迫对中肠腺、胃、肠组织消化酶活力的影响。实验设计对照组(自然海水)、1、5、20 mg/L处理组,分别于氨氮胁迫
<正>颜真卿是继二王之后成就最高、影响最大的书法家。他改变了唐朝初期瘦硬书风,形成了丰腴雄浑,宽博恢宏的独特风貌。他的楷书端庄雄伟,气势开张,世称"颜体",与柳公权并称"