中文文本拼写和语法纠错技术研究

来源 :王晨懿 | 被引量 : 0次 | 上传用户:ehvv5022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本中的拼写错误和语法错误在日常生活中十分常见,这些错误通常是由语言使用者的书写、自动语音识别、光学字符识别等原因引起的。文本纠错技术可以自动识别出文本中的拼写错误和语法错误,具有重要的研究意义。中文文本纠错技术对于快速校验海量电子文本、帮助中文初学者学习中文、保证下游任务的输入准确性等方面都有着重要的保障作用,并且在搜索引擎、文章自动评分、光学字符识别等许多与人们生活息息相关的应用中都发挥着重要作用。本文关注中文的拼写检查和语法检查领域,对中文拼写检查(Chinese Spelling Check,CSC)任务和中文语法错误诊断(Chinese Grammar Error Diagnosis,CGED)任务进行了深入研究。本课题的研究工作如下:1.字音字形知识增强的中文拼写检查。中文文本中错别字多由字音或字形相似导致的。本工作关注了这一问题,使用GRU对字符的拼音和仓颉码进行编码,使模型在对语义建模的同时,能够对字符的字音字形相似性知识进行建模。SIGHAN 2014和SIGHAN 2015上的实验结果表明,该方法比基线模型有更好的性能,证明了方法的有效性。2.基于预训练的字音字形知识增强的中文拼写检查。在前一部分的基础上,本课题期望语言模型在预训练期间也能够学习到对于CSC任务重要的知识,如字符间的相似性信息等。本工作设计了更适用于中文拼写检查任务的Mask策略和预训练任务,缓解了预训练任务和下游任务不一致的问题。SIGHAN 2014和SIGHAN 2015上的实验结果表明,本工作取得了最先进的性能,证明了该方法的有效性。3.基于多阶段训练和编辑级别投票的中文语法错误诊断。该方法中包含三类模型用于处理不同的问题:中文语法错误检查模型、中文语法错误纠正模型、中文拼写错误纠正模型。本工作采用编辑级别投票的方法进行模型集成,融合上述三类模型的结果。此外采用包括一个预训练阶段和两个微调阶段的多阶段训练策略。与以往的研究在CGED 2020测试数据上报告的指标的对比中,本工作在所有级别都取得了最高的F1值,证明了该方法的有效性。尤其是在中文语法错误检查子任务上,本工作的单模型取得的F1值高于以往研究的多个模型集成的结果。本文的研究和实验是中文拼写检查和中文语法错误诊断技术的进一步尝试。实验结果表明,本文在拼写层面和语法层面提出的方法都能取得最先进的性能,并且超越了一些以前的工作,验证了模型的有效性。
其他文献
学位
党的十九大提出了政府要职能转变,要加快简政放权,要不断创新政府监督方式和方法,提高民众对政府的信赖,建设服务型政府。近年来,一些地方政府逐渐意识到政府与民众之间的沟通存在严重的障碍,积极寻找对策来解决政府民众之间的良性互动,市民服务热线(政府服务热线、12345市民服务热线等)就是在这种背景下应运而生。四川发布了《四川省推动“互联网+政务工作”实施网络信息惠民项目方案》明确提出了要实现普通市民办理
学位
学位
随着人工智能的不断普及,其应用逐渐覆盖了各个方面。机器学习是实现人工智能最有效的方法之一。机器学习是使用算法来解析数据,从中学习,并对真实世界的事件做出决策和预测。深度学习(DL,Deep Learning)是机器学习领域的一个新的研究方向,深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征,在搜索技术,数据挖掘等相关领域取得了很多成果。深度学习在科学和工程领域同
学位
中国渐进式市场化改革按先下游部门后上游部门的顺序展开,而产业政策主要支持上游部门发展,形成市场化改革以下游部门为主、产业政策以上游部门为主的配对组合。这一配对组合如何影响中国经济增长?如果市场化改革主要作用在上游部门而产业政策重点支持下游部门,对经济增长的促进作用会更优吗?为了回答这些问题,本文基于Liu(2019)的分析框架,在理论上分析了产业链位置对市场化改革和产业政策实施效果的影响。研究发现
期刊
目的:分析火针联合丙酸氟替卡松乳膏治疗慢性单纯性苔藓的临床效果。方法:选取江门市皮肤医院2020年12月至2021年12月期间接受治疗的90例慢性单纯性苔藓患者,按随机数字表法分为观察组和对照组,各45例。对照组患者采用丙酸氟替卡松乳膏治疗,观察组患者采用火针联合丙酸氟替卡松乳膏治疗。比较两组患者治疗效果以及瘙痒程度和不良反应发生情况。结果:观察组患者治疗总有效率为93.33%,高于对照组的77.
期刊
农民农村共同富裕作为共同富裕的有机构成,关系全体人民共同富裕目标的实现。本文在测算我国30个省(区、市)2006—2020年的农民农村共同富裕发展水平的基础上,借助动态面板模型与中介效应模型实证分析产业结构升级与构建现代产业体系对农民农村共同富裕的影响。研究结果表明:产业结构升级与构建现代产业体系均能显著提升农村富裕水平、缩小城乡差距,是推动农民农村共同富裕的有效手段,但同时也存在地区差异,东部地
期刊
现代化产业体系是我国现代化经济体系最重要的组成部分,为我国高质量发展提供了物质与技术基础。本文从部门结构、功能结构和空间结构三个维度出发分析了现代化产业体系的核心特征,揭示了当前我国产业体系发展存在着部门结构不够优化、高附加值功能不强和有效的区域产业分工协作网络尚未形成等突出问题。新时代我国要从推进部门结构优化、促进产业功能升级和优化产业空间布局三方面入手加快建设现代化产业体系。
期刊
为了在百年未有之大变局和新发展格局之下,我国大学能为社会主义现代化强国建设提供人力与智力保障和创新引领,也为了高校自身能建立竞争优势、实现内涵发展,我国积极推进双一流建设。为了我国高校可以更好地通过战略转型促进世界一流大学建设,本文进行了世界一流大学发展中的战略转型机制研究。首先,开展了理论基础研究。研究先进行了概念界定;然后分析了世界一流大学发展中的战略转型,发现世界一流大学经历初创期、腾飞期、
学位
「终极关怀」(Ultimate Concern)概念系由保罗·蒂利希(Paul Tillich,1886-1965)所提出,但其立场是神学性质的。而站在哲学立场上的马克思主义与儒家学说虽未系统论述其终极关怀理论,却蕴含着极其丰富的终极关怀思想。论文的研究目的在于期待能藉由认识和探讨马克思与儒家蕴含的终极关怀思想,来回答人生命存在的终极问题,即人生命的意义和目的为何?进而探讨马克思与儒家终极关怀思想
学位