基于深度学习的中文文本校对方法研究

来源 :北华航天工业学院 | 被引量 : 0次 | 上传用户:YGLDY1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本校对工作一直存在于人们的日常生活中。随着文本电子化趋势的迅猛增加,提升文本自动校对相关模型性能的研究更加迫切。本文根据其研究历程,对中文文本校对方法进行了综述性的分析和总结,发现传统的中文文本校对方法存在诸多问题。如何将深度学习技术有效的应用于中文文本校对领域是一项具有挑战性且十分有意义的任务。在查阅文献并试验了近几年用于中文文本校对任务的深度学习模型后,根据测评结果选用Spell GCN模型作为本研究的基线模型。在研究过程中根据遇到的中文文本校对领域存在所需标注数据少、增量学习时存在灾难性遗忘、模型不能很好理解词语语义以及上下文语义关系等问题,本文提出了数据增强、增量学习、语义校对、优化算法等方面的改进方向,旨在提升现有中文文本校对模型的性能,保证校对的可靠性。主要工作如下:(1)分析文本中存在的音近错误和形近错误的比值,使用增加噪音的数据增强方法对已有中文文本校对数据进行增强。其核心在于通过噪声替换的方式提升现有数据集的规模和多样性,进而增强模型的泛化能力。(2)研究增量式训练中文文本校对模型的效果,并在研究过程中提出了基于回放机制的增量学习训练方法,有效地缓解了训练模型过程中出现的灾难性遗忘问题。(3)研究如何在校对的过程中引入语义知识,使模型可以识别出文本中词语以及实体使用错误的情况,进而进行中文语义知识校对。本文构建了相关语义知识校对数据集作为知识驱动,进一步增强了模型学习上下文之间语义关系的能力。(4)结合Soft-Masked BERT算法中的检错网络,对Spell GCN算法进行改进与优化,提出了Soft-Masked Spell GCN算法。通过实验验证,在训练数据和训练环境相同的条件下,Soft-Masked Spell GCN模型的测评结果优于Soft-Masked BERT模型和Spell GCN模型。本文创新性地采用知识驱动结合深度学习的方式进行了语义知识校对,并提出Soft-Masked Spell GCN算法,有效地提升了拼写校对和语义知识校对模型的整体性能。
其他文献
本篇报告以《异国他乡:来一场海岛之旅》引言至第2部分为翻译实践文本。游记文本兼文学性与真实性于一体,而修辞手段的使用在文本中频繁出现,使得文学性的特征鲜明,因此在翻译中再现修辞手法所营造的文学性便成为本次翻译实践的翻译难点。结合文本,将此翻译实践中的文学性再现分为音韵修辞格的翻译和词义修辞格的翻译,并将音韵修辞格进一步分为头韵和尾韵,主要使用了四字格的翻译技巧来进行翻译,将词义修辞格分为拟人、暗喻
由次级抵押贷款造成的金融危机,使人们开始重视系统性风险。系统性风险传染快、破坏性大,容易造成整个金融体系发生崩盘,导致大量金融机构面临破产。面对系统性风险的影响,巴赛尔协议III转变传统微观审慎管理理念,开始强调宏观审慎管理,由注重对单个银行的监管变为对整个金融体系的监管。近年来,贷款价值比、债务收入比、逆周期缓冲机制等宏观审慎工具在许多国家得到运用,相关研究也证实了宏观审慎工具的有效性。面对复杂
中国是当今世界上发展久远的文明古国之一,五十六个民族之间互相包容,和谐发展,各民族的优秀传统文化源远流长,在新时代里亦是百花齐放。其中的彝族,源自我国远古氏族部落,他们的祖源早在炎、黄时代就已存在。而彝族漆器,是彝文化不可分割的部分,它具有不脱漆料、不易曲变、不易摔坏,以及保存时间长久的特点。因此,为了更加深刻地认识彝族漆器,对它进行深入研究是必要的,这对保留和传承珍贵的少数民族文化资源,具有显著
自2001年以来,我国的政策不断强调校本课程的重要性。特别是伴随《基础教育课程改革纲要(试行)》的出台,标志着校本课程开发备受重视,意味着初中音乐校本课程开发应该成为每一个学校在课程安排与设计中较为重视的一部分。初中音乐校本课程开发意味着学校能够按照学生需求和学校自身情况设置音乐课程,能够更好地培养和发展学生的“音乐学科核心素养”。如何更好地开发初中音乐校本课程,需要了解初中音乐校本课程目前的实施
传统音乐进课堂是在国家政策背景下基础教育阶段存在的一个普遍现象,戏曲进课堂是传统音乐进课堂中的重要组成部分。自2008年京剧进课堂以来,传统戏曲教学已经在我国中小学校的音乐教育实践中开展了近十年,各地传统戏曲文化的发展取得了良好效果,戏曲如何更好、更有效地融入中小学艺术教育成为了学界关注的热点话题之一。川剧作为西南地区最重要的戏曲剧种,其植根于传统、具有悠久历史和深厚文化内涵等自身优势,让川剧进课
目的小细胞肺癌(Small-Cell Lung Cancer,SCLC)是肺癌的主要病理类型之一,恶性度高,预后差。虽然部分早期SCLC患者,可以通过手术、化疗获得治愈。但由于早期无典型临床症状,大部分患者就诊时已是进展期,失去手术治疗机会。化疗联合胸部放疗(Thoracic Radiotherapy,TRT)是局限期SCLC(Limited-Stage Small-Cell Lung Cance
最近几年,伴随着城市建设的蓬勃发展,政府加大了土地征收、房屋征收、拆迁的力度。与此同时,在利益驱使下,部分群众没有经过相关行政批准突击建房、批少建多或者扩建未经批准的合法建筑物的情况日益增多。行政机关通常按照《城乡规划法》的相关规定将上述建筑认定为违法建筑,并作出“责令限期拆除”的决定。行政相对人对该决定不服提起行政诉讼时,人民法院如何认定其法律属性成为审判实践中一个绕不开的点。“责令限期拆除”的
作为政府发言人,外交部发言人的形象不仅关乎于个人形象,更与国家形象和外交工作息息相关。近年来,各种传播主体通过微信公众平台广泛参与社会传播,使其成为移动互联网时代最具有影响力、传播力和引导力的媒体平台之一,中国外交部发言人的形象也借此平台为更多公众所熟悉。文章选取2014年至2019年微信公众平台上关于中国外交部发言人的278篇文章为研究样本,对其进行内容分析和文本分析,以揭示中国外交部发言人在微
目的:本次研究的目的是验证听神经瘤患者颅内动脉瘤的发生率是否高于年龄和性别匹配的对照组,并评估合并颅内动脉瘤的听神经瘤患者发病相关的独立危险因素,总结听神经瘤合并颅内动脉瘤患者的临床特征、治疗选择策略及预后,有助于提高临床医生对该疾病的诊治水平。资料与方法:回顾性分析2015年1月1日至2019年12月31日在我院进行规范治疗的231例新确诊为听神经瘤患者的临床资料,以及将同一时期在我院体检中心的
在党的十九大报告中,特别强调要加快创建人力资源、科技创新、实体经济以及现代金融协同发展的产业体系。战略性产业是否能够取得较快发展,其根本是金融支持的效率和力度,这也是产业繁荣程度的重要之处,应不断强化金融支持在战略性新兴产业发展中的地位。本篇文章基于现阶段我国社会经济结构的实际情况,对金融支持在产业培育及其产业链延伸中的作用规律以及效率做出深入的研究,努力寻找出有效发挥金融支持能动性的重要途径和实