融合多粒度特征的越南语文本语法纠错方法研究

来源 :张洲 | 被引量 : 0次 | 上传用户:waxs8520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究越南语文本语法纠错方法对于面向东南亚语言的自然语言处理工程应用具有重要意义。针对越南语的语法纠错相关工作较少,而且越南语的语法纠错人工标注语料极少,可以利用的数据资源稀缺。利用现有的预训练语言模型和序列生成模型实现越南语的语法纠错时会存在以下问题:训练数据不足导致模型性能较差;模型的编码端进行词嵌入时缺失音节的声调、词性和短语成分等不同粒度的语义信息,导致错误识别和错误纠正效果不佳;序列生成模型生成句子时不可控,导致模型纠错的准确率不高。针对上述问题,论文提出了一种融合越南语字符、音节以及句子等粒度特征的针对越南语文本的语法纠错方法,具体完成了如下研究工作:(1)越南语语法纠错语料库构建:针对语法纠错语料资源稀缺的问题,提出一种利用正确的越南语文本生成对应错误文本的数据增强算法,来构造“错误-纠正”平行句对,生成错误时利用了人工构建的音节混淆集词典和开源的词性标注工具,然后设计了一个对错误句子进行自动标注的算法。根据提出的方法人工构造了20.8万带有标注的“错误-纠正”平行句对,为后续研究提供了基础数据。(2)融合越南语字符和音节特征的语法错误检测方法:针对多语言BERT模型在编码端进行词嵌入时缺失音节声调信息而导致的语法错误识别效果不好的问题,提出一种融合越南语字符与音节特征的方法,在多语言BERT模型的编码端增加额外的字符与音节特征嵌入,使得检测模型学到更多语义知识。实验结果表明,提出的方法在测试集上的F0.5值和F1值均为最高,分别为71.36%和72.91%。(3)融合不同粒度特征的越南语语法错误纠正方法:针对序列生成模型生成句子时不可控并且未能有效利用越南语句子特征而导致的纠错准确率不高的问题,在语法错误检测模型的基础上进一步融合越南语句子特征,提出一种基于“错误检测-错误纠正”的流水线模型,然后利用BERT掩码语言模型重新预测错误位置的音节,纠错部分再利用语言模型对纠正候选句子进行打分,选择句子得分最高的候选句子作为模型最终的输出。在构建的纠错语料库上的实验结果表明,提出的方法在测试集上取得了42.59%的F0.5值和42.67%F1值,比最好基线模型的F0.5值和F1值分别高出16.69%和17.84%。(4)越南语文本纠错原型系统:在上述研究的基础上,实现了一个基于“错误检测-错误纠正”的Web原型系统,系统包括文本输入模块、文本检测模块、文本纠错模块等,文本检测模块和文本纠错模块使用了深度神经网络模型和N-gram语言模型来实现功能。系统可以实现对输入越南语文本的拼写和语法检测,并且能够对错误的拼写和语法进行纠正。
其他文献
目的 了解儿科护士在临床中医护理适宜技术工作中存在的问题,为进一步提升中医护理适宜技术的应用提供依据。方法 采用半结构式访谈方法,对该院2022年1—5月10名护士进行深度访谈收集资料,采用Colaizzi七步分析法对资料进行分析总结。结果 通过资料分析,提炼出4个主题:家属缺乏相关中医知识、家属期待效果的落差、护士对操作风险的担忧、护士对中医护理认同不足。结论 儿科护士在开展中医护理适宜技术存在
期刊
泰国处于东南亚的中心地带,在中国和东南亚的人文交流与经贸合作中发挥着重要作用。中国与泰国之间人员交流变得愈加频繁,而人员往来极其依赖语言交流。汉泰双语神经机器翻译属于低资源神经机器翻译,由于训练数据的匮乏,导致汉泰双语机器翻译质量较差。目前针对资源稀缺的问题,一般采用融合句法知识的方法,树结构的融合是较为常用的句法知识融合方法之一,而现有的树结构融合方法中,大多需要独立的编解码器,模型结构较为复杂
学位
在互联网快速发展,一带一路政策的影响下,我国与越南等国家交往密切。当前网络情况下每天会产生大量的新闻信息,为了及时掌握并更有效的对新闻信息进行阅读,越汉跨语言摘要任务是更有效的方式。越汉跨语言摘要任务还面临着一些问题,其中,语义对齐困难是最突出的问题,这导致生成的跨语言摘要在事实的描述以及主题的表达上还存在不明确的问题。双语的词级信息可以很好的引导摘要的生成,即关键词等局部信息以及主题词关联图等全
学位
信息时代持续加速发展,快速发展的移动互联网、更新迭代的通信技术、不断升级的移动终端设备,催生了以抖音为代表的短视频平台的兴起。作为抖音平台上拥有最多粉丝的《人民日报》抖音号,是主流媒体向新媒体转型的成功代表。对《人民日报》抖音号新闻标题的多模态研究,可以揭示新媒体环境下新闻标题的变化,归纳出优秀短视频新闻语言表达的特点。在视觉语法基础上构建起针对短视频新闻的多模态分析框架。按照此框架,结合ELAN
学位
《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》强调,“要依法平等保护民营企业产权和企业家权益,破除制约民营企业发展的各种壁垒,完善促进中小微企业和个体工商户发展的法律环境和政策体系。弘扬企业家精神,加快建设世界一流企业。”在党和国家的政策鼓励下,民营企业发展迅速。而家族企业作为最具普遍意义的企业组织形态,在民营经济中占据了举足轻重的地位。我国家族企业是在中国传统文化的
学位
小江流域水土流失严重,是我国滑坡、泥石流灾害的典型发育地区。滑坡灾害不仅破坏了当地地貌单元的完整性,还导致了地表景观生态格局的破碎,引发一系列生态环境问题,制约着当地经济社会的可持续发展。对潜在的滑坡区域进行早期识别和危险性分析,是当地滑坡、泥石流灾害预防和治理工作的关键环节,对保护人民生命财产和生态环境安全具有重要意义。传统的地质灾害调查方法大多基于点观测,不仅监测范围小,还严重受到监测现场条件
学位
随着互联网信息时代的发展,新浪微博已经成为了社会热点事件曝光、法律案件官方通报的主要阵地,引起网民热议的同时也产生大量具有潜在价值的评论信息。故根据观点对象对涉案微博评论进行分类,然后由不同观点对象评论簇生成全面、精确的观点对象摘要短文对案件舆情分析和紧急处置具有重要意义。但是涉案微博评论观点摘要是特定司法领域的任务,评论表达随意,不规范,难以提取有效特征,同时缺乏评论-摘要语料对,从而导致生成的
学位
随着中国“一带一路”的提出与发展,我国与泰国的沟通和交流日益密切,汉语和泰语之间的机器翻译具有较高的应用需求。在既有的机器翻译研究中,大规模、高质量的平行语料是重要的条件,而泰语作为低资源语言缺乏大规模汉泰平行句对,很大程度上阻碍了汉泰神经机器翻译的发展。融入句法结构知识可以使翻译结果更符合句法约束,弥补没有大规模平行语料的缺陷。但传统的句法知识获取方法往往依赖大规模标注的语料库,而泰语缺乏句法标
学位
教育是关乎国本、民生的重要工作,高校专项资金的使用情况在信息化程度的提高下逐渐透明化,人民群众对高校专项资金使用用途及效益的关注度也逐渐升高,强化教育类专项资金绩效审计是人们对政府部门行使的责任进行监督的必然要求,随着教育的发展,教育类专项资金在使用管理过程中,政府和高校对中央支持地方高校发展专项资金的监督管理的强度不断加重,相关的绩效评价指标体系建设也显得非常迫切,因此审计机关开展这类绩效审计是
学位
近些年,安徽省经济发展和城市建设日益增强,地域差异也比较明显,表现出安徽北部人口多于南部,而且更为密集。造成此种人口分布状况的原因有很多,包括自然、社会等因素的共同作用。那么,综合分析安徽省人口布局,探究人口分布的特点就显得尤为重要。论文首先系统分析了安徽省人口分布情况及其发展特点,并加以定性分析和定量分析佐证。运用空间回归模型、广义线性模型和空间杜宾模型,通过比较分析,来考察各影响因素对安徽省各
学位