【摘 要】
:
作文自动纠错任务的主要目标是利用计算机手段自动检测并纠正作文中存在的错误。国外作文自动纠错研究开展较早,已经取得了较多的研究成果,也有成功的商业应用。作文自动纠错一直是汉语智能考试的重要研究内容,但是由于问题的复杂性,汉语作文纠错问题至今没有得到很好的解决。通过本研究的开展,不仅能够满足汉语学习者的需求、减轻汉语教师的工作强度,而且对汉语考试自动化有较大的推动作用。本研究成果还能直接应用到自然语言
论文部分内容阅读
作文自动纠错任务的主要目标是利用计算机手段自动检测并纠正作文中存在的错误。国外作文自动纠错研究开展较早,已经取得了较多的研究成果,也有成功的商业应用。作文自动纠错一直是汉语智能考试的重要研究内容,但是由于问题的复杂性,汉语作文纠错问题至今没有得到很好的解决。通过本研究的开展,不仅能够满足汉语学习者的需求、减轻汉语教师的工作强度,而且对汉语考试自动化有较大的推动作用。本研究成果还能直接应用到自然语言处理和自然语言生成的很多领域上用来提升系统的表现,如文本生成、机器翻译等。神经网络在人工智能的很多领域的应用上都取得了巨大成功,本研究利用神经网络技术解决作文纠错问题。通过对汉语作文中常见错误的分析,我们发现将语言学特征规则与神经网络组合起来,能够更好的解决汉语作文中的错误。因此本研究提出了一个多策略组合的汉语纠错模型,该模型在对外汉语考试HSK的作文批改任务中取得了很好的效果。本文主要研究内容和创新点如下:(1)利用对外汉语考试中的作文文本和NLPCC作文文本构造了汉语作文语料库(2万条训练集数据和2051条测试集数据),主要解决了汉语作文自动纠错研究资源匮乏的问题。针对汉语作文改错的任务构建了多类型的改错词典资源,共构造繁体字词典、同音字词典、同形字词典、混淆集词典、同义词词典、通用词词典总计836856个词汇。(2)针对汉语作文中不同类型的错误提出了多策略组合的纠错模型。使用规则的方法解决了繁体字和拼音字错误;使用规则和统计相结合的方法解决了别字和错词错误;使用端到端的BERT、Seq2seq+Attention、Transformer神经网络纠错模型解决了多词与缺词错误。与以往研究效果相比,本文提出的基于神经网络的纠错模型取得了较好的纠错效果,性能提升显著。(3)将规则与统计模型和神经网络模型相结合,设计出一款B/S架构多策略组合的作文自动纠错系统,系统自动修改作文中的错误并生成一份个性化报告推荐给用户,有效的将自然语言处理和自然语言生成领域结合在一起应用在作文纠错系统中。
其他文献
当今时代,5G、物联网、云计算等技术的高速发展,带来了数据信息量的爆炸式增长,这对存储系统提出了更高的要求。存储系统的存取效率、数据的可靠性将受到严峻挑战。RAID存储系统具有良好的存取性能、优秀的可扩展性再加上相对低廉的成本,因而被广泛应用在各大企业的存储服务器中。本文基于RAID6存储系统,对RAID6编码的布局与重构、RAID6在线扩容方案的优化进行研究,并设计出两种方案。内容如下:本文提出
随着互联网的发展,近几年网络规模和网络流量出现井喷式的增长。数据中心面临的流量压力与日俱增,如何对网络流量进行合理地分配,缓解数据中心的负荷压力,保障网络的链路畅通就成为了需要解决的问题。传统的网络架构由于采取分布式的布局,难以进行全局性的优化;因此本文研究使用具有集中控制特性的软件定义网络(Software Defined Network,SDN)来解决数据中心的链路负载均衡问题。SDN的集中控
随着国内外汉语学习热潮的持续升温,围绕汉语作文自动评分的研究吸引了越来越多研究者的兴趣。作文自动评分的研究目标是利用计算机技术自动给作文进行评分工作,是自然语言处理技术在教育领域的重要应用。该技术不仅能够降低人工评分存在的主观因素的影响,而且能够很大程度上减轻阅卷人的工作负担。目前作文自动评分的研究和系统研发主要是围绕英语展开的,对汉语作文自动评分的理论和实践研究较少且没有得到较好的应用。本文主要
推荐模型作为解决信息过载问题的有效途径,近年来已在各领域得到广泛应用。传统推荐模型由于浅层的结构设计,导致其无法提取到用户和项目的深层次特征。同时传统推荐模型也无法对序列化的用户行为数据进行合理建模,难以学习到序列数据的前后依赖关系。现有的基于深度学习的推荐模型,多侧重于用户历史行为学习,或是侧重于项目内在关系的分析,难以兼顾深层次用户特征与项目特征的有效提取。鉴于此,本文探索基于深度学习推荐模型
句子是自然语言运用的基本单位,也是自然语言处理的研究对象。句子相似度计算是文本相似度计算的基础,在文本理解中具有重要的意义。藏文句子相似度计算处于起步阶段,考虑的因素还不够全面。藏文句子相似度研究时需要一个衡量其性能的评测集,并在此基础上研究藏文句子相似度计算方法。在藏文句子相似度评测集方面,目前还没有合适的藏文相似度评测集,阻碍了藏文句子相似度计算的进一步发展。在藏文句子相似度计算方面,虽然有一
在大量图像数据集的支撑下,基于深度学习的图像修复模型能够更好地捕捉图像中隐藏的高级特征和深层结构,达到更贴近图像特点和人眼视觉的修复效果。结合基于深度学习的图像修复技术对唐卡图像不规则破损区域进行模拟修复,既能够保证修复的效率和质量,还可以避免给唐卡带来二次伤害,对实现唐卡的数字化保护有着重要的社会文化意义和学术实践价值。本文以唐卡的数字化保护为出发点,实现了深度学习在唐卡图像修复中的研究与应用,
目前,图像目标检测已经变成图像处理以及工业领域重点研究的方向之一,其主要任务是从图像中定位目标并对目标种类进行判断。随着图像领域人工智能化的发展,深度学习中神经网络方法逐渐代替了传统的图像处理方法,并在图像目标检测领域取得了巨大的成果。图像目标检测通常会受到光线、目标大小、目标清晰程度的影响,从而导致目标检测的鲁棒性变差。传统目标检测使用窗口滑动的方法去解决图像目标检测的问题,这种方法会消耗大量的
汉字到盲文自动转换是改善我国1700万视障人群生活学习的重要技术。我国先后制定了现行盲文、双拼盲文、国家通用盲文三种盲文标准。由于我国汉盲转换软件欠缺、技术落后,导致非出版及电子盲文资源缺乏,无法满足视障者需求,盲文出版、盲人教育事业也受到限制。现有汉盲转换方法均采用多步转换方法:先对汉字文本进行盲文分词连写,再对汉字进行标调,最后结合分词和标调信息合成盲文文本。该方法需要同时建立盲文分词连写语料
随着社交媒体的飞速发展,社交网络成为人们进行信息交流的主要场所。社团结构作为社交网络的重要特性之一,研究社团结构有助于分析社团形成和网络内在特征,进而对社交网络进行控制与预测。本文研究了相互作用的双层社交网络的社团挖掘算法及其应用。结合传统社团挖掘算法,提出了两种社团挖掘算法并在某双层通信社交网络上成功应用。研究内容如下:1.基于节点相似性,提出了一种链路优化的PL(Priority Louvai
数据预测在诸多方面都有需求,但是实际使用时难度较大。当前各行业使用的数据预测方法层出不穷、各个算法的可适用范围也不相同,这给程序设计人员在使用的时候造成了较大的困难。通常需要专业的知识才可以进行数据预测的模型设计,同时还需要具备一些应用型程序设计知识,才能较成功的呈现出算法的结果。为了解决这些问题,本文将图形化编程的思想应用于基于机器学习的数据预测中,从理论和实践两方面论述如何对基于机器学习的数据