基于数据增强的手写体中文简答题识别方法研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:zmatch
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动化阅卷是一项具有高度社会生产价值的信息技术,目前大多数的做法是通过设计答题卡来实现选择题的自动判别,针对中文简答题仍缺乏有效方法。考虑到手写体汉字文本切分准确度低、识别难度大等问题,本文基于数据增强技术和卷积神经网络模型,对中文简答题的自动阅卷问题提出了一些解决方法。针对简答题文本切分问题,提出多步字符分割方法。将图像的垂直投影直方图做多项式曲线拟合,在函数极小值点处作分割线,然后根据其结果计算图像片段的宽高比例。从而区分不同结构的字符类型,包括过度分割字符和粘连字符。最后通过阈值合并与滴水算法分别处理,能够有效提高分割准确率。针对卷积神经网络识别模型缺乏大规模训练集,以及对分布外数据不友好的问题,提出原生集识别方法。通过收集过往答卷样本建立原生集,将之作为训练数据,以适应试卷环境下的样本分布,可以提高模型识别性能。针对原生集数据规模不足的问题,提出面向小规模手写体汉字数据集的数据增强策略。基于训练数据规模和样本类间数量平衡度对模型性能的影响,引入了 10种数据增强算法对原生集进行样本扩充和样本数量平衡,能够增加样本多样性并减弱过拟合问题。针对传统数据增强方法和DCGAN的不足,提出结合式数据增强方法X-DCGAN。该方法充分结合了传统数据增强方法和生成类方法的优点,既保证生成数据能够有效提高字符分类识别率,同时保证生成模型具备较强的生成效率和可移植性,有效改进了单一 DCGAN的生成方法。
其他文献
可见光通信(Visible Light Communication,VLC)技术作为一种新兴的无线通信技术,其提供的频谱资源是免费的,而且能够在照明的同时实现数据的传输,现已逐渐成为无线通信技术研
视觉导航系统是机器视觉和人工智能领域的研究热点之一,因其成本低、色彩信息丰富而广泛应用于如机器人、智能车辆等自主移动平台。通过视觉系统对当前道路环境的理解与感知,可以有效地获取道路安全区域、相对位置等重要信息。目前,针对结构化道路的视觉感知研究相对较为成熟,相比而言,非结构化道路环境复杂多样,通常缺乏道路标志边界,道路特征复杂不稳定,环境干扰如光照、路型、场景等因素变化不一,使得其相关研究具有较大
采用MEMS技术制成的加速度计具有体积小、集成度高、可靠性高等优点而获得广泛的关注和研究。本文针对采用MEMS技术制成的三明治加速度计的接口电路进行了研究,提出了基于ARM
当前,新无线设备的增长增加了资源的稀缺性,而认知无线电网络为频谱需求的扩大提供开创性的答案。本文的主要思想是频谱传感的概念,它包含对主要用户存在检测,因为影响系统如
随着智能车以及智能交通技术的不断发展,交通环境中的行人安全问题日益受到重视。在基于视觉的行人检测领域,HOG(Histogram of Oriented Gradient)是目前最流行的算子。但是传统基于HOG的行人检测方法在准确率上还难以满足智能车应用的需求。为此,本文首先从特征算子的层面出发,提出了基于特征生成模型的行人检测算子搜索算法。以寻找比HOG更适合行人检测的新算子为目的,本文提出了用
量子点(quantum dots,QDs)具有成本低,色彩饱和度高,带隙可调,光热稳定性好等特点,在电致发光器件领域表现出巨大的应用价值。基于钙钛矿量子点的发光二极管和基于量子点的发光
类噪声脉冲具有高能量、宽光谱和低相干的特点,因此其在机械加工、光学传感、超连续谱产生以及光学相干断层扫描等领域都具有重要的应用价值。除此之外,类噪声脉冲作为一种特
我国西部地区煤炭资源十分丰富,由于煤层赋存条件简单且厚度大等特点,为煤炭机械化、高强度开采提供了得天独厚的条件,但由于高强度开采所造成的地表沉陷严重的破坏了当地的生态环境,使得生态环境快速恶化并且影响社会经济的可持续发展。因此,深入展开浅埋采空区地表沉陷预测方面的研究具有重要意义,论文以神东矿区22615面为工程背景,采用相似实验、数值模拟、理论分析、现场实测相结合的方法,对浅埋采空区覆岩结构特征
作为智慧城市的重要组成部分,智慧交通关注如何将大数据,物联网,云计算与人工智能等新兴技术相结合,打造更加高效敏捷的交通运输系统,解决目前交通资源需求大幅增加,交通资源供需矛盾日益突出等问题。交通数据,是智慧交通建设的数据基础。但是由于恶劣天气和设备损坏等原因,在交通数据的采集过程中,经常会出现数据缺失的情况,这严重制约了智慧交通建设的进展。近年来,交通数据恢复成为智慧交通领域的一个研究热点。本文基
水环境中重金属和磷酸盐对生态环境造成严重污染,影响人类的身体健康。本文对β-乳球蛋白采取碱性加热处理制备出β-乳球蛋白纳米纤维,借助β-乳球蛋白纳米纤维的黏附作用,以大孔强碱性苯乙烯系阴离子交换树脂(记作D201)为基底,通过真空抽滤的方法制备出树脂基纤维氧化锆膜(记作D201-fiber-ZrO_2),并用以上两种材料去除水中的重金属和磷酸盐。本实验通过扫描电子显微镜(SEM)、透射电子显微镜(