基于全卷积的中文手写作文图像识别方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lixianrong1017
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作文智能批改的需求与日俱增,然而目前针对不规范书写的中文手写作文识别任务尚未有一套完善的解决方案。篇幅级识别任务大多是针对于英文数据集,还没有已经开源的中文作文数据集。因此研究复杂场景下的中文手写作文图像识别方法具有重要意义。首先为了快速收集大量数据,本文开发了一个半自动化的人机协作作文标注系统。利用百度开源的sdk,为用户提供了两种人机协作的标注模式,能自动帮助用户切分行、生成标签;系统支持多层级框的标注,在保存时自动生成标注框嵌套关系,还介绍了系统生成的标注文件的格式。接下来探索作文识别方法,为了简化任务假定原始图片已经完成栏框切分,研究基于全卷积结构的端到端单栏图像篇幅级识别方法。针对2d序列转化为1d的问题,提出了两种基于reshape操作的降维方案,并在此基础上将reshape降维方法扩展到单栏图像篇幅级识别任务上;通过分析时间片映射到原图上的感受野,对卷积层进行调整;在复杂场景的中文手写作文数据集上,采用并行多分支卷积结构替换普通卷积提取多尺度特征;最后为了解决作文倾斜角所造成的解码乱序情况,提出了两种解决方案:1.在特征图中插入空间变换模块的方案,能让网络自动学习倾角;2.提出一种Order Align策略,充分利用序列的位置特征,对解码结果进行优化。在复杂场景图片上,结合两种优化方法可以使CER可以达到0.0583;最后对端到端方法和两阶段方法进行比较,实验结果均证明了所提出方法的有效性。最后,将问题延展到原始的多栏图像的识别,本文结合了一些页面上栏框检测的技术,根据单栏篇幅级识别方法以并发方式进行模型推理,构建了一个完整的中文手写作文识别系统。
其他文献
近年来智慧教育获得快速发展,使得学习者可以获得丰富的学习资源以及自由的学习时间,也使平台积累了海量的在线教学和学习数据,这些数据进一步被用于优化教学质量,从而受到广泛的关注。然而,当前在线教育平台仍然存在以下问题:(1)在线课程质量良莠不齐,评价标准亟需规范;(2)同类型课程数量众多,使得学习者难以区分不同课程之间的优劣,无法真正为学习者推荐个性化的课程资源。因此,在线教育亟需规范在线课程评价标准
随着人类科技水平与经济快速发展,人类社会城镇化进程逐渐加快,与此同时人类的心脏疾病的发病率也在逐年上升。目前广泛采用的12导联心电图通过采集人体胸前和肢端的心电信号生成心电图,12导联心电设备主要的缺点是覆盖的胸前点位数量少,并且没有背部电位缺少足够的敏感性和特异性,无法准确的描述分析一些复杂的心脏电生理活动。256导联心电采集是一种使用大量电极覆盖患者胸部和背部的采集方法,相比12导联其可以提供
计算机视觉中的深度目标检测技术是一项非常重要的技术,为了准确提取有价值的信息,对视频或图像中的物体进行定位和分类非常重要。然而,存在着一些问题,基于云的深度学习模型运行响应延迟较长,而且由于移动网络的不稳定性和有限的网络带宽,这些都会影响用户体验。同时,由于移动设备资源有限,深度学习模型对设备的算力和存储能力要求很高,不能直接部署在资源有限的移动设备上。因此如何将深度学习任务部署到边缘计算环境中是
医学概念编码是给临床医疗文本中的医学相关概念分配标准医学术语对应的编码。由于编码量大以及人工编码成本高效率低等原因,实现医学概念自动编码具有重要的研究意义和应用价值,因此本文开展了基于深度学习的医学概念自动编码方法的研究。目前基于深度学习的医学概念自动编码方法主要分为以下两类:一类是基于文本分类的医学概念自动编码方法,受分类标签空间影响,这类方法对于标准术语词典所含标准医学术语个数敏感;另一类是基
在农业生产中,植物病害是影响农作物最终产量和品质的一个关键因素,因此及时准确地检测出作物的病害情况,在农业领域意义重大。以往对于农田作物病害的检测十分依赖专业的植保人才,近年来,通过无人机进行数据的快速采集,之后再利用深度学习、数字图像处理等技术对图像进行病害识别的方案得到了越来越多的关注。本文针对在使用图像实例分割模型进行叶片级别的病害识别时需要进行大量标注的问题,提出了一种先通过叶片边缘将密集
近年来,我国人口老龄化趋势不断加速,老年人养老产业供需缺口持续扩大,养老服务种类繁多复杂,老年人对智能化的养老方式的需求难以满足,而物联网技术的蓬勃发展、物联网应用的大规模出现给智慧养老提供了新方案,但具体应用下物联网设备冗多繁杂、异构化,缺乏可配置、可扩展的统一接入方案,养老智能场景缺乏用户开发能力,难以满足老年人自定义需求。本文针对以上问题,研究物联网技术在智慧养老领域的应用。本文首先研究了基
随着计算机技术的快速发展,软件规模和复杂度也日益增大,随着开发需求的激增,为了降低软件开发的难度,缩短开发周期,研究学者们将目光投向了软件自动化开发上。在智能化软件开发中,代码补全实现了由编译器根据上下文中现有代码建议下一个可能的代码Token,例如方法调用或对象字段。近年来随着深度学习的应用,该方向涌现出大量科研成果,推进了软件智能化发展。在现有研究中,大多将代码视作语言文本送入自然语言处理中的
现阶段基于云端的视频监控技术日渐成熟,然而将监控设备采集到的图像或视频数据传输至云端或数据处理中心进行数据分析将会对监控网络的服务器与带宽造成较大负担,因此,面向变电站监控场景及智能化监控识别需求,结合人工智能图像分析与处理的方法,开展边缘智能计算技术研究至关重要。首先,分析并总结国内外有关目标检测技术与边缘计算技术的研究方案以及技术路线,同时基于现有边缘计算设备讨论模型搭建与边缘部署的可能性,分
文本作为沟通和协作的重要工具,在社会中扮演着重要的角色。同时在现代化社会中,由于图片和视频等数字化内容的快速发展,对其中的文本进行检测和识别往往可以提供给人们很重要的信息,利用这些信息能够辅助使用该信息的主体更好的完成任务。因此对于图片和视频中的场景文本进行检测和识别具有重要的意义。而在场景文本的检测和识别过程,对场景中的文本进行定位(即场景文本检测)是首要任务,因此场景文本检测具有重要的研究意义
近年来我国心脑血管疾病为代表的各类疾病发病率屡达新高,已经成为当前医学界重点研究课题之一。有研究数据表明,急性期丙烯率逐渐从最初的5%递增到15%,大部分死亡患者均因自身脑部病变及其他并发症所致。能幸存下来的患者当中有70%左右的患者都遗留有后遗症,必须长期服用药物来抑制病情,同时还需进行不定期复查,确保随时掌握病情。患有脑梗死的城乡居民不但痛苦还给家庭带来了严重的经济负担,在后期的康复中还需要长