基于注意力机制的中文识别算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:shangwenqian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字作为人类最伟大的发明之一,不仅是人类语言的书面表达形式,更是一种精神、文化的传承。而图像作为一种重要的信息载体,不仅携带着色彩、纹理、结构等信息,通常还存在大量文字,其中文字往往包含更丰富的语义信息,能够对图像场景的理解提供重要线索。可以说文字在日常生活中随处可见,如何对图像中的文字进行识别和理解具有重要的研究意义,也有着广阔的实际应用场景。如手写票据识别、车牌识别、拍照翻译等应用,可以大大提高人类生产效率,给人们的生活带来帮助和便捷。尽管传统的文档文字识别技术已经非常成熟,但是由于手写风格的巨大差异和自然场景复杂的背景,准确地识别手写汉字以及自然场景图片中的文字仍然是非常有挑战性的任务。随着深度学习技术的快速发展,计算机视觉领域迎来重大突破。本文借助深度学习技术,结合中文的特性,展开对手写汉字字符和自然场景中文文本的识别研究,主要研究内容如下:(1)提出了一种基于多对比注意力机制的卷积神经网络来进行手写汉字字符识别。此方法对同一张输入图片学习多个注意力区域,并且在多个损失函数的监督下,使模型的注意力能够定位到字符有区分性的区域,同时让同类字符定位到的这些区域特征尽量相似以减小手写风格差异带来的干扰。与传统的方法相比,此方法能够简单有效地减小形近字和类内差异大的字符识别错误率,且在不使用额外数据,仅使用单个模型的情况下识别精度超过了当前所有的方法。(2)提出了一种基于双注意力机制的自然场景中文文本识别方法。为了解决1D序列模型对多方向文本、曲形文本等不规则文本识别效果不佳的问题,采用编码器-解码器识别框架,在二维卷积特征图上使用2D注意力机制,仅使用字符串的标注,以弱监督的方式定位单个字符空间信息更加丰富的局部特征。然后在编码器输出的一维特征序列上使用1D注意力机制,得到字符上下文信息更丰富的语义特征,最后将两类注意力模块得到的特征融合以解码当前时刻的字符。与先前的方法不同,此方法不依赖复杂的设计(如文本矫正、字符实例分割、多方向LSTM编码等),并且不需要额外的字符或像素级别标注实现端到端模型训练。得益于两种注意力机制的巧妙结合,本文提出的方法更加鲁棒,对规则和不规则文本都能达到较好的识别效果。
其他文献
我在古典诗歌教学中发现,很多学生对诗歌已经失去了兴趣,不管是《诗经》还是《长恨歌》,无论是陶渊明还是李白,总是难以激发起学生对诗歌的热情。所有的诗歌在学生眼中只分为两种
托尔斯泰对李光洙的影响贯穿了他的全部创作过程,其创作的第一时期深受托尔斯泰的批判精神影响;第二、第三时期则深受通常意义上的“托尔斯泰主义”影响。托尔斯泰对李光洙文学
随着老龄化时代的到来,养老问题已成为全社会关注的热点与焦点,发展老年教育事业则成为我国教育事业和老龄事业必须面对的重要课题。区级社区学院作为指导区域成人教育、社区
本文介绍了变电站综合自动化的概念和组成,针对石化企业的供电要求并结合自身的设计经验,提出了一种典型的变电站综合自动化总体设计思路。
太平天国侍王府壁画是中国南方壁画的典型代表,具有重要的历史、文化和艺术价值。历史上曾对多幅壁画进行过化学保护,部分壁画表面形成了一定厚度的有机物涂层,分析研究壁画
目的:探讨后路显微镜辅助硬膜内病变切除联合脊柱内固定术治疗硬膜内转移癌的手术效果。方法:回顾性分析我院骨科2011年1月~2016年1月收治的随访资料完整的硬膜内转移癌患者10
不卸“铠甲”,弹好“钢琴”。我省在落实分区分级、精准防控的基础上再次强调,要在做好防控前提下尽快开工复工、尽快投产达产、尽快满负荷生产。三个“尽快”,就是要把疫情耽误
报纸
<正>蔡以生,上海市嘉定区中医院中医科主任,首批师承团队老师,从事中医内科临床30年,擅用经方验方治疗疑难病,疗效显著。兹撷验案4则介绍如下。1封髓丹加减治疗顽固性口腔溃
采用平皿二倍稀释法研究了三种富硒中草药复方煎剂对仔猪腹泻主要致病菌株--大肠杆菌和沙门氏菌的体外抑菌作用.试验结果表明,复方Ⅰ、Ⅱ、Ⅲ对大肠杆菌的最低抑菌浓度(M IC)分
目的:本研究旨在于探讨化脓性阑尾炎保守治疗后不同时机行腹腔镜阑尾切除术的效果。方法:1、收集我院2016年1月至2017年12月因化脓性阑尾炎行腹腔镜阑尾切除术的359例患者的临床资料,所有患者行腹腔镜阑尾切除术前均给予静滴抗生素治疗,但治疗时间不同。按入院后开始抗生素治疗至实施手术的时间分组,其中A组(<24h)211例、B组(2448h)38例、C组(4972h)48例、D组(>7