基于特征融合和注意力机制的场景文本图像语种识别

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:xueliping
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语种识别是文本图像处理领域的经典问题,与多语种文本图像识别系统的整体识别效果密切相关。自然场景文本图像常存在背景复杂、字体多样等问题,使得自然场景文本图像的语种识别变得困难,另一方面,不同的语种中可能包含相似甚至相同的字符,进一步增加了语种识别的难度。为提升自然场景文本图像的语种识别性能,本文提出了两种语种识别方法,分别是基于注意力机制的多尺度特征融合语种识别方法和基于上下文语义强化的语种识别方法,并在多语种文本图像识别系统中验证了本文提出语种识别方法的有效性。具体工作如下:(1)针对场景文本图像背景复杂等特点,提出了基于注意力机制的多尺度特征融合语种识别方法。首先,在提取文本图像局部特征的基础上,使用一个多尺度特征融合网络进一步提取全局特征并融合这两种特征,然后结合通道软注意力模块,对多尺度特征在通道上进行加权处理,提高对语种识别任务更有效的特征权重,从而提高语种识别的性能。该方法在三个公开数据集CVSI-2015、SIW-13、RRC-MLT2017和私有数据集Keda2030上分别达到99.03%、96.18%、89.64%和94.05%的准确率。(2)针对不同的语种使用相似甚至相同字符的情况,提出了基于上下文语义强化的语种识别方法。该方法将卷积神经网络生成的丰富的图像表示和循环神经网络提取的序列语义特征相结合,让网络在获取图像层面特征的同时捕获到文本上下文信息,并应用注意力机制,让网络自适应地学习图像和上下文信息的融合特征表示,以便更好地区分语种。该方法在数据集CVSI-2015、SIW-13、RRC-MLT2017和Keda2030上分别达到99.10%、96.49%、89.93%和94.65%的准确率。(3)在基于多语种统一建模的文本图像识别系统中,融合上述语种识别方法,验证了语种识别可以有效提升文本图像识别系统的性能。首先对文本图像进行语种识别,并按照不同语种对多语种统一建模模型进行训练形成相应语种的识别模型,然后根据语种识别结果选取对应语种的识别模型。在Keda2030数据集的8个语种上进行测试,实验结果表明,融入本文提出的两种语种识别方法后,基于多语种统一建模的文本图像识别系统的识别性能得到有效提升,第二、三章两种方法在8个语种上的平均字符串识别准确率分别提升了4.39%和4.88%,平均字符级别准确率分别提升了2.28%和2.51%。
其他文献
女性生殖系统感染性疾病即女性生殖系统因外界条件改变或内部调节失衡等情况的发生而导致阴道环境失调或生殖器官病变的感染性疾病,女性生殖系统感染性疾病多发于性成熟女性,对女性生活及健康造成不同程度危害,且感染率呈逐年上升趋势。针对致病病原体的早期准确诊断为临床预防与及时有效治疗女性生殖系统感染性疾病的关键所在。目前,临床所用生理生化指标与微生物检测方法具一定局限性,漏检与误检问题较为突出。本研究旨在针对
学位
目的 分析2013—2019年北京市某区儿童感染A组溶血性链球菌抗生素敏感性及分子遗传特征。方法 使用儿童感染A组溶血性链球菌病原学监测中获得菌株进行全基因组测序,获得菌株多位点序列分型,描述不同年度优势序列型(sequence type, ST),使用resfinder利用基因组数据检测耐药基因,研究耐药表型与耐药基因型之间的关系。结果 在234株A组溶血性链球菌中鉴定到7种ST,ST36和ST
期刊
文化创意产业富有强烈的生命力和表现力,高校文化创意产业作为文化软实力的一种象征,也是铸牢中华民族共同体意识、繁荣中华民族文化、服务经济社会发展的有效载体。目前国内高校文创产业尚处于起步阶段,民族地区高校文创产业更显薄弱,我国高校文创产业亟待开掘。广西高校文创产业在政策、市场、产销、平台、文化、功能等方面,存在诸多问题,迫切需要探索一条具有民族性、现代性、世界性的高校文创产业的内生路径,研究发现通过
期刊
目的建立荧光环介导等温扩增(loop-mediated isothermal amplification, LAMP)检测方法用于β溶血性链球菌的快速检测。方法针对β溶血性链球菌spy1258基因设计4对特异性引物,对建立的LAMP体系优化其反应扩增条件,对该方法特异性和灵敏度评价,并将该方法和国标法分别应用于10份牛奶样品的检测。结果该方法特异性强,内外引物比为3:1,反应温度为63℃时达到最佳
期刊
为了实现食品中酿脓链球菌(Streptococcus pyogenes)和无乳链球菌(S. agalactiae)快速、高效检测,本研究建立了一种同时快速检测食品中这两种细菌的方法。本研究基于重组酶聚合酶等温扩增技术(recombinase polymerase amplification, RPA)原理,选择酿脓链球菌致热外毒素B基因(speB基因)和无乳链球菌表面免疫蛋白基因(SIP基因)的保
期刊
数字平台商业模式已成企业数智化转型的必然选择。对两家企业的财务战略进行比较分析,提出企业在数智化转型过程中必须采取合适的财务战略,通过边界资源配置和交互设计,才能更好地把控互补者和互补品的不确定性程度。
期刊
随着现代经济和数字化技术的发展,非物质文化遗产的保护与传承迎来了新的方式。文章在数字化发展的大背景下,通过对西南地区少数民族非物质文化遗产数字化保护与推广现状的分析,总结出非遗品牌塑造与合作、非遗人才的培养与服务、非遗数字化推广平台建设三条发展路径,打破了传统的传播媒介与传播模式,构建了非遗数字化销售与推广平台,借助数字化的力量,创造了非物质文化遗产新的传承价值。
期刊
当前,我国部分高校不同程度地推行着学分制教学管理模式,有效促进了高等教育管理体制的改革,但与此同时也对高校学生教育管理工作提出了新的要求。本文拟就学分制背景下高校学生管理工作提出一些可供参考的思想观点和工作举措。
期刊
<正>目的采用快速重组酶介导的等温扩增技术(RAA)监测血站采供血过程中的金黄色葡萄球菌和溶血性链球菌。方法制备10—10~4CFU/mL系列浓度的金黄色葡萄球菌和溶血性链球菌的标准菌株悬液,分别加入核酸快速裂解液中加热提取DNA,采用RAA荧光型检测试剂在小型Genchek荧光检测仪内37℃识别并扩增细菌特异基因片段,20 min内实时读取荧光检测值判定结果。RAA法分别检测8个标准菌株验证其特
会议
目的探讨温州地区3433例不同育龄妇女围产期B族链球菌(GBS)感染状态及GBS携带耐药率情况。方法收集我院2018年8~12月3433例孕晚期孕妇生殖道分泌物标本,采用实时荧光定量PCR技术对标本GBS核酸检测,并对核酸阳性的患者进行GBS培养确认和药敏实验。结果温州地区3433例孕妇中检出GBS感染399例,感染阳性率为11.6%;将20~45岁阶段的孕妇按年龄分成5组,其GBS阳性感染率分别
期刊