基于深度学习的自然场景下的文本识别算法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:bylee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机视觉技术不断发展,自然场景下的文本识别作为计算机视觉中的一个重要分支,近些年来被广泛应用于机器人指引、票据识别、车牌识别和工业检测等领域中,具有非常广阔的应用场景。但是,自然场景下的文本不同于标准文档中的文本,其背景信息往往更加复杂,同时也有方向倾斜、不定长和多角度等特征。本文针对自然场景下的文本特点,用深度学习方法对自然场景下的文本检测和识别进行研究,主要包括以下三个方面。1.针对自然场景下带倾斜角度的文本,在SSD目标检测算法的基础上进行了改进。对于单阶段目标检测算法中正负样本不平衡的问题,本文通过引入Focal Loss替代传统的损失函数来解决。为了让算法能够正确检测到带倾斜角度的文本,本文在SSD原始水平框参数里新加入旋转角度参数θ,使得检测框能更好地匹配到不规则文本。此外,从两阶段目标检测算法中得到灵感,将它的锚点学习机制引入到本文算法中,通过对锚点的细化,有效优化候选框质量,最终提高检测效果。2.本文在文本识别模型CRNN的基础上,通过在卷积层和循环层之间嵌入软注意力机制,进一步提取图像特征,以提升识别的准确率。CRNN网络在训练的时候因为循环层使用的是单层双向的LSTM,往往训练模型的时间较长。为了在不影响识别率的前提下加快训练速度,我们使用双层双向的GRU来替换原始的单层双向LSTM,以此缩短模型训练时间。3.文本识别是典型的seq2seq序列识别问题,本文使用Transformer替换掉文本识别算法的循环层和转录层,即直接将卷积层提取到的图像特征送入后续Transformer网络中,在保证准确率的前提下,缩短模型训练时间。最后,本文在ICDAR和SVT数据集上进行了验证,实验结果证明以上方法可行,同时采集了集装箱文本数据集并进行了相应测试,结果表明上述方法可以应用于现实工程任务。
其他文献
塑料污染是全球关注的重要环境问题之一。土壤是塑料废弃物的主要沉积地,土壤表面的塑料会经环境作用力破碎成尺寸1 mm微塑料颗粒在表层土壤水平方向上的迁移距离最短,迁移距离为12 cm,<0.3 mm的微塑料在土壤垂直方向上迁移最深,为7 cm。泡沫在土壤表层水平方向上的迁移率最高,为2.08±0.42%,其次是颗粒。纤维和薄膜微塑料更容易径流入水体中,总量分别达到1.93±0.65%和2.07±0.
海岸带湿地是在陆地和海洋之间的生态过渡带,是地球上生产力最高的生态系统之一。由于围垦等人类活动的加剧和海平面上升等影响,海岸带湿地正受到严重威胁。国内外海岸带生态修复的实践成果显示,若措施得当,新恢复湿地可以重新获得生态功能,并促进其进一步发育。如何结合湿地恢复强化生态功能,发挥对人类有益的生态系统服务是生态修复领域的热点之一。基于此,本研究依托杭州湾北岸金山岸段生态整治修复项目,以所建成的鹦鹉洲
垃圾渗滤液的高效处理一直是人们密切关注的问题。随着垃圾填埋时间的延长,垃圾渗滤液中的可生化有机物逐渐减少,而氨氮浓度不断升高,逐渐形成了老龄垃圾渗滤液。老龄垃圾渗滤液由于可生化性较差,在生化处理工艺中脱氮困难,也面临碳源的投加量控制及种类选择等关键性问题。此外,渗滤液中富含易传播扩散的抗生素抗性基因(ARGs),其在老龄垃圾渗滤液处理过程中的变化及影响特征尚不明确,在处理过程中的变化是否会受到碳源
近年来采用减量型有机垃圾生物处理机对厨余有机垃圾就地就近处理在我国许多城市得到应用,但其运行过程中产生的高浓度尾水排放问题也越来越引发关注,并在一定程度上限制了其推广应用。目前针对此类尾水的高效净化处理工艺研究还鲜有报道。本论文以减量型有机垃圾生物处理机尾水为处理对象,针对其有机物和悬浮物浓度高的特点,通过构建厌氧-好氧小试反应器装置开展研究,开发了一种高效的机械搅拌厌氧生物反应器(MAAB)-好
在复杂网络领域中,流行病传播动力学的阈值识别是一个热点问题。爆发阈值对于流行病的评估、预警和防控具有很重要的指导作用。针对不同类型的动力学过程和不同结构的网络,流行病爆发阈值的识别结果往往会有较大差异。传统的流行病爆发阈值的识别方法,如理论解析和数值模拟等,都存在一定的局限性。本文主要运用机器学习理论和方法对复杂网络上流行病传播的阈值识别问题进行深入研究,通过经典的易感-感染-易感(Suscept
GitHub已经不仅仅是一个代码托管平台,其孕育的各种开源社区不仅造福于企业与开发者,同时也在日渐深远地影响着我们的日常生活。很多开发者把GitHub当做自己的另一份简历,因为上面非常清晰了记录了开发者的行为轨迹。但是对于招聘者来说,这些概念可能是模糊的,本文的角度就是对开发者和招聘广告进行匹配,从而进行职位的自动推荐,解决开发者和招聘者之间的语义鸿沟。推荐算法的研究一般需要用户-项目评分数据集,
车道线检测技术是智能交通技术发展的关键技术之一,在很多新型汽车上已经预装了包括车道线检测的高级辅助驾驶技术,可以满足一些基本需求。在正常的道路场景中,很多技术能够取得良好的检测效果,但是实际的道路场景是包括车道线磨损、阴雨天气、眩光等因素,业界很多学者也已将目光转移到这类场景下的检测。其中深度学习方法在车道线检测领域表现出更高的精度和鲁棒性,为更多场景的车道线检测提供了可能。所以,本文基于深度学习
本文主要研究甲骨文、商周金文、春秋楚简和魏晋南北朝石刻字的智能识别。它们历史悠久,与现代汉语差别较大,有较高的识读门槛,使用人工智能方法进行识别有较大意义。文字使用时有常用字和偏僻字的区别,对应到本文的数据集来说,即存在分布不平衡的情况,某些常用的字可能有上千张样本,某些偏僻字可能只有几十张样本。如果直接将原始数据放入神经网络中进行训练必然会导致模型产生较大的偏置,模型会学到很多样本数量多的文字的
城市河道经黑臭整治后仍存在较高氮营养盐的普遍性问题,硫作为河道生态系统中重要的组成元素,其对河道氮转化过程的影响作用不容忽视,传统化能自养的“厌氧氨氧化”和“硫自养反硝化”如何参与其中的氮转化是一项值得探讨的工作。本研究在对经黑臭整治工程后的河道现状调研的基础上,结合高通量测序、荧光定量PCR、宏基因组学和宏转录组学技术,系统评定了不同外部调控下硫自养反硝化与厌氧氨氧化的耦合潜力,并通过构建河道实
红树林是一种湿地木本植物群落,在热带地区、亚热带地区的海陆交错区中是生产力最高、生物多样性最为丰富的海洋生态系统之一,其生态价值非常重要,可以巩固岸堤、防范风浪以及能够净化海水和空气。此外,得益于红树林中品类众多的鱼类和栖息的鸟类,当地的渔业生产和自然旅游业同样可以得到极大的促进。但是,由于自然因素和人为因素的共同作用,严重破坏了海洋生态,红树林也无法幸免于难遭到了许多破坏。据悉,全球范围内的红树