基于深度学习的场景文字检测与识别方法研究

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 4次 | 上传用户:xgf217
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景文字检测与识别是计算机视觉领域的重要任务。场景文字检测的目标是在自然场景图像中定位文字实例。场景文字识别的目标是将只包含单个文字实例的自然场景图像转化为计算机可以理解的字符串。相比于传统的光学字符识别,场景文字检测与识别面临着图像背景复杂,文字样式多变,成像质量不佳等诸多挑战。为了解决上述问题,本文建立了一个工业场景的文字图像数据集,并提出了两种新的基于深度学习的场景文字检测与识别方法。首先,本文建立了一个工业领域的场景文字检测与识别数据集——设备铭牌数据集。该数据集包含502张自然场景下拍摄的设备铭牌图像,并对图像中的铭牌位置、文字位置和内容进行了详细的标注。该数据集涵盖了 175种不同种类的铭牌,包含中文字符、英文字符、数字、符号等多种字符,以及凸起文字、雕刻文字、印刷文字、手写文字等多种形式的文字,具有很强的挑战性。其次,本文针对透视变换影响文字检测精度的问题,提出了一种基于关键点定位的场景文字检测方法。我们设计了一种关键点定位网络,用于定位文字区域的关键点,并根据关键点位置对文字图像进行转正。该方法不仅解决了透视变换影响文字检测精度的问题,还抑制了复杂的图像背景对文字检测的干扰。最后,本文针对非水平文字实例识别精度下降的问题,提出了一种形状鲁棒的场景文字识别方法。我们引入了一种局部方向修正模块,用于获取更加准确的文字控制点,并利用薄板样条变换对文字图像进行矫正。该方法显著提高了场景文字识别模型对不同形状文字图像的鲁棒性。我们以铭牌文字检测与识别为例开展了大量实验,验证本文所提出的场景文字检测与识别方法的有效性。实验结果表明,关键点定位模块可以很好地解决透视变换影响场景文字检测精度的问题,局部方向修正模块可以显著提高非水平文字识别的精度。
其他文献
本文分析了2001年上半年海南省经济金融运行状况,分析了海南省当前经济金融运行中存在的突出问题及其原因,并预测了下半年经济发展态势,对如何确保金融稳健运行并促进经济发
中海油推进了三年的深海战略遭遇到尴尬的困境:代表了国家战略的深海开发是中海油没有选择的道路,但是断崖式的油价暴跌让深海开发的经济性彻底丧失。这似乎是中海油即是国家
本文从我国入世之后商业银行将面临的市场竞争势态出发,分析了我国商业银行拓展中间业务的紧迫性和重要意义.阐述了当前我国商业银行开展中间业务进程相对缓慢原因.并对今后
滴灌作为目前重要的水肥一体化微灌技术措施,具有节能节水、对地形适应性强、大幅度增产等优点。滴灌属于局部灌溉,其中滴灌灌水均匀系数是衡量滴灌质量的重要性能指标,为实
随着全球一体化进程的加速,卫星移动通信系统在军用和民用上都有着重大意义,是信息全球化的重要组成部分。卫星系统由其所处轨道高度不同,可以分为静止轨道卫星(Geostationar
知识、态度、实践是评估高校体育工作的3个要素,其中每个要素都与高校体育效益息息相关.对北京大学、哈尔滨工业大学、浙江大学、中山大学、四川大学、西北工业大学、青海大
2018年1月20日,中共中央、国务院正式印发《关于全面深化新时代教师队伍建设改革的意见》,这是我国第一份以中共中央名义印发的教师队伍建设文件,其中针对乡村青年教师队伍的
民心网一头连着人民群众,一头通向人民政府,是党和政府联系服务群众的一条重要渠道,这既是一种情感的联结,也是一种心灵的沟通。作为一名基层街道干部,真心为群众答疑解惑,热