基于优化Mask Rcnn的文本检测方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:David_Wang_GuanJun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文介绍了一种基于Mask Rcnn的文本检测模型,用于通过卷积神经网络(CNN)完成对图像中文本的检测。首先因为图片中各文本经常会出现尺寸差距较大的情况,为了提升文本检测的准确度,我们组合了特征提取网络的高底层特征,通过组合之后的网络进行深层特征和浅层特征的同时提取,这样可同时提高对不同尺寸文本的检测准确度。算法采用RPC网络生成候选框,因为RPC网络是在anchors的基础上进行候选框的预测,这样会出现数以万计的初始候选框,所以要通过NMS进行候选框的筛查,筛除多余的候选框,但是传统的NMS算法并不适场景文本检测的需求,因为文本经常有文本中字符间距过大缺少一致性的情况,导致RPC网络经常预测出单字符位置的候选框,这些较差的候选框经常包含在其他较大的候选框之中。所以改进了RPC中的NMS算法进一步筛除候选框,达到候选框预测的高质量性。最后在此候选框基础上进行真实文本轮廓的预测,我们改进Mask Rcnn第二阶段检测方式(Fast Rcnn),在其基础上增加对文本字符数目预测的分支以增加预测准确度,这样第二阶段的模型会输出三个分支(branch):文本字符数目、文本外接矩形框、文本在整幅图像中的掩膜。修改损失函数并且训练模型。该模型能准确的预测图像中文本的轮廓。之后该框架还会对预测的文本轮廓进行筛查,去除杂质。最后再求出轮廓最大外接四边形。该模型采用类Mask Rcnn的方式预测文本轮廓然后再求出文本外接四边形,在ICDAR 2015基准上,我们的模型准确率达到了82.5,召回率达到了87.0。特征提取层使用VGG16模型,该算法的计算效率为4.2bps。
其他文献
本研究聚焦短视频自媒体“李子柒”现象,通过对研究个案视频文本及评论文本的文本分析,佐以非参与式观察和深度访谈,探讨李子柒的视频文本对地理空间的想象性生产以及由此产生的受众情感的连结。从短视频建构的媒介空间来看,李子柒通过语言、饮食、服饰、行为等符号元素,在真实地理空间的基础上,建立了一个停留于传统农耕文明的东方乡村空间。李子柒的空间生产是内外部因素共同合力的结果,外部力量推动了空间“可见性”的生产
学位
砷是一种对世界环境危害最严重的有毒物质,它存在于地下水、溪流和大气中,通过饮水、食物和呼吸被人体摄入。长期暴露于超标的低水平无机砷环境会对人体健康产生广泛的影响,这种砷污染威胁着全球几亿人的生命。砷中毒导致多种急性和慢性疾病,是肺癌、皮肤癌等癌症的致癌剂。真核生物中,组蛋白参与核小体结构的组成。DNA复制依赖性组蛋白又叫经典组蛋白,仅在细胞周期的S期表达,并随细胞周期降解。茎-环结合蛋白(SLBP
学位
在引文动态进程中,借鉴创新扩散理论,学术论文的引用被理解为引文扩散过程。引文起飞作为引文扩散框架的基本要素之一,是揭示学术成果被承认和关注的一个关键节点,是文献被广泛采纳的重要信号。学术论文的引用是其科研成果被采纳和认可的标志,论文被引频次、期刊影响因子等基于引用数的量化指标被广泛用于衡量论文和科研学者影响力。然而学术论文的被引是一个动态发展过程,学术论文的引文过程可能蕴含科研创新发展及转化规律的
学位
学术图书是知识的重要载体,在学术交流中发挥着重要作用。被引频次是图书影响力的重要测度指标,然而,Garfield指出被引频次类指标受到除学术价值外其他因素的影响。因此,揭示影响被引频次的潜在因素,进而理解其理论机理对学术评价具有重要的理论和实践意义。学界目前已开展了多项有关学术图书被引的影响因素研究。然而一方面,已开展的研究中涉及到的影响因素较少,更广泛的潜在因素尚未被发掘;另一方面,相关研究通常
学位
随着移动网络的普及率到达瓶颈,电信运营商的业务收入增速明显回落,而互联网企业对电信行业的加速渗透与“携号转网”政策的推行也极大地打击了运营商存量业务的盈利能力。因此通过数据驱动业务运营,挖掘消费者行为背后的客户需求,优化营销模式及产品推荐方法是一个必然趋势。构建一个有助于优化营销服务的客户价值评估体系,基于此进行客户细分,并制定具体的业务推荐策略是当前电信运营商利用数据驱动业务的重点。但目前围绕客
学位
随着“十三五规划”建议正式落地,“健康中国”正式升级成为国家战略,当前国民健康关注度与日俱增,政治上政府提高健康关注,经济上国民经济水平提升,中国百姓对于美好生活的向往、对于健康生活的需求越来越强烈;同时随着社交媒体的兴起,尤其是微信,作为国内的第一大社交媒体应用,事实上已形成了一个围绕微信平台的国民日常信息环境,基于该平台的信息传播情况能够一定程度上反映国民的信息态度。考虑到微信公众号平台在国民
学位
在科学问题日益复杂化和知识生产模式转变的双重驱动下,越来越多的科学家认为跨学科研究是实现突破和创新的催化剂,强调将各学科知识的渗透和融合作为解决现实社会复杂问题的重要手段。跨学科的重要作用及其在各领域的快速发展,使其成为科学计量学领域的关注点,并推动学者展开对跨学科与学术影响力的关系研究。但通过对现有研究的梳理发现,各项研究存在指标选择多样、分析单元多样、研究领域多样以及未考虑论文被引影响因素等问
学位
随着社会灾害学研究重心的前移,“抗逆力”这一概念受到的关注也日渐增多。近年来,国内外学者运用实证和理论的方法研究抗逆力的作用机制与影响因素,既丰富了抗逆力的内涵,也为其投入到实际应用中以提升灾前预防效果做出了努力。本文意在继续深入抗逆力在实际应用范畴的研究,拟以企业的可持续运营为立足点,将抗逆力应用在灾后企业资源的分配问题上,提出包括特殊劳动力资源在内的资源分配优化模型。本文以抗逆力的思想为起点展
学位
随着时代的发展,人们开始越来越多的使用屏幕、相机、照片等观察记录世界,因此对高质量的图片的需求也越来越旺盛,然而对于现实世界的真实场景来说,它的动态范围可达到数十个数量级,同时现在的图像采集装备因受到硬件的制约,只能够显示有限的动态范围,拍摄所得的照片很难去完整的记录反映真实的场景信息,因此,高动态范围图像融合技术应运而生,并且吸引了越来越多学者专家的关注。目前的高动态范围图像的融合,主要通过获取
学位
天然产物小檗碱作为一种季铵型异喹啉类生物碱,广泛存在于各种药用植物中,对多种肿瘤细胞具有很强的抗肿瘤活性,这决定了其在肿瘤防治和抗肿瘤药物的开发方面具有潜在的应用前景。但是由于小檗碱脂溶性、水溶性都比较差,在人体肠道中吸收差,大大限制了小檗碱充分发挥其抗肿瘤治疗的潜力。因此,设计和合成新的生物利用度高、活性强的小檗碱衍生物对于肿瘤防治和新药研发具有重要作用。研究发现,小檗碱反应生成9位酯化小檗碱衍
学位