自然场景下文本提取方法的研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:seanzhow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景图像中文本的提取为当前一种具有重要研究价值的图像处理技术,图像中文本的提取有利于对图像分析和理解,并契合于当下热门的机器视觉应用在工农业、交通和安全等行业的发展。而这个研究仍然需要完善,主要由于场景和文本的多样性,使得自然场景图像中中文文本的提取依然为一项具有挑战性的研究任务。本文在近年来大量的文本检测和提取的研究方法的基础上,对自然场景图像中的中文文本提取技术进行了研究,提出了两种针对中文的文本提取算法。基于边缘增强的最大稳定极值区域(Maximally Stable Extremal Regions,MSER)的文本提取算法。首先通过边缘增强的MSER检测算法得到候选MSER,再使用长短轴、面积、空洞数目等约束条件高效地过滤明显的非MSER,对候选文本进行初步验证。由于图像中的中文文本往往会被分割成多个MSER,本文提出的中心聚合方法对MSER进行中文的聚合,使得候选区域成为单个候选的中文文本分量,再对这些分量进行分析运用机器学习选出正确的中文文本。基于迭代自组织数据分析聚类算法的文本提取算法。首先,使用改进的NiBlack算法从图像中初步的分割出前景,再以Lab空间颜色信息和笔画宽度信息为特征使用聚类算法对图像进行分割。之后提取连通分量并使用几何特征的约束对所得到的连通分量进行过滤。对于过滤后的连通分量进行中文聚合,使分散的笔画形成候选中文文本。为了进一步验证文本,根据文本集群存在的规则将候选文本连接成行,其中拒绝笔画特征和空间特征不满足约束的候选文本。通过分析文本行级特征,运用SVM进行分类,得到正确的文本行及对应的正确文本。最后,利用建立的针对中文文本的自然场景图像的数据集进行实验,其中图像包涵了真实环境下各种不同的场景和不同的条件。实验结果表明,本文提出的方法能有效的提取场景图像中的文本信息,并具有令人满意的准确率和召回率。
其他文献
采用电子背散射衍射(EBSD)技术研究Ti3Al基合金焊接接头的微观组织和织构对于改善焊接接头的使用性能有着重要的意义,而电子背散射衍射样品的制备质量对其成像效果有着重要影响.
从理论上研究短路过渡过程中燃弧期液态熔滴上的表面张力、电磁力和重力之间的动态平衡问题,重点讨论了燃弧期熔滴上电磁力的动态变化及其对短路过渡稳定性的影响.结果表明,作用
【正】 所谓虚概念的问题,包括着一系列问题:什么是虚概念?鉴别一个概念是否为虚概念的标准是什么?虚概念是不是就是假概念?虚概念有没有外延、内涵?对于这样一些问题。目前
本文分析德国应用科技大学课程设置的内容与主要特点,以期对我国部分地方高校向应用型转型过程中的课程设置调整有所启迪。专业课程授课分为研讨课、练习课和实践课柏林技术与
实验室安全管理是高校教学与科研工作顺利开展的重要保证,阐述了"双一流"建设背景下实验室的重要作用,分析了环境类实验室特点和存在的问题,提出了改进环境类实验安全管理的
番茄黄化曲叶病毒(Tomato yellow leaf curl virus,TYLCV)属于双生病毒科(Geminvinviridae),菜豆金色花叶病毒属(Begomoverus),主要由烟粉虱(Bemisia tabaci)传播。该病毒引
通过2008~2009年连续2年对崇义县5户南酸枣苗主要育苗户的跟踪调查,发现砧木播种、嫁接、接穗贮藏以及除萌、摘叶工作等是影响出苗率的主要技术环节。经技术改进和应用及开展
目的比较CTP方案与NT方案治疗晚期乳腺癌的临床疗效.方法 CTX+THP+DDP(CTP组)联合化疗方案治疗40例晚期乳腺癌,NVB+THP(NT组)联合化疗方案治疗35例晚期乳腺癌,观察其疗效、中
文章通过三种挤塑聚笨板(XPS)与膨胀聚笨板(EPS)的性能比较,指出XPS板拥有的主要优势和对XPS选用的要求。
目的观察HIV感染患者mDEs表面B7-H1表达对T淋巴细胞免疫功能的影响,探讨HIV/AIDS患者细胞免疫功能低下的分子机制。方法将患者和健康者来源的mDCs与异源健康者的CD3+T细胞按不同