基于学习的自然背景中文本提取

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：chris916

【摘要】

：

自然背景中的文本识别具有巨大的应用价值。但由于场景非常复杂,字符又形态多样,其应用一直受限于定位和分割技术的不足。本文经过大量研究,提出了一种基于学习的自然场景中

【作者】

：

蒋人杰

【机构】

：

上海交通大学

【出处】

：

上海交通大学

【发表日期】

：

2007年期

【关键词】

：

文本提取文本定位文本分割文本特征两阶段分类级联分类器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自然背景中的文本识别具有巨大的应用价值。但由于场景非常复杂,字符又形态多样,其应用一直受限于定位和分割技术的不足。本文经过大量研究,提出了一种基于学习的自然场景中文本提取算法。该算法首先将原始图片通过NLNiblack分解为许多连通分量,包括文本连通分量与非文本连通分量。为了达到从背景中定位与分割文本的目的,文本连通分量被保留同时非文本连通分量被丢弃。本文共提出17个文本特征来区分文本连通分量与非文本连通分量。接着,本文算法用一个级联分类器和一个SVM组成的两阶段分类模型来验证这些连通分量。级联分类器由17个弱分类器串联组成,其中每个弱分类器关注一个特征。级联的第一个弱分类器接受所有分解的连通分量,一旦判断输入连通分量是非文本则立即将其丢弃,否则传入下一级弱分类器。每一级弱分类器都如此工作,直到整个级联的结束。大多数非文本会被级联分类器过滤掉,而SVM则在此基础上做进一步的验证来取得更为精确的分类结果。最终输出是只有文本的二值图像。这种基于两阶段分类的模型有效地结合了弱分类器与强分类器,使算法效率和有效性同时得以保证。本文提出一种基于像素的评价准则,在测试数据上进行算法评估,测试结果显示了令人满意的性能。

其他文献

工业生产中的远程监控技术研究

随着控制技术和计算机技术的发展,尤其是Internet/Intranet技术的广泛应用,远程监控工业现场的生产情况已成为可能。实现现场控制层到信息层全面、无缝的信息集成,建立高效的

学位

远程监控现场总线控制网络SSLOPC

面向方面的实时系统开发方法

现代软件开发都要把整个系统按功能分解为小的单元,然后开发这些小单元,这些小的单元隐藏内部实现,对外提供接口,最后组合这些单元为整个系统,实现整个系统的功能。但是系统

学位

面向方面编程面向方面软件开发实时系统UML

达梦数据库全文检索关键技术研究

将全文检索内嵌在数据库管理系统中，将有助于用户对数据库表上的文本数据建立全文索引，进而可以灵活地检索到文本信息。　　国产数据库管理系统达梦数据库实现了全文检索系统

学位

数据库管理系统达梦数据库全文检索索引填充异步多路空间膨胀率

业务选择网关中协议分析引擎的研究与设计

随着Internet技术高速发展,人们越来越关注如何更好地为用户提供个性化和增值服务。这种形势下,业务选择网关应运而生。但是当前市场上的业务选择网关都是面向网络运营商的粗

学位

协议分析TCP粘合哈希表

基于异构多核处理器的依赖任务调度策略研究

伴随着国内外相关研究机构对高性能计算领域关注度的增强,处理器主频和芯片集成度得到极大地提升,目前由于芯片面积的限制以及集成度逐渐接近上限,处理器性能的提升遭遇瓶颈

学位

多核处理器启发式算法任务调度策略依赖任务调度优先级列表

人脸检测中相关特征的研究

对人脸的研究在身份验证,档案管理和可视化通讯等诸多领域有着巨大的应用前景。对于人脸的研究大致分为人脸检测,人脸跟踪和人脸识别三部分。人脸检测作为整个人脸分析过程的

学位

人脸检测独立分量分析稀疏编码超完备表示傅立叶变换小波变换支持向量机FERET人脸数据库

分布式系统仿真优化技术研究

随着仿真应用领域的不断拓展,分布式系统仿真技术已逐渐成为被广泛使用的主流技术。高层体系结构(High Level Architecture,HLA)成为了分布式仿真领域的标准体系结构。HLA重

学位

HLA前瞻量消息优先级缓冲区

区分服务中的标记策略与病态流控制研究

现有的因特网基本上只提供尽力而为(Best-effort)服务,在这种服务模型下,所有的数据流(traffic)被“一视同仁”,公平地竞争网络资源。这对一些对带宽、延迟、延迟抖动等有特

学位

服务质量综合服务区分服务标记策略病态流确保服务

协议分析仪在Intranet维护中的应用研究

协议分析仪是一种能够捕获网络中传输的数据并对其进行精确分析的网络设备。协议分析仪的主要用于捕获分析网络的流量,以便找出网络中存在的问题,进行网络健康检查,发现潜在

学位

Ether-peek数据包捕获数据解码故障诊断

P2P中可信模型的研究

P2P(peer-to-peer)即点对点网络,是随着网络的普及以及追求网络信息资源的有效利用而产生的计算结构。P2P中节点(peer)是平等的,且可以同时作为服务器节点和客户端节点。虽然

学位

P2P可信度名誉度恶意节点小集团

基于学习的自然背景中文本提取

其他学术论文