面向网络图像过滤的文本抽取技术研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:numlof
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展和手持数码设备的普遍化,网络中的数字图像越来越多,各种应用也随之而来,如图像检索、图像存储与管理等。图像信息给我们带来大量有用信息的同时,也带来了大量的负面的、不良的信息。常见的有色情图像、图像型垃圾邮件和不良图像。这些图像对社会稳定和青少年的健康成长都有很不利的影响。因此对网络中的图像进行管理,将其中的不良信息进行过滤,具有非常重要的意义。网络图像过滤技术分为三类:基于URL封锁的图像过滤、基于关键字的图像过滤和基于内容的图像过滤。基于内容的图像过滤比另外两种方法具有更加广泛的适应性,是比其他过滤方法更有效、适用范围更广的图像过滤方法,也是本文所使用的研究方法。   本文提出一种多分辨率的文本抽取方法,对图像按照固定尺度1.2进行金字塔分解,对每幅分解后的图像,使用16*16的滑动窗口对其进行扫描,提取当前窗口的梯度方向直方图(HOG)特征;然后使用训练好的Adaboost分类器对当前窗口进行分类,并对每幅分解图像中分类结果为文本的区域进行简单的合并;对最终得到的文本区域,利用Canny边缘检测算子和Sobel梯度算子估计文本区域的平均笔画宽度;最后依据笔画宽度与小波滤波尺度的映射关系,选择合适的小波滤波尺度对文本区域进行二值化。   本文在公开数据集ICDAR2003提供的测试集上进行了测试,并随机抽取其中的56幅图像进行结果统计。实验结果显示,本文的文本抽取方法可以达到90.9%的单词级召回率和95.9%的字符级召回率,符合网络图像过滤的需求。本文提出的二值化方法与常用的二值化方法相比,对图像反色、背景复杂、图像退化等情况也都有更好的效果。
其他文献
针对现有服务选择技术的不足,提出一种应用服务社会网络SSN(Service Social Network)机制的方法。算法主要通过社会网络原理,将Web候选服务根据联系紧密程度和服务本身的QoS属性
云计算及移动云计算因在时间效率,成本效益,以及高效利用计算资源等方面展现出了明显优势,从而备受业界的广泛关注。然而,在这一技术逐步发展的过程中仍存在大量亟需解决的问题,如
双语词表作为跨语言信息处理的基本纽带,是自然语言处理领域的重要资源,在统计机器翻译和跨语言信息检索等应用中发挥着重要的作用。本文在深入研究现有从可比较语料库构建双
多线程技术因其可以提高计算效率、共享数据存储和节省资源开销在程序开发中得到了广泛应用,然而随着多线程程序的复杂度越来越高,软件开发人员面临着程序设计中出现的大量并
随着计算机网络与通信技术的快速发展,数字媒体(包括数字图像、数字音频、数字视频)已经得到了广泛的应用,随之而来的数字媒体的信息安全、知识产权保护认证等问题也变得日益
移动Ad hoc网络是一种具有自组织、无结构、动态性等特点的特殊的无线网络,广泛应用于军事、救灾、临时会议等应急性无线通信场合。移动Ad hoc网络为我们带来便捷性的同时也带
随着云计算技术的兴起和发展,作为云计算概念的延伸,云存储技术也逐渐成为一项热门的研究课题。云计算平台在应用中,产生的数据量呈现出爆炸性增长的态势,导致互联网企业面临管理
随着介入治疗在国内外的迅速兴起,以及医学成像技术、计算机图形图像处理技术的快速发展,对计算机辅助外科手术系统的研究已经成为了近年来国际上迅速发展的一个领域。计算机辅
随着互联网的快速发展和数码设备的普及,网络中数字图像的数量迅速增加。一些携带不良信息的图像在网络上传播,对社会造成了极大的危害。目前,面向信息过滤的图像检索系统在不良
RFID(Radio Frequency Identification)系统的运行中会产生海量的路径数据,从中发现路径的频繁模式显得越来越重要。传统的基于候选产生和测试的方法需要对序列数据集进行多