基于文字识别的敏感网络图片审查系统的设计与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:nanshixujie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络共享性、开放性、互连程度的不断发展以及计算机本身的普及,如今互连网已经深深的渗透到了人们生活的各个领域。因此,如何保障人们在上网的同时不被敏感网络信息所危害就显得越来越重要,近年来随着带有敏感信息的网络图片的不断增多,对带有敏感信息的网络图片的识别和审查变得越来越重要了。  本着帮助相关审查人员审查网络图片并屏蔽掉带有敏感图片的网站的目的,论文设计并实现了该审查系统。本系统包含了网络图片的获取和存储、图片文本区域的定位和文字识别以及人工审查三个模块。通过爬虫程序从指定的网站爬取图片,并将图片信息存储到数据库中,将图片保存到指定路径下。在文本定位时,利用SIFT算法进行特征提取和特征匹配,将爬虫保存的图片逐个读出,提取它们的SIFT特征,进行特征匹配,找到可能存在的文本区域,然后通过预定位和连通体分析方法准确定位出文本区域,并使用文字识别软件(OCR)对提取的文字进行识别,由系统将识别结果反馈给相关审查人员。审查人员在获得系统的反馈信息后,根据反馈信息的内容,对相应的网站做出相应的处理。  通过对部分网站的测试发现,论文所做的工作能够获得网站中的图片并对部分图片的文本区域进行的正确定位,然而对于某些背景特别复杂的图片并没有很好的效果,这是本系统的文本定位算法需要在下一步作出改进的地方。
其他文献
如何保持应用系统内部的透明性,如何解决组织内的信息孤岛问题,使用户更加方便的按照需要定制各种数据输出格式,使软件开发更加从容的应对系统需求的变化,是软件开发的一个重要的
优化排样问题是指寻求二维图形在特定长度,宽度区域内的摆放尽可能多,以使区域的利用率达到最优。它在服装、皮革制品、体育用品、机械等制造行业中都有应用。国内有成千上万
智能手机日渐普及,而Android手机在智能手机的市场占有率占了81%。人们在手机里存储的信息越来越多,其中不乏很多隐私信息,包括短信、通讯录、通话记录、照片等。一旦手机丢失,人
复杂介质中的弹性波数值模拟是力学、数学、地球物理学领域内重要并相当活跃的研究方向,有限差分法是实现弹性波正演模拟的重要方法之一。传统的差分算法要想提高计算精度,就必
未来的路由器/交换机设备将具有多端口和高端口速率高的特点,而多媒体应用数据的服务质量需求使路由器/交换机必须具备高速交换能力和对不同数据的服务质量给予保障的能力,这
相对于Web上的海量数据而言,个人阅读和理解信息的能力非常有限,很难获得他们所期望的知识,此即“信息爆炸”问题。为了解决这个问题,人们提出了很多技术来帮助用户利用网上资源,W
随着信息技术的发展,软件规模不断扩大,如何保证和提高软件质量成为软件工程最为关心的问题之一。软件测试能够有效地发现软件中的缺陷和故障,是保证软件质量的关键技术。但
人工神经网络具有优良的非线性特性,特别适用于高度非线性系统的处理,基于神经网络的智能预测是解决非线性预测问题的有效方法。电力行业信息化建设积累了大量的历史数据,迫
空管设备主要是指通信、导航、雷达等设备,其设备正常运行率要求为99.99%,如何有效地提高空管设备的维护维修效率,是目前空管设备保障的重要课题,如何在现有员工的技术水平基础上,
随着计算机应用的普及和近年来因特网的发展,特别是Web网的迅猛发展,信息的增长规模在速度上达到了空前的水平。如何协助用户更加方便有效地利用现有的网络资源,并且从中获得