基于网页文本的敏感信息检测系统研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:dukewyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,一些不法分子利用网络传播淫秽、暴力、反动、恐怖等敏感信息,对国家安全、社会稳定、人们的价值导向造成了严重的危害。如何从大量的网络信息中检测识别敏感信息,营造一个绿色健康的网络环境成为当前互联网安全建设的一个重要的研究课题。目前对于敏感信息检测的研究已经有了很多成果,主要包括向量空间模型、神经网络、语义过滤等。这些算法有的需要用户进行训练,对用户主观评价有依赖性,实时性较差;有的过于复杂,计算量较大,效率低。  本文从网页预处理、网页主体文本提取、文本敏感词检测几个方面开展研究。提出了基于网页内容的敏感信息检测方法,通过实验验证了敏感信息检测的准确性和检测效率。本文的主要研究工作如下:  ①对网页进行了编码转换、文本修复和干扰信息过滤处理。为避免对不同字符集文本分别进行文本处理,本文对网页源码的编码进行了统一转换,并利用Neko HTML对网页的标签格式、对齐错误等问题进行了修复,然后采用正则表达式方法过滤已提取的文本中的干扰符号,消除了敏感信息发布者故意在敏感词间夹杂的干扰符号。为后一步文本内容提取和敏感信息检测处理的准确性和效率提供了数据基础。  ②提出了一种基于局部信噪比的网页文本内容提取方法。该方法利用 DOM树结构,获取网页标题,记录各块标签的文本内容,然后通过块标签局部信噪比和文本标签密度的计算识别网页的主体文本和次要文本。该方法考虑了网页文本内容分布特征,为后面的敏感词位置权重计算提供依据。实验表明该方法提高了敏感信息检测的准确性和效率。  ③提出了基于敏感词决策树的信息检测算法(SWDT-IDA)。该算法根据一定规则将敏感词库构建为敏感词决策树,将已提取的文本以数据流形式匹配决策树,获取敏感词位置、频率信息。然后结合敏感词级别,通过新的加权公式计算文本敏感值,判定文本的敏感程度。该算法综合考虑了敏感词位置、词频、敏感级别以及文本长度等因素的影响。实验表明该算法可以更加快速准确地检测网页敏感信息。  ④设计并实现了基于网页文本的敏感信息检测原型系统。该原型系统采用了本文提出的基于局部信噪比的网页文本内容提取方法和SWDT-IDA敏感词检测算法,实验测试表明提高了敏感信息检测的准确性和效率。
其他文献
C程序运行时错误是程序错误中较难发现的一类错误,因为运行时错误是程序在运行中产生的错误,具有隐蔽性强、不可预见的特征。比如常见的运行时错误包括数组越界、动态存储分配
随着多投影显示技术的不断完善,多投影显示系统越来越广泛地应用于各学科。人们对投影显示的质量要求越来越高,对系统的需求也逐渐趋于多样化。为了使拼接融合效果更好,本文设计
传统基于加速度传感器的运动识别方法通常假设传感设备是固定放置的,当传感设备的放置方式或位置偏离预定设置时识别性能会受到极大影响。然而,在普适计算环境下自由使用的传感
微博近几年有着飞速的发展和广泛的影响。用户通过网页、手机、SMS等多种途径,随时随地记录见闻时事、参与话题讨论等。对实时产生的大量微博文本进行分析和挖掘具有风险预警
近年随着虚拟现实技术不断发展,使得基于高质量三维模型虚拟现实技术的应用逐渐渗透到我们生活的各个领域。面对三维模型数据量的不断增大,传统的基于半边结构的三维模型渐进
视频分割是计算机视觉领域的一个非常重要的问题,其中的视频双层分割在视频监控、物体行为分析、模式识别、物体检测、场景识别、视频聊天、3D电影制作等方面都有着非常广泛的
社交网络中的链接预测属于数据挖掘的一个研究方向,社交网络是由社会实体与他们之间关系组成的。链接预测的目的是从这种显式的关系中找出那些隐藏的关系。传统的数据挖掘通常
随着无线传感网络应用的增多,根据不同的应用需求提供相应的服务质量(Quality of Service, QoS)控制就成为无线传感网络研究的一个重要挑战。本文结合已有的簇树型无线传感网
随着互联网的快速发展,人们的生活方式有了很大的改变。从原来的静态网页到现在的微博,微信,交流平台日渐完善,信息技术完全把我们带到了一个以用户为中心的年代。然而随着生活质