论文部分内容阅读
近年来,一些不法分子利用网络传播淫秽、暴力、反动、恐怖等敏感信息,对国家安全、社会稳定、人们的价值导向造成了严重的危害。如何从大量的网络信息中检测识别敏感信息,营造一个绿色健康的网络环境成为当前互联网安全建设的一个重要的研究课题。目前对于敏感信息检测的研究已经有了很多成果,主要包括向量空间模型、神经网络、语义过滤等。这些算法有的需要用户进行训练,对用户主观评价有依赖性,实时性较差;有的过于复杂,计算量较大,效率低。 本文从网页预处理、网页主体文本提取、文本敏感词检测几个方面开展研究。提出了基于网页内容的敏感信息检测方法,通过实验验证了敏感信息检测的准确性和检测效率。本文的主要研究工作如下: ①对网页进行了编码转换、文本修复和干扰信息过滤处理。为避免对不同字符集文本分别进行文本处理,本文对网页源码的编码进行了统一转换,并利用Neko HTML对网页的标签格式、对齐错误等问题进行了修复,然后采用正则表达式方法过滤已提取的文本中的干扰符号,消除了敏感信息发布者故意在敏感词间夹杂的干扰符号。为后一步文本内容提取和敏感信息检测处理的准确性和效率提供了数据基础。 ②提出了一种基于局部信噪比的网页文本内容提取方法。该方法利用 DOM树结构,获取网页标题,记录各块标签的文本内容,然后通过块标签局部信噪比和文本标签密度的计算识别网页的主体文本和次要文本。该方法考虑了网页文本内容分布特征,为后面的敏感词位置权重计算提供依据。实验表明该方法提高了敏感信息检测的准确性和效率。 ③提出了基于敏感词决策树的信息检测算法(SWDT-IDA)。该算法根据一定规则将敏感词库构建为敏感词决策树,将已提取的文本以数据流形式匹配决策树,获取敏感词位置、频率信息。然后结合敏感词级别,通过新的加权公式计算文本敏感值,判定文本的敏感程度。该算法综合考虑了敏感词位置、词频、敏感级别以及文本长度等因素的影响。实验表明该算法可以更加快速准确地检测网页敏感信息。 ④设计并实现了基于网页文本的敏感信息检测原型系统。该原型系统采用了本文提出的基于局部信噪比的网页文本内容提取方法和SWDT-IDA敏感词检测算法,实验测试表明提高了敏感信息检测的准确性和效率。