基于增量搜索的敏感信息监测系统的研究与实现

来源 :重庆大学 | 被引量 : 0次 | 上传用户:juhaixu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,互联网成为了大多数人生活中必不可少的一部分。不少不法分子借助互联网的广泛影响,在网络中散布谣言、淫秽、恐怖、反动等敏感信息,不仅侵犯个人权益,甚至危害国家安全,引起社会动荡。如何在海量的互联网信息中快速发现这些敏感信息,成为信息安全在互联网时代的一个重要课题。本文对敏感信息发现开展研究,主要工作如下:①提出了一种论坛帖子链接的识别算法。通过对论坛站点的论坛帖子链接特点分析,发现论坛帖子链接文本描述在长度上有统计规律,并在构造上具有一定模式。论坛帖子链接参数大体可分为分显式和隐式两类,显式链接参数明确包含请求处理网页名、帖子编号、帖子页码信息,隐式链接参数则将上述三个信息包含在请求处理网页名中。基于链接文本描述长度的统计值,提出了识别论坛帖子链接构造模式,并提取请求处理网页名、帖子编号、帖子页码信息的算法。实验表明,该算法能够自适应并快速准确识别帖子链接和非帖子链接,为快速抽取帖子内容提供基础。②提出了一种基于帖子id自增长的论坛敏感信息扫描策略。针对没有识别出帖子链接模式的论坛,直接采用宽度优先策略进行敏感信息扫描。针对识别了帖子链接模式,但该模式帖子id不能自增长的论坛,采用宽度优先构建爬行队列,对符合帖子链接模式的网页进行敏感信息扫描。针对帖子id能够自增长的论坛,则采用帖子id递增的方式动态构建爬行链接进行敏感信息扫描。实验测试表明,同传统的宽度优先爬行策略相比,本策略提高了论坛帖子扫描速度。③提出了一种基于增量搜索的敏感信息监测调度策略。通过计算网页md5值,标识网页变化情况,对发生变化的网页进行增量扫描。根据扫描结果是否出现敏感信息,预测下次扫描时间,动态调整扫描频率,实现优化调度。对于需要重点扫描的网页,根据网页敏感度、网页变化频度和网页深度计算网页的扫描紧迫度,构建网页级扫描队列,进行高频扫描。为完整发现网页变化,并且尽量减少资源消耗,构建网站级扫描队列,进行低频扫描,将敏感信息变化的网页补充进网页级扫描队列。实验结果显示,该策略不仅能快速发现新增的、变化的敏感信息,而且由于减少了对敏感信息无变化的网页的扫描开销,极大地降低对网络和服务器资源的消耗。④设计和实现了一个敏感信息监测原型系统。原型系统按照展示层、业务层、数据层进行架构。通过对41个网站以及4个论坛进行了持续监测扫描。扫描结果表明该系统运行稳定,能够较快发现被监测的网站和论坛中的敏感信息。
其他文献
XML以其高度的表达能力和灵活性,逐渐在互联网上成为数据发布和数据交换的标准。如何在大量的XML数据中查询信息已经成为学术界和产业界关注的一个热点。在过去的研究中,人们
伴随着开放式网络系统的飞速发展,PKI网络安全体系被广泛使用和推广。网络事务中行为人的身份一般使用数字证书进行身份认证。在传统的方式中,数字证书一般从CA得到并保存在
免疫算法是模拟生物免疫系统功能的一种智能算法,具有解决复杂工程问题的潜力。但目前的免疫算法还有没有类似遗传算法和神经网络等智能系统的相对统一的基础和理论。在实际应
Web Services为实现系统应用的跨平台交互和集成提供了契机,成为业界的焦点。由于单个Web Service提供的功能毕竟有限,仅仅通过单一的、功能简单的Web Services交互来实现真
在快速发展的互联网时代,数字化办公已变得十分普及,人们每天都要接触许多的数字文档。由于数字文档极易被篡改和伪造,因此数字文档的安全性引起了越来越多的关注。我们应该
随着网络技术发展的日新月异,网络规模迅速扩大,特别是进入90年代后,以IP为基础的Internet呈现出爆炸式增长,Internet已逐渐发展成为全球性的信息基础设施。随着新型网络应用
随着信息技术的飞速发展,信息应用系统在高校的教学科研管理各个方面得到了广泛的应用,极大地促进了高校各项事业的蓬勃发展。然而当高校全力朝着“数字化校园”的建设目标迈
随着移动互联网技术发展和智能手机的普及,在室内人们对基于位置服务需求越来越多,如商场导航,车库寻车,现场救援,智能家居位置感知等。室内定位可靠性和对环境变化适应性引
信息的不一致性是普遍存在的,在计算机技术的日益发展而且软件系统的规模也在不断变大的今天,软件系统的开发也变得更加复杂和难以把握。而面向对象技术作为目前软件开发中最
联盟问题是多代理系统研究领域的一个重要课题。动态联盟问题是这一课题的一个重要分支。在多代理系统中关于联盟的研究主要集中在静态联盟的领域:Talal Rahwan提出了一种静态