论文部分内容阅读
随着网络的发展和互联网的普及,互联网用户的规模越来越大,各种领域的网站也相继出现,主要有大型门户网站、政府类、新闻类、交易类、高校类网站等等,他们涵盖了所有的领域,比如经济、政治、文化、教育等等,从国家到政府、从企业到个人、从城市到乡村,获取信息和发布信息的途径已经从其他方式转移到了利用互联网,这得益于互联网的传播快速性,很少受到时间或者距离的影响。特别是从个人来说,手机、电脑的普及化使每个人都走进了互联网,使每个人能随时随地的在互联网中获取各种信息,而且用户在互联网中享受着言论的相对自由。在这种互联网环境下,如果一旦有不良信息进入互联网,那么它将会以极快的速度在互联网上传播,当阅读这些不良信息的互联网用户达到一定程度时必将在社会上引起强烈的讨论,更严重会造成社会的不稳定,甚至危害国家的安全,这种事情也经常发生,比如2012年全国大规模的反日游行、2008年汶川震后的各种谣言。所以必须有效的把控不良信息进入互联网。本文通过判定网页正文的敏感度来防止不良的信息进入互联网。目前,敏感词库和敏感词等级库都不太健全,对网页敏感度的研究也非常少。本文收集了互联网上存在的敏感词库,在对这些敏感词库汇总的基础之上,将每一个敏感词都按照一定的标准进行了敏感等级的标注,构建了敏感词等级库。系统设计过程中,主要提出和使用了三个算法,分别是基于AC算法的多模式匹配算法、网页正文提取算法和基于敏感密度的网页正文敏感度分析计算方法,系统共包含六大模块:数据库管理、爬虫设计、网页正文提取、敏感词检测、网页敏感度分析和数据页面展示,系统能够进行网站URL抽取、网页正文抽取、敏感词检测和网页敏感度计算的功能,通过该系统能够有效地检测出互联网中存在的不良信息。