论文部分内容阅读
随着互联网在社会各个领域的普及和应用,互联网已经成为人类社会不可或缺的重要组成部分。通过互联网传播的网页内容形式多样,如何对这些内容,特别是有害内容进行有效监管,是互联网研究的重要课题。本论文首先分析了世界各国在治理互联网有害信息方面所采取的各种措施,然后从技术角度出发,依据内容分级管理体系思想,结合支持向量机(Support Vector Machine,SVM)网页内容分类算法,提出了一种把网页内容分级和网页自动分级标记相结合的信息过滤系统:该系统以分级标准中的分级条目作为网页自动分级标记的依据,根据提前训练好的分级模板,对用户请求的未分级网页进行自动分级标记,系统最后依据内容分级过滤规则对有害信息进行过滤。在系统实现过程中,论文还引入了一些可行的安全措施,保证整个系统安全高效地运行。归纳起来,本论文主要做了以下几方面的研究工作:(1)论文分析了网页内容分级和当前主流过滤技术在世界各国的研究与实施现状,针对阻碍网页分级实施的各种不利因素,提出了一种把网页内容分级与网页自动分级标记相结合的信息过滤系统;(2)编程实现了对未分级网页的自动分级标记。该过程主要包括网页信息的提取与转换、网页特征向量计算、分类训练、网页分类以及分级标签生成等几部分。论文还搜集了相关网页数据,进行了实验验证;(3)为保证分级标签与相关网页信息的一致性和分级标签的安全性,系统在生成分级标签的同时,生成了对应网页的信息摘要,并将其作为分级标签的一部分储存在分级标签中,而且还对分级标签采取了数字签名,论文给出了详细的实现步骤和方法。