论文部分内容阅读
随着以因特网为主体的信息高速公路的迅速发展,信息技术已经渗透到我们社会生活的方方面面。因特网上的信息呈指数级增长,信息增长带来了双面的效果。一方面,可以从因特网上获取丰富的、最新的信息。另一方面,网络上信息浩繁,内容庞杂,而且由于因特网信息的开放性、个人化,一些不法分子利用计算机网络复制、传播和查阅一些色情的、种族主义的、暴力的、封建迷信或有明显意识形态倾向的信息,这些信息对社会的危害是很大的。如何过滤掉与自己需求无关的信息,快速准确的获得所需信息并免受非法信息侵扰,已经成为当前互联网发展研究的一个重点。本文主要研究Internet 上非法信息的过滤问题,内容涵盖了信息过滤的各个处理阶段,围绕信息过滤模型的过滤精度和过滤速度两个主要指标,在如下几个方面进行了研究和探讨:1. 对现有的信息过滤模型以及机器学习在模型中的应用进行了深入分析本文首先阐明了信息过滤技术的发展过程和发展趋势,分析了信息过滤模型涉及的关键技术及相关知识。在此基础上,分析了当前信息过滤模型存在的不足之处,如由于Internet 信息的复杂性和非法文档特征的不断改变,现有的信息模型自我学习、自我调整以适应环境变化的能力不足等;然后,从模型优化的角度考察了模型中能够使用机器学习进行改进的环节。2. 提出了基于统计的停用词表产生方法和基于遗传算法的特征提取优化算法分词和特征提取是信息过滤模型中非常重要的两个方面,本文分析了停用词的特点,提出了基于用户反馈的停用词表产生方法,进一步提高了分词的准确性;另外,本文构造了两级特征库并基于遗传算法对中心层特征库进行了优化,提出了一种新的特征提取优化算法。3. 提出一个新的基于自学习机制的信息过滤模型信息过滤的核心技术主要包括分词、特征提取、文档表示和文本分类四个部分。本文针对现有特征项权值统计能力不足,特征项数目和权值确定困难,特征项权值与分类算法阈值θ联系不足等问题,研究了Racchio 方法、决策树方法、基于实例的学习方法以及神经网络方法等机器学习方法在信息过滤中的应用,提出了一种新的基于自学习机制的信息过滤模型。4. 提出了分层、分级、分策略的信息过滤技术信息过滤技术是网络安全技术的一个重要方向,本文将安全规则建立和信息过滤实现模型的调整、优化相结合,面向应用提出了分层、分级、分策略的信息过滤技术,从而提高了信息过滤模型的适应能力和过滤速度。