论文部分内容阅读
随着全球计算机与通讯技术的飞速发展、互联网的普及与应用,越来越多的商务、日常活动通过Internet进行,网络跟人们的生活越来越紧密。因特网上的信息呈指数级增长,信息增长带来了双面的效果。一方面,可以从因特网上获取丰富的、最新的信息。另一方面,网络上信息浩繁,内容庞杂,面对信息的汪洋大海,人们往往感到束手无策,无所适从,更由于网络信息的自由性,使得提供有用信息的同时也为形形色色的不良信息提供了藏污纳垢的便捷场所,人们在上网的过程中不可避免地接触到大量的不良信息。因而如何帮助人们有效地选择和利用所感兴趣的信息,尽量剔除不相关和不良的信息,如何管理网络用户尤其是青少年学生对Internet的访问,而又不影响用户对网络的正常访问,越来越引起人们的关注。本选题涵盖了信息过滤的各个处理阶段,围绕信息过滤模型的过滤精度和过滤速度两个主要指标,在如下几个方面进行研究和探讨:1.对现有的信息过滤模型进行了分析,并对基于向量空间的信息过滤进行了深入研究分析了当前信息过滤的发展过程和发展趋势,并分析了信息过滤模型所涉及的关键技术及相关知识。研究了基于向量空间的信息过滤模型的详细过程,以及该模型所表现出来的优势,同时,针对目前存在的问题,探讨了该模型可以改进的环节。2.对支持向量机技术进行了研究与改进对信息过滤的关键部分进行了研究,将支持向量机引入信息过滤,在对支持向量机的基本知识以及在信息过滤中的优势进行分析的基础之上,针对网络不良信息过滤问题对支持向量机技术进行了改进。分别从过滤内容考虑提出了对支持向量机分层的思想,从训练知识获取考虑提出了基于用户反馈的增量式学习的思想,从训练材料的作用大小提出了模糊支持向量机的思想。3.提出了一种多层、多策略、分布式的信息过滤方案分析了网络信息过滤尤其是网络不良信息过滤问题各方面的特点,提出了一种多层、多策略、分布式的信息过滤方案。首先,该方案采用不同技术在网络体系的多个层次分别进行过滤;其次,将用户协作与内容过滤结合,采用用户反馈的方式实现多用户协作,用反馈信息对内容过滤模板作出调整;再有,将学习过程与过滤过程分离,进一步实现了分布式处理,从而避免了系统瓶颈。4.采用新方案设计并实现了一个信息过滤系统采用新方案,按照分层、模块化设计的思路设计了新的信息过滤系统,新系统具有良好的可重用性、可扩展性、可适应性。试验表明,该系统提高了信息过滤的查全率、查准率。