基于自学习机制的信息过滤模型研究与实践

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:chywei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着以因特网为主体的信息高速公路的迅速发展,信息技术已经渗透到我们社会生活的方方面面。因特网上的信息呈指数级增长,信息增长带来了双面的效果。一方面,可以从因特网上获取丰富的、最新的信息。另一方面,网络上信息浩繁,内容庞杂,而且由于因特网信息的开放性、个人化,一些不法分子利用计算机网络复制、传播和查阅一些色情的、种族主义的、暴力的、封建迷信或有明显意识形态倾向的信息,这些信息对社会的危害是很大的。如何过滤掉与自己需求无关的信息,快速准确的获得所需信息并免受非法信息侵扰,已经成为当前互联网发展研究的一个重点。本文主要研究Internet 上非法信息的过滤问题,内容涵盖了信息过滤的各个处理阶段,围绕信息过滤模型的过滤精度和过滤速度两个主要指标,在如下几个方面进行了研究和探讨:1. 对现有的信息过滤模型以及机器学习在模型中的应用进行了深入分析本文首先阐明了信息过滤技术的发展过程和发展趋势,分析了信息过滤模型涉及的关键技术及相关知识。在此基础上,分析了当前信息过滤模型存在的不足之处,如由于Internet 信息的复杂性和非法文档特征的不断改变,现有的信息模型自我学习、自我调整以适应环境变化的能力不足等;然后,从模型优化的角度考察了模型中能够使用机器学习进行改进的环节。2. 提出了基于统计的停用词表产生方法和基于遗传算法的特征提取优化算法分词和特征提取是信息过滤模型中非常重要的两个方面,本文分析了停用词的特点,提出了基于用户反馈的停用词表产生方法,进一步提高了分词的准确性;另外,本文构造了两级特征库并基于遗传算法对中心层特征库进行了优化,提出了一种新的特征提取优化算法。3. 提出一个新的基于自学习机制的信息过滤模型信息过滤的核心技术主要包括分词、特征提取、文档表示和文本分类四个部分。本文针对现有特征项权值统计能力不足,特征项数目和权值确定困难,特征项权值与分类算法阈值θ联系不足等问题,研究了Racchio 方法、决策树方法、基于实例的学习方法以及神经网络方法等机器学习方法在信息过滤中的应用,提出了一种新的基于自学习机制的信息过滤模型。4. 提出了分层、分级、分策略的信息过滤技术信息过滤技术是网络安全技术的一个重要方向,本文将安全规则建立和信息过滤实现模型的调整、优化相结合,面向应用提出了分层、分级、分策略的信息过滤技术,从而提高了信息过滤模型的适应能力和过滤速度。
其他文献
随着数字信息技术和网络技术的发展,Internet进入了寻常的千家万户,人们已经不再满足于单纯的上网浏览信息,而需要双向的交互式服务,这就形成了VoIP技术。IP网络电话由于其费
随着网络技术的发展,企业应用对网络的依赖性越来越大,网络安全也就变得更加重要。内网安全作为网络安全的一个重要组成部分,需要得到足够的重视。内网安全的目标是保证内网资源
自然景物模拟一直是计算机图形学的研究热点。自然景物包罗万象,自相似性是其相当普遍的特征,而分形几何学正是表现这一特征的重要数学工具,分形法有多种形式,需要根据实际应
本文将安全性分析领域常用的故障树模型引入到计算机系统的脆弱性评估,融合基于规则的方法,通过目标系统的信息发现进而组建评估模型,分析计算脆弱性和生成安全建议。本
随着我国经济的飞速发展,汽车作为一种便捷的交通工具,早已成为人们生活中重要的组成部分,但随之而产生的城市交通问题也日益突出,这些问题已经成为严重影响许多城市发展的主
软件测试作为软件开发过程的一个重要环节,其目的是尽可能发现被测试软件中的缺陷和错误,提高软件的质量和可靠性。但是,随着软件规模越来越大,复杂程度越来越高,软件测试也
随着互联网的不断发展,网络用户的不断增加,原有的IP地址资源显得越来越稀少,无法满足今后网络继续发展的需要。为了解决这个日益突出的问题,IPv6协议应运而生。IPv6协议采用
图像广泛存在于日常生活的各个领域,伴随计算机技术与通信技术的迅猛发展,数字图像越来越成为人们获取信息的重要途径。例如在机器视觉、医学、通信、天文学、生物学等重要的
随着以计算机为代表的信息技术的飞速发展与应用,人类已然进入了信息化社会。计算机网络在人类生产生活的诸多方面都施加着自己的影响力,人类的许多生活习惯和行为都随之发生
互联网在给人们的生活带来便利的同时也引发了很多安全隐患,尤其是个人信息的泄露造成的不良影响十分广泛。因此,个人信息的保护日益引起人们的重视。在无线环境下的身份认证