基于自学习机制的信息过滤模型研究与实践

来源 :山东师范大学 | 被引量 : 0次 | 上传用户：chywei

【摘要】

：

随着以因特网为主体的信息高速公路的迅速发展,信息技术已经渗透到我们社会生活的方方面面。因特网上的信息呈指数级增长,信息增长带来了双面的效果。一方面,可以从因特网上

【作者】

：

迟学芝

【机构】

：

山东师范大学

【出处】

：

山东师范大学

【发表日期】

：

2005年期

【关键词】

：

信息过滤模型机器学习神经网络阈值相关反馈

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着以因特网为主体的信息高速公路的迅速发展,信息技术已经渗透到我们社会生活的方方面面。因特网上的信息呈指数级增长,信息增长带来了双面的效果。一方面,可以从因特网上获取丰富的、最新的信息。另一方面,网络上信息浩繁,内容庞杂,而且由于因特网信息的开放性、个人化,一些不法分子利用计算机网络复制、传播和查阅一些色情的、种族主义的、暴力的、封建迷信或有明显意识形态倾向的信息,这些信息对社会的危害是很大的。如何过滤掉与自己需求无关的信息,快速准确的获得所需信息并免受非法信息侵扰,已经成为当前互联网发展研究的一个重点。本文主要研究Internet 上非法信息的过滤问题,内容涵盖了信息过滤的各个处理阶段,围绕信息过滤模型的过滤精度和过滤速度两个主要指标,在如下几个方面进行了研究和探讨:1. 对现有的信息过滤模型以及机器学习在模型中的应用进行了深入分析本文首先阐明了信息过滤技术的发展过程和发展趋势,分析了信息过滤模型涉及的关键技术及相关知识。在此基础上,分析了当前信息过滤模型存在的不足之处,如由于Internet 信息的复杂性和非法文档特征的不断改变,现有的信息模型自我学习、自我调整以适应环境变化的能力不足等;然后,从模型优化的角度考察了模型中能够使用机器学习进行改进的环节。2. 提出了基于统计的停用词表产生方法和基于遗传算法的特征提取优化算法分词和特征提取是信息过滤模型中非常重要的两个方面,本文分析了停用词的特点,提出了基于用户反馈的停用词表产生方法,进一步提高了分词的准确性;另外,本文构造了两级特征库并基于遗传算法对中心层特征库进行了优化,提出了一种新的特征提取优化算法。3. 提出一个新的基于自学习机制的信息过滤模型信息过滤的核心技术主要包括分词、特征提取、文档表示和文本分类四个部分。本文针对现有特征项权值统计能力不足,特征项数目和权值确定困难,特征项权值与分类算法阈值θ联系不足等问题,研究了Racchio 方法、决策树方法、基于实例的学习方法以及神经网络方法等机器学习方法在信息过滤中的应用,提出了一种新的基于自学习机制的信息过滤模型。4. 提出了分层、分级、分策略的信息过滤技术信息过滤技术是网络安全技术的一个重要方向,本文将安全规则建立和信息过滤实现模型的调整、优化相结合,面向应用提出了分层、分级、分策略的信息过滤技术,从而提高了信息过滤模型的适应能力和过滤速度。

其他文献

SIP协议和H.323协议互通技术的研究

随着数字信息技术和网络技术的发展,Internet进入了寻常的千家万户,人们已经不再满足于单纯的上网浏览信息,而需要双向的交互式服务,这就形成了VoIP技术。IP网络电话由于其费

学位

VOIPSIPH.323信令转换网关

防内网信息泄漏技术的研究

随着网络技术的发展，企业应用对网络的依赖性越来越大，网络安全也就变得更加重要。内网安全作为网络安全的一个重要组成部分，需要得到足够的重视。内网安全的目标是保证内网资源

学位

信息安全内网安全网络泄漏外设泄漏

自然景物的分形模拟

自然景物模拟一直是计算机图形学的研究热点。自然景物包罗万象,自相似性是其相当普遍的特征,而分形几何学正是表现这一特征的重要数学工具,分形法有多种形式,需要根据实际应

学位

自然景物植物分形L-系统可视化

计算机系统脆弱性评估方法研究

本文将安全性分析领域常用的故障树模型引入到计算机系统的脆弱性评估，融合基于规则的方法，通过目标系统的信息发现进而组建评估模型，分析计算脆弱性和生成安全建议。本

学位

故障树分析模糊数安全评估特权提升脆弱性评估

基于地理信息系统的车辆的定位与监管

随着我国经济的飞速发展,汽车作为一种便捷的交通工具,早已成为人们生活中重要的组成部分,但随之而产生的城市交通问题也日益突出,这些问题已经成为严重影响许多城市发展的主

学位

地理信息系统全球卫星定位系统全球移动通信系统

软件测试度量的研究及其工具STMT开发

软件测试作为软件开发过程的一个重要环节,其目的是尽可能发现被测试软件中的缺陷和错误,提高软件的质量和可靠性。但是,随着软件规模越来越大,复杂程度越来越高,软件测试也

学位

软件测试软件测试度量GQM基本度量派生度量指示器

IPv6环境中组播技术的研究与应用

随着互联网的不断发展,网络用户的不断增加,原有的IP地址资源显得越来越稀少,无法满足今后网络继续发展的需要。为了解决这个日益突出的问题,IPv6协议应运而生。IPv6协议采用

学位

IPv6组播技术.NET网络开发

基于二次失真的图像模糊度评价技术研究

图像广泛存在于日常生活的各个领域,伴随计算机技术与通信技术的迅猛发展,数字图像越来越成为人们获取信息的重要途径。例如在机器视觉、医学、通信、天文学、生物学等重要的

学位

图像质量评价图像模糊度评价二次失真人类视觉系统

基于专家系统和证据理论的网络测试智能研判系统的研究与实现

随着以计算机为代表的信息技术的飞速发展与应用,人类已然进入了信息化社会。计算机网络在人类生产生活的诸多方面都施加着自己的影响力,人类的许多生活习惯和行为都随之发生

学位

XML专家系统证据理论信息融合树形模型

基于k-假名集合的用户匿名身份认证协议

互联网在给人们的生活带来便利的同时也引发了很多安全隐患,尤其是个人信息的泄露造成的不良影响十分广泛。因此,个人信息的保护日益引起人们的重视。在无线环境下的身份认证

学位

k-假名集合匿名认证Dolev-Yao模型加强的Dolev-Yao模型

基于自学习机制的信息过滤模型研究与实践

其他学术论文