基于遗传禁忌算法的网络信息过滤模型研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:sdngam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展和应用,网上信息飞速增长,内容丰富,种类繁多。然而,网络是把双刃剑,在给人类带来便利的同时又不可避免地使其接触到大量不良信息;另外,基于网络自身所固有的开放性、动态性和异构性,用户很难准确快速地获取所需信息,如何自动从动态信息流中抽取出符合用户个性化需求的信息变得异常重要。为解决上述问题,网络信息过滤技术应运而生。信息过滤技术能根据用户需求抽取信息并屏蔽不良信息,它主要研究网络信息的获取和表示、用户模板的构建、待处理文档的分类等问题。本文涵盖了网络信息过滤的各个阶段,以信息过滤模型的查准率和查全率两个技术指标为出发点,做了如下几方面的工作:1、深入研究了网络信息过滤相关过滤模型及其各项关键技术探讨了典型的信息过滤模型及其相关算法,重点研究了网络信息过滤中涉及的网络数据获取、分词技术、特征选择算法、权值计算、文本表示模型、分类算法等关键技术。2、提出了基于遗传禁忌算法的网络信息过滤模型深入探讨了遗传算法的基本原理及应用,在充分分析遗传算法优点的基础上,针对遗传算法存在的“爬山”能力差、“早熟”等缺点,引入“爬山”能力较强的禁忌搜索算法对交叉算子进行改进,形成禁忌交叉算子,提高传统遗传算法的搜索能力。在过滤模型的分类阶段,针对模型中使用的传统朴素贝叶斯分类算法不能解决单类别词汇问题,文中对其进行改进,使之具有较好的鲁棒性和适应性。3、提出了应用词汇组合进行句子抽取的文本摘要方法一篇文本往往包含很多句子,但有些句子不能表达该文本的主题,这些冗余句子影响遗传训练形成的用户模板质量。文本摘要作为一种信息压缩工具能对文本内容进行压缩,去掉冗余句子,提取出最精炼的内容。为进一步提高模板质量,文中引入文本摘要方法对语料进行优化。针对摘取过程中词法分析系统分词精度过低而导致特征项之间语义缺失的问题,文中提出根据词性制定修正规则,并依此规则对分词后的句子进行规范的思想,使句子中有语义关系的词语建立相应联系,改进后的摘要方法摘取的内容更精炼,更准确。4、设计并实现了基于遗传禁忌算法的网络信息过滤模型在系统中首先采用改进的文本摘要方法对训练语料进行预处理;然后使用遗传禁忌算法训练文本,形成最优用户模板;最后,采用改进的分类算法对待测文本进行分类,最终实现了一个多层次、多策略及模块化的基于遗传禁忌算法的网络信息过滤系统。经测试,该系统运行可靠、稳定、高效,能对网络信息进行有效的过滤。
其他文献
非真实感绘制技术是当今计算机图形学研究的热点问题之一,它不像真实感图形学那样追求像照片一样的真实感,而是希望通过忽略图像中的一些不重要的细节,来突出图像要表达的信
无线传感器网络是由大量分布在特定区域的无线传感器节点组成的,这些节点能够协作地实时监测、感知和采集各种环境或监测对象的信息,并对其进行处理,传送到用户,具有无线通信、传
互联网已成为全世界范围内的信息传播和资源共享的平台,但随之而来的诸多问题也日益显现。如何保障信息的安全与个人的隐私是一个关键性的问题。匿名通信技术是一种保护信息
随着互联网、物联网、移动互联网的飞速发展,海量的数据信息产生了信息过载问题。尤其在大型电影推荐网站,如何通过一种有效的机制来帮助用户快速的获取到想要的电影信息,这
针对软件危机,基于构件的软件开发方法被提出来。在基于构件的软件开发过程中,构件库扮演了重要角色。实践中构件数量不断增长,如何实现构件库中对构件的有效的检索就成为构
近几年,随着经济社会的快速发展,城市化的进程的加速,居民收入水平稳步提高,对土地的需求量也相应增大,占用了大量的优质农用耕地,面对日益严峻的耕地的流失问题,必须制定切实有效的
在移动计算终端上进行三维图形计算是一个重要的课题,针对移动设备计算能力有限,存储空间不足,屏幕分辨率小,无线网络带宽受限等特点,研究如何进行移动三维图形的渐进显示具
2014年以来网络信息安全成为当今社会的热门话题。网络信息安全不仅包括网络信息的保密性、完整性和真实可靠性方面,还包括对网络中充斥着的大量垃圾信息的监管和预防。目前
无线传感器网络是当前国际上备受关注的、多学科交叉的热门研究领域,作为一种全新的信息获取、处理和传输技术,无线传感器网络的主要功能是协作的感知、采集和处理网络监测区域
随着互联网的普及和计算机技术的迅猛发展,Web已成为人们日常生活中获取知识、技术共享、信息交流的重要平台。越来越多的互联网用户在博客、论坛、社区等网站上以文本、图像