基于进化模型的网络信息过滤关键技术研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:etzhenghao2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展和因特网的日益普及,网络上的信息量急速倍增,广大计算机用户深受信息过载和信息污染的严重困扰。网络信息过滤的出现与发展为人们快速、准确、全面地获取信息指明了方向。网络信息过滤技术是以一种系统化的方法,将用户需求与动态信息流进行匹配计算,从信息流中抽取出符合用户需求的信息并传送给用户。本文从过滤系统涉及的关键技术入手,所做的主要工作如下:1.对当前主要的汉语分词方法进行分析和研究,设计了一种简单高效的分词方法。考虑到中文自动分词是信息过滤的基础,分词质量的好坏直接影响过滤结果的优劣。我们针对语言丰富,新词量大且对速度有很高要求的网络环境的实际需求,对当前主要的汉语分词方法进行分析和研究,设计了一种简单高效分词方法。本方法最大特点是实现简单,分词速度快,且对新词识别能力强。对研究和开发具有一定的实用价值的中文自动分词系统具有一定的借鉴意义。2.提出了一种用于大规模语料的类别权重计算方法和一种单Web文本权重计算方法。针对目前很多系统不考虑特征的实际应用和侧重点,对特征权重不作区分计算的现状,本文提出了一种用于大规模语料的类别权重计算方法和一种单Web文本权重计算方法。这两种权重计算方法分别用在两个不同的环节。在训练用户模型时,面对的是整个数据集,特征的重要性是在整个文本数据集中的重要性,更侧重于特征的类别区分能力,适用类别权重计算方法,本文充分挖掘特征的类别信息(词频、文档频率、类分布等)来构造类别权重计算函数;流经网络的文档流在某一时刻是单个文本,更侧重于文本内容的表示能力,适用单Web文本权重计算方法,本文根据web文档自身的特点,例如根据特征词频和文本结构等特点构造权重计算函数。3.利用遗传算法进化用户模型时,对影响遗传算法早熟收敛的交叉和变异算子进行了改进,根据进化过程采取自适应交叉和变异概率,并引入基因扩展、增量遗传等措施更新用户模型,将用户模型的获取和更新融为一体。目前,在用户模型的研究上,大多数过滤系统把用户模型的获取和更新分离开来。本文对用户模型的表示、建立和更新环节进行了详细的分析和研究,将用户兴趣模型的获取和更新过程看作是一个学习→调整→再学习→再调整……不断进化的过程,因而可以把用户模型的建立和更新融入遗传算法的进化机制,从而获取高效准确的用户模型。为了充分发挥遗传算法的优势,避免传统遗传算法的缺陷,本文在应用遗传算法进化用户模型时,对遗传算法各个环节的实施策略进行了精心的设计和改进。主要对影响遗传算法早熟收敛的交叉和变异算子进行了改进,综合考虑群体的收敛状态、个体适应度及迭代次数等因素,根据进化过程采取自适应交叉和变异概率,并且引入基因扩展、增量遗传等措施更新用户模型。4.设计了一个具有三级过滤功能(基于URL的过滤、基于关键词的过滤和基于网页内容的过滤)的网络信息过滤模型系统,并对本文改进的算法进行了相关的实验和分析,取得了令人满意的测试效果。
其他文献
随着互联网信息的快速增长,搜索引擎面临着巨大的压力。通用搜索引擎返回的信息量较大,但对于用户特定的查询来说,信息质量却不高,为了解决该问题,主题爬虫诞生了。对于传统
各高校投入大量人力物力进行校园无线网络的建设,本论文作者所在的汕头大学也同样开始建设校园无线网络,以实现网络的全校全面覆盖。汕大校园室内已有厂商Aruba和高威提供的WiF
安全稳定的电力保障是社会生活中的一件大事,电力运行中出现的任何故障都可能给正常的社会生活生产带来严重的影响并造成巨大的经济损失。变电站在保障电力安全稳定中具有极其重要的作用,传统的变电站设备巡检由巡检工作人员携带纸质表格到现场巡视设备并记录巡检缺陷数据,存在巡检工作人员不到位,工作效率低下,漏检和人为错误因素过多等问题,是变电站运行的一大安全隐患。随着计算机技术和网络技术的发展,移动终端设备的发展
随着计算机技术的飞速发展,人们对计算机系统的依赖性越来越高。而在造成计算机系统错误的因素中,软件占了绝大部分。因此,如何保证软件质量,设计并开发出可靠的软件已经成为当务
随着Internet和Web技术的广泛应用,越来越多的企业迫切需要高效地构建自己的Web应用系统。近年来,Sun公司的J2EE平台凭借Java语言的诸多特性和企业软件开发中的种种经验,成为企
本文对数字海洋中各种数据格式转换及多源SST的融合进行研究。当今数字海洋的研究不断深入的情况下,各种记录海洋信息的数据格式层出不穷。各种不同的数据格式,不同的开发工具
无线mesh网络(WMN)基于其先进的数据传输理念,在业界得到了广泛的关注和研究。基于多跳、高容量、易组织等特点,需要收发数据的通信双方能够随时随地建立相互连接。不足的是,
随着各类公共突发事件的不断发生,国内外越来越关注突发事件的防范和应急处置,突发事件应急管理的研究就是应运而生的一个新的研究领域。信息资源管理是突发事件应急管理的一个
随着软硬件费用的下降,DBA费用的上升,以及数据库管理系统复杂性的增强,数据库管理和维护成本,已成为其整体拥有成本的主体,这就使得数据库自管理、自调优技术的发展成为必然
用户界面开发效率问题是软件过程中的关键问题,在传统的开发过程中,界面的开发以手动为主,缺少高效开发工具的支持和对所开发界面的系统分析与评价,不能有效应对需求变更的现