基于DHT的分布式垃圾邮件处理系统关键技术研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:hether_yan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及,电子邮件与人们的工作生活联系日趋紧密,随之而来的垃圾邮件问题日益严重。在分布式垃圾邮件处理领域,基于Nilsimsa摘要的垃圾邮件识别技术和基于信誉机制的垃圾邮件阻截技术占有重要的研究地位。但是,由于Nilsimsa摘要生成方式和比较方式的特殊性,目前的垃圾邮件处理系统基本上采取集中方式处理邮件Nilsimsa摘要,这严重影响了系统的查询效率和可扩展性。同时,由于现有的原始信誉值计算方法不能精确地反映目标结点的当前状态,信誉值的计算结果难以满足垃圾邮件控制策略的要求,因此,高效的、比较适用于垃圾邮件阻截的结点信誉度生成算法也需要进行认真地研究。针对这些问题,本文对基于DHT网络的Nilsimsa摘要发布和查询方法、邮件服务器信誉度生成算法以及垃圾邮件服务器阻截方法进行研究。论文的主要贡献如下:   (1)针对邮件Nilsimsa摘要不易分布式处理的问题,本文提出了基于Chord的邮件Nilsimsa摘要发布和查询方法ChordNil。ChordNil以Nilsimsa向量长度为键值,能够将相似邮件的Nilsimsa摘要发布到相同或相邻的结点上。论文讨论了ChordNil方法的理论依据,分析了ChordNil的查询效率,并利用折叠发布模式解决负载均衡问题。利用互联网采集的邮件样本,论文进行了多项仿真实验,证实了ChordNil方法的有效性。实验结果显示,查询2.5%的结点,ChordNil就可以保证80%的查全率。ChordNil充分利用了ChordNil网络的拓扑结构特点,相似Nilsimsa摘要的查询限制在相邻结点之间,查询效率相对较高。   (2) ChordNil主要问题是会将文本体重复的相似邮件发布到不相关的结点上。针对这个问题,论文提出了另一种邮件Nilsimsa摘要发布和查询方法DHTIul。DHTnil利用Voronoi空间划分方法将Nilsimsa所在的二值化n维Ω空间划分成多个互不重叠的子空间,并通过将子空间映射到DHT网络结点的方法将相同或相似文档的Nilsimsa摘要发布到少数几个结点上。论文对DHTnil的Nilsimsa摘要发布和查询方法进行了详细地介绍和分析,并通过仿真实验证实了DHTrul方法的有效性。从实验结果可以看到,DHTrul查询3.5%的子空间就能够保证80%以上的查全率。同时,DHTnil能使子空间上及DHT网络结点上的负载基本保持均衡,其结点负载方差与ChordNil中的折叠循环模式相当。   (3)针对比值评价方法不能准确反映目标结点当前运行状态以及得到的信誉值难以满足垃圾邮件控制策略的问题,论文提出了一种基于信誉机制的垃圾邮件阻截方法MSRep。在信誉值的生成算法中,MSRep利用基于邮件汇总的方法使计算出的原始信誉值更接近于目标结点的实际行为。同时,MSRep将模糊控制方法引入MSRep信誉值计算,使得到的计算结果能够较好地满足系统阻截垃圾邮件的要求。MSRep方法使用基于概率的阻截技术过滤垃圾邮件,它控制简单,能够较大幅度地提高系统中正常邮件率。   (4)利用论文提出基于信誉机制的垃圾邮件阻截方法MSRep和邮件Nilsimsa摘要发布查询方法DHTIul,论文设计了一个基于DHT的分布式垃圾邮件处理系统DHTfilter,并对其进行了原型实现。论文讨论了DHTfilter系统的可靠性保证、共享信息的存储结构等关键问题,并通过仿真实验研究了垃圾邮件的生存周期、目标结点的评价信息数量对信誉值计算的影响等问题。同时,论文给出了系统中Nilsimsa摘要的淘汰方法和目标结点评价信息的选择和更新方法。
其他文献
当今计算机技术已进入以网络为中心的发展时期,由于客户/服务器模型的简单性、易管理性和易维护性,客户/服务器计算模式在被大量采用。伴随着近年来新兴的富媒体(RIA)技术和软件
随着对螺旋桨性能要求的不断提高,传统的螺旋桨设计方法已经满足不了进一步提升其性能的要求,并且现代环境的变化不再仅仅要求螺旋桨某一性能的最优,而是多方面综合性能的最优,螺
课堂考勤是高校教学管理中必不可少的手段之一,而传统“签到”的方式不仅费时费力,而且效率较低。随着移动互联网的发展和4G时代的到来,智能手机已成为人们生活必不可少的一部分
聚类分析的目是将数据自动划分成有意义的分组。不同的聚类算法在相同的数据集上运行会得到不同的结果,没有一种单独的聚类算法能够在所有的数据集上找到最好的划分。聚类集
二十世纪八十年代逻辑程序设计语言在描述性语义上取得突破性的进展-稳定模型语义(回答集语义),为逻辑程序的研究打开了大门。回答集语义的提出使人们可以用逻辑程序表示问题
空间数据的复杂性会导致空间数据处理的延迟,这对实时性要求比较高的应用问题如军事作战等问题产生了巨大的挑战。设计支持空间分析的并行算法是解决此类问题的有效方法,然而
Web服务的出现代表了分布式计算的最新要求。随着应用需要的不断提升,Web服务技术已从基础设施构建与概念推广阶段向大规模商业应用阶段快速发展,从而推动了支持B2B(business
机器人足球比赛目前已成为人工智能应用技术研究的重要实验平台,引起了越来越多的学者的关注。足球机器人系统分为四个子系统——机器人子系统、视觉子系统、决策子系统、通讯
对于传统的RFID系统来说,其阅读器通常是固定的或者使用专用的手持设备,只适用于特定场景。随着移动智能设备的快速普及,配置迅速提升,将移动智能终端与RFID网络的优势结合起
随着信息技术的迅速发展,信息化建设过程中积累了大量有用数据信息。但由于建设时期或开发部门的不同,这些数据资源形成了一座座“信息孤岛”,使得数据的查询和访问非常困难,数据