论文部分内容阅读
随着网络的普及,电子邮件与人们的工作生活联系日趋紧密,随之而来的垃圾邮件问题日益严重。在分布式垃圾邮件处理领域,基于Nilsimsa摘要的垃圾邮件识别技术和基于信誉机制的垃圾邮件阻截技术占有重要的研究地位。但是,由于Nilsimsa摘要生成方式和比较方式的特殊性,目前的垃圾邮件处理系统基本上采取集中方式处理邮件Nilsimsa摘要,这严重影响了系统的查询效率和可扩展性。同时,由于现有的原始信誉值计算方法不能精确地反映目标结点的当前状态,信誉值的计算结果难以满足垃圾邮件控制策略的要求,因此,高效的、比较适用于垃圾邮件阻截的结点信誉度生成算法也需要进行认真地研究。针对这些问题,本文对基于DHT网络的Nilsimsa摘要发布和查询方法、邮件服务器信誉度生成算法以及垃圾邮件服务器阻截方法进行研究。论文的主要贡献如下:
(1)针对邮件Nilsimsa摘要不易分布式处理的问题,本文提出了基于Chord的邮件Nilsimsa摘要发布和查询方法ChordNil。ChordNil以Nilsimsa向量长度为键值,能够将相似邮件的Nilsimsa摘要发布到相同或相邻的结点上。论文讨论了ChordNil方法的理论依据,分析了ChordNil的查询效率,并利用折叠发布模式解决负载均衡问题。利用互联网采集的邮件样本,论文进行了多项仿真实验,证实了ChordNil方法的有效性。实验结果显示,查询2.5%的结点,ChordNil就可以保证80%的查全率。ChordNil充分利用了ChordNil网络的拓扑结构特点,相似Nilsimsa摘要的查询限制在相邻结点之间,查询效率相对较高。
(2) ChordNil主要问题是会将文本体重复的相似邮件发布到不相关的结点上。针对这个问题,论文提出了另一种邮件Nilsimsa摘要发布和查询方法DHTIul。DHTnil利用Voronoi空间划分方法将Nilsimsa所在的二值化n维Ω空间划分成多个互不重叠的子空间,并通过将子空间映射到DHT网络结点的方法将相同或相似文档的Nilsimsa摘要发布到少数几个结点上。论文对DHTnil的Nilsimsa摘要发布和查询方法进行了详细地介绍和分析,并通过仿真实验证实了DHTrul方法的有效性。从实验结果可以看到,DHTrul查询3.5%的子空间就能够保证80%以上的查全率。同时,DHTnil能使子空间上及DHT网络结点上的负载基本保持均衡,其结点负载方差与ChordNil中的折叠循环模式相当。
(3)针对比值评价方法不能准确反映目标结点当前运行状态以及得到的信誉值难以满足垃圾邮件控制策略的问题,论文提出了一种基于信誉机制的垃圾邮件阻截方法MSRep。在信誉值的生成算法中,MSRep利用基于邮件汇总的方法使计算出的原始信誉值更接近于目标结点的实际行为。同时,MSRep将模糊控制方法引入MSRep信誉值计算,使得到的计算结果能够较好地满足系统阻截垃圾邮件的要求。MSRep方法使用基于概率的阻截技术过滤垃圾邮件,它控制简单,能够较大幅度地提高系统中正常邮件率。
(4)利用论文提出基于信誉机制的垃圾邮件阻截方法MSRep和邮件Nilsimsa摘要发布查询方法DHTIul,论文设计了一个基于DHT的分布式垃圾邮件处理系统DHTfilter,并对其进行了原型实现。论文讨论了DHTfilter系统的可靠性保证、共享信息的存储结构等关键问题,并通过仿真实验研究了垃圾邮件的生存周期、目标结点的评价信息数量对信誉值计算的影响等问题。同时,论文给出了系统中Nilsimsa摘要的淘汰方法和目标结点评价信息的选择和更新方法。