垃圾邮件检测与过滤关键技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:muscleprince
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及应用,网上各种垃圾信息尤其是垃圾邮件也随着互联网的广泛应用而充塞在整个互联网上,对人们的工作生活和经济带来了重大的影响。因此,有效的垃圾邮件检测与过滤技术的研究是十分必要且切合实际需要的。在垃圾邮件的检测与过滤技术方面,国内外已有众多的相关研究,但是由于作弊者作弊技术的不断提高,相应的检测与过滤技术也需要不断地更新进步。在此发展形式下,本文对垃圾邮件的检测与过滤技术、垃圾信息的特征复原等多项关键技术进行了研究。本文的研究内容和创新工作主要包括以下几个方面:1从理论上证明了指纹向量距离在相似性垃圾信息检测与过滤方面应用的可行性。编辑距离是相似文档比较中精度最高的一种技术,但是其计算复杂度高、运算速度慢,具有较大的应用局限性。q元距离相对于编辑距离,精度降低了,但同时也降低了系统的复杂度,提高了运算速度。指纹向量距离是在q元距离的基础上将q元进行指纹映射,该方法提高了计算速度,但同时也引入了误差,降低了精度。本文通过理论分析,为指纹向量技术在垃圾信息过滤问题上的应用提供了理论依据。2在理论证明的基础上,实践上证明了指纹向量距离在垃圾信息过滤问题中的有效性。采用基于指纹向量的方法进行垃圾信息的检测,在公开数据集以及实际邮件系统数据集上的实验表明,基于指纹向量的垃圾邮件检测方法在垃圾邮件漏报率上与简单贝叶斯方法相比具有较优的效果,且与常规方法相比具有存储量小、计算代价小的优点。3本文提出了一种在线垃圾邮件主动学习过滤技术。该技术是基于流的委员会投票主动学习。通过与多种垃圾邮件过滤方法进行对比实验,实验结果表明该技术可以在使用少量标记的情况下能获得好的过滤性能,大大减少训练次数,提高计算性能,降低计算代价,降低人工干预次数。4本文提出了一种基于梯度树提升法的条件随机域技术对垃圾信息特征进行复原的方法。实验表明,采用基于梯度树提升法的条件随机域技术对垃圾信息进行预处理后,提高了垃圾邮件的检测精度。
其他文献
目的分析甲状腺功能亢进的的外科治疗疗效。方法以我院住院部收治的80例确诊为甲状腺功能亢进症病患,给予全部病患外科手术治疗。在手术之前,全部患者均给予静滴卢戈耳氏溶液
推动媒体融合发展、建设全媒体成为的一项紧迫课题。党中央在国家层面提出了媒体融合的顶层设计,对县级融媒体中心建设也提出了明确要求,为省以上媒体和县级媒体推进媒体融合
目的探讨妊娠合并肾脏疾病患者的护理方法。方法对所护理的23例妊娠合并肾脏疾病患者资料进行整理和分析,总结所给予的具体护理措施。结果全部患者均顺利分娩新生儿,病情稳定后
中医药高等教育全球化势在必行,中医药高等教育如何适应全球化是摆在广大中医药教育工作者面前的重大课题,加快中医药人才培养,是更好更快地推动我国中中医药全球化进程的前
水价政策的合理制定对水资源高效利用意义重大。水价政策的决策过程往往主观性过强,缺乏水价政策效应的量化研究方法。针对多水源多灌溉方式下的农业灌区,基于实证数学规划方
外语学习关键期(critical period)的概念是由莱尼博格(Lenneberg)在1967年首次提出。自这一概念提出后,外语学习中关于年龄作用的问题便一直成为一个热门而又受争议的研究领域。作
在新形势下探索结合党建工作开展研究生心理健康教育引导的方式,用党的理论和共产主义理想信念引导研究生形成正确的人生观、世界观与价值观,及时纠正研究生在工作学习生活中
文件系统从软件的角度来说可以将其视为数据库,文件系统一般包含有索引、块管理和分配、权限管理、日志等机制,文件内容(裸数据)则是通过这些机制存储在磁盘上,因此实际写入
目的:探讨剖宫产率及剖宫产指征变迁对围生儿死亡率的影响。方法:对3年间剖宫产病例进行回顾性分析。结果:2009年剖宫产率最低为39.22%,显著低于2008年及2010年,相比较差异有统计学