论文部分内容阅读
随着信息技术等现代科学技术的发展,邮件已经成为现在人们信息交流必不可少的一部分了。但是垃圾邮件也十分猖獗,并且垃圾邮件的种类也不断翻新。所以要采取更有效的反垃圾邮件技术。
现在主流的垃圾邮件过滤技术有黑名单技术、白名单技术,实时黑名单技术、内容过滤技术、自定义过滤技术。而这些过滤技术,只能过滤一般性的垃圾邮件,不能因人而异。比如某人兴趣是喜欢体育,那么关于培训和教育类的邮件对他来说就是垃圾邮件,要过滤掉,但是用以上常规的过滤技术是不能识别的,所以本文提出了基于兴趣认知的垃圾邮件过滤技术。
本文详细介绍了基于兴趣认知的垃圾邮件过滤技术的总体设计,以及初始化处理模块和基于层叠隐马模型的词语切分模块,最后介绍了算法实现和数据库设计。
该技术先区分邮件的正文和标题,再对正文进行词语的切分,切分完后再存进数据库,记录字频,再根据贝叶斯来计算概率。系统先根据用户的判断来学习哪些邮件是用户感兴趣的,经过一段时间学习后,再自行判断。