论文部分内容阅读
自电子邮件的产生以来,它给人类的交流方式带来了革命性的改变。这是一种快速异步地实现信息传递的技术。人们可以在任何时间,任何地点接受到邮件。然而,电子邮件带来便捷的同时也被大量地滥用。如今垃圾邮件问题已经愈演愈烈,对互联网的正常发展造成极大的危害。因此,如何实现对这类垃圾邮件的准确过滤成为近几年热门的研究课题。在反垃圾邮件过滤,朴素贝叶斯算法完成的非常完美,贝叶斯文本分类技术是使用最广泛的,取得的效果最好的垃圾邮件过滤技术。它不仅占用的系统资源少,还节省运算时间,尤其是在拉丁语系的反垃圾邮件过滤中堪称完美。然而,在中文邮件集的处理效果还是不理想。分词是指将连续的字符串按照不同的规范,新组合成次序列的一个过程。然而,由于语系的不同,这种方法用到中文分词中完全行不通,本文通过对中文分词的分析,制定出好的中文分词方法,并运用到反垃圾邮件系统中。因此,本文主要针对中文分词与朴素贝叶斯算法在垃圾邮件过滤的应用进行研究并实现,并利用中科院提供的中文分词器,采用朴素贝叶斯算法编写出垃圾邮件过滤器。设计一种基于内容分析的邮件过滤系统。首先对邮件的文本内容进行分类,然后根据朴素贝叶斯算法进行计算,当超出某一阈值是判定为垃圾邮件,否则为正常邮件。针对邮件接收的部分,考虑到目前市场服务提供商的条件限制,本文将采用简单的接受模式,最大的模拟出真实环境。