论文部分内容阅读
电子邮件已经成为人们不可或缺的交流媒介,然而垃圾邮件的盛行不仅占用网络资源,甚至危害社会公共安全。当前邮件分类技术存在较高的正常邮件误判率,然而社交网络中用户的爱好信息给邮件分类技术提供了很好的突破口。充分利用邮件的丰富属性和社交网络中的用户关系来降低正常邮件误判率,同时解决传统数据库在存储和管理社交网络复杂信息上所存在的性能问题为邮件分类提供了新视角。提出了一种结合用户属性的邮件分类算法ATIB(user ATtribute Integrated with Bayes spam filter),提取用户的爱好属性,以及社交网络中用户之间的亲近度信息,将用户亲近度关系进行量化,突破只能利用直接朋友关系的限制,而可以计算社交网络中任意两个用户之间的亲近度关系,利用亲近度越高的用户之间发送垃圾邮件概率越低的特性来提升邮件分类算法的准确率。加入邮件主题因子,根据垃圾邮件回复度为0的特性降低正常邮件误判率。进而根据用户删除误判为正常邮件的垃圾邮件和恢复误判为垃圾邮件的正常邮件的行为来优化现有的分类算法。采用图数据库对提取的邮件元数据进行管理,提高分类算法的效率。实验表明,提出的结合用户属性的分类算法在微软发布的邮件训练集下,垃圾邮件分类准确率可以达到97.9%,比朴素贝叶斯分类算法和SOAP(Social Network Aided Personalized and effective spam filter)算法分别提高了9%和5.8%,正常邮件误判率可以达到1.3%,比朴素贝叶斯分类算法和SOAP算法分别降低了15%和8.7%。