结合用户属性的邮件分类方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zz_mars
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件已经成为人们不可或缺的交流媒介,然而垃圾邮件的盛行不仅占用网络资源,甚至危害社会公共安全。当前邮件分类技术存在较高的正常邮件误判率,然而社交网络中用户的爱好信息给邮件分类技术提供了很好的突破口。充分利用邮件的丰富属性和社交网络中的用户关系来降低正常邮件误判率,同时解决传统数据库在存储和管理社交网络复杂信息上所存在的性能问题为邮件分类提供了新视角。提出了一种结合用户属性的邮件分类算法ATIB(user ATtribute Integrated with Bayes spam filter),提取用户的爱好属性,以及社交网络中用户之间的亲近度信息,将用户亲近度关系进行量化,突破只能利用直接朋友关系的限制,而可以计算社交网络中任意两个用户之间的亲近度关系,利用亲近度越高的用户之间发送垃圾邮件概率越低的特性来提升邮件分类算法的准确率。加入邮件主题因子,根据垃圾邮件回复度为0的特性降低正常邮件误判率。进而根据用户删除误判为正常邮件的垃圾邮件和恢复误判为垃圾邮件的正常邮件的行为来优化现有的分类算法。采用图数据库对提取的邮件元数据进行管理,提高分类算法的效率。实验表明,提出的结合用户属性的分类算法在微软发布的邮件训练集下,垃圾邮件分类准确率可以达到97.9%,比朴素贝叶斯分类算法和SOAP(Social Network Aided Personalized and effective spam filter)算法分别提高了9%和5.8%,正常邮件误判率可以达到1.3%,比朴素贝叶斯分类算法和SOAP算法分别降低了15%和8.7%。
其他文献
学位
面对海量数据,利用图计算或机器学习等具有迭代特征的复杂应用对其进行处理很常见。通过在迭代之间共享缓存数据,典型的分布式内存计算系统如Spark极大地提升了迭代程序处理
互联网的普及和电子商务的迅速发展造成了信息的过载,用户在大量的产品信息中难以找到需要的商品,由此,电子商务推荐系统应运而生。当前,电子商务推荐系统在实际运用中还不成
随着高性能并行系统的发展进步,并行计算的运用越来越受到广泛的重视,在并行计算性能提高需求增长的同时,I/O设备和CPU速度的增长率不匹配成为并行计算性能提高的主要瓶颈,所
随着J2EE技术大规模的应用,EJB技术受到广泛的质疑。EJB技术给J2EE应用开发带来了严重的复杂性和巨大的开销。降低J2EE的复杂性开始成为开发者的主要关注点。目前,在开源社区
随着信息时代的到来,各种电子文本数据急剧增加,如何对庞杂的数据进行有效的管理并快速的获取需要的信息,已成为一项亟待解决的重要课题。文本聚类和文本分类作为一个有效的
随着近年来数据规模的爆炸式增长,数据去重和数据压缩作为削减数据冗余的两种关键技术,受到了更多的关注。和数据去重技术相比,数据压缩技术能够消除更多的数据冗余。在检测
本论文针对如何优化海量数据系统性能的问题进行若干方面的研究,提出了基于多因素的缓存替换算法CacheValue以及在数据库查询优化方面提出了基于双半连接的查询优化算法。  
随着信息科技的迅速发展,基于闪存的存储设备以其显著的高性能和低能耗等优势,正逐渐成为计算机存储系统中的一个重要组成部分。然而,由于其相对较高的价格和低容量,如何通过
视频分辨率正朝超高清方向发展,分辨率的提高可以提供更好的用户体验,但也使得编解码过程中的计算复杂度急剧增加,对其实时处理带来巨大挑战。新兴的CPU+GPU异构多核处理平台