文本分类技术在垃圾邮件过滤中的应用研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:xuzhoucumt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国际互联网的迅猛发展和日益普及,电子邮件以其通信的方便、快捷、成本低廉成为了人们日常生活中通信、交流的重要手段之一。但是近些年来,垃圾邮件问题日益严重,网络用户平均每天收到的垃圾邮件数量已经超过了正常邮件,并有进一步增长的趋势。面对肆虐的垃圾邮件,人们通常采用的过滤技术有:白名单与黑名单技术、规则过滤技术、基于关键词匹配的快速过滤技术等等,但是这些技术人为因素较多,面对不断变化的垃圾邮件显得力不从心。 另一方面,由于垃圾邮件往往有其用词、行文等内容上的明显特征,而且垃圾邮件所包含的话题一般不存在于正常邮件中,这使得应用文本分类和信息过滤的方法进行基于内容分析的垃圾邮件过滤变得非常有效,目前这已成为垃圾邮件过滤中一个新的研究热点。 本文总结了常用的基于机器学习的文本分类技术和方法;并在真实邮件语料上研究了不同特征选取方法和特征集大小对各分类方法性能的影响,实验结果表明特征选取方法的重要性随分类器的不同差别很大;简单的“Bag of Words”过滤模型对垃圾邮件过滤有很好的效果。 在使用分类模型对垃圾邮件进行过滤前通常需要垃圾邮件和正常邮件两类样本对分类模型进行训练,但实际上我们往往能获取到大量的垃圾邮件而由于隐私等法律上的一些问题,使获取正常邮件存在一定的困难。从这个实际问题入手本文详细分析了k-近邻算法及其优缺点,提出并实现了一种改进的k-近邻算法。本文在真实邮件语料上,研究了邮件预处理和决策函数对改进的k-近邻算法的影响,并将改进的k-近邻算法与传统的k-近邻算法做了对比实验,结果表明:改进的k-近邻算法过滤速度快、学习训练简便,在只有垃圾邮件一类样本的情况下就获得了较好的过滤效果。 本文最后根据以上研究,设计实现了一个基于内容的垃圾邮件综合举报系统。系统采用改进的k-近邻算法做复审快速内容过滤,使用最大熵分类器做复审二级内容过滤,在实际应用中,得到了不错的过滤性能。
其他文献
本文研究了从视频序列图像中提取人脸肖像的方法。采用由粗到精的多级搜索策略,首先对运动目标进行人形判断并获取彩色头肩像,实现人脸粗定位; 然后结合肤色模型和模板匹配实
随着信息技术的普及,互联网逐渐成为人类物质社会的重要组成部分,应用领域已转向大型、关键业务系统,人们对网络的依赖越来越严重。但  是频繁发生的网络安全事件,对信息技术的
RSS(Really Simple Syndication,真正简单聚合)技术可以将互联网上的信息以订阅的方式聚合到一个窗口中。随着Blog的发展和流行,基于RSS技术的Blog或播客被引入到辅助学习的工
随着网络的发展,人们获取知识的手段已逐渐从学校,书本,报纸,电视,广播转向了网络,人们通过远程教育实现异地学习,通过在线考试检验学习效果,运用网络课件进行辅助学习,可以说这些手段
感知网(无线传感器网络)是将多个带有无线通讯模块的感知节点(感知节点)部署在需要的区域内,这些感知节点自组织成一个网络,利用自身的传感器采集数据,使用自身的通讯模块通
传统电信网上的多媒体会议应用,一方面由于其实现机制复杂、造价高昂,难以推广。另一方面,传统电信网的封闭架构和低带宽也很难实现多媒体业务的快速开发与部署,并满足大量多媒体
物联网被认为是继计算机、Internet之后推动世界科学技术发展的第三次推动力。物联网将所有人与物的互联,将真实物理世界和虚拟信息世界链接融合,以实现人类对物理世界的实时感
近年来,面向服务体系架构(SOA)迅速成为企业级软件的核心体系架构,并得到迅速推广和普及,成为电子商务和电子政务应用的主流技术选择。一个客观事实是,电子商务和电子政务的企业
Blog是一种基于RSS技术的信息交互平台,它是一种作者与读者以日志风格进行交互的中介,是一种崭新的信息传播和交互方式。与传统的网络信息相比,Blog领域链接关系更加丰富,Blog作
舌诊是中医诊断的一项重要内容,是中医学了解人体生理功能和病理变化的一种独具特色的诊断方法,也是中医诊断信息的主要来源之一。但传统的舌诊主要是以医生观察为主,其准确程度