基于语义体与文本聚类的中文垃圾邮件过滤方法研究

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:sms888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,电子邮件已逐渐成为人们日常生活中不可缺少的通信方式之一。与此同时,垃圾邮件作为电子邮件的错误衍生品,也发展迅速。尤其是近几年电子商务和移动互联的迅猛发展,促使基于文本形式的企业邮件和手机邮件的增多。另外,中文的语言复杂度远大于英文,导致对中文垃圾邮件的处理不能照搬外国的方法。目前,文本垃圾邮件过滤的主流方法仍然是基于内容的垃圾邮件过滤技术,但大多数方法都是一些基于关键字的与语义无关的垃圾邮件过滤方法,如:贝叶斯方法、基于案例的方法和文本分类方法等,此类方法对垃圾邮件内容所表达的思想缺乏精准的描述。现在新型的文本垃圾邮件利用同义词、近义词等手段,伪装成正常邮件,使传统的方法难以把垃圾邮件和正常邮件进行区分。因此,论文在语义相似度的基础上,利用《知网》在语义分析方面的优势,提出一种基于语义体和文本聚类算法相结合的新型中文文本垃圾邮件过滤方法。本文的研究主要有以下两方面:1.从具有同义词或近义词的新型中文文本垃圾邮件中提取特征。本文对邮件文本进行分词、去除停用词后,对余下的词语集合进行词义消歧,得到每个词语在邮件中的唯一词义,便于邮件特征的提取;将词语集合中的每个词语作为一条词汇链,并将词义相同或相似的词汇链合并为一条词汇链,利用TFIDF方法从每条词汇链中选取唯一的词语作为该词汇链代表;最后,提取规定个数的词语作为该邮件的特征,即语义体。经仿真实验表明:该方法提取的邮件特征更加准确。2.针对得到的垃圾邮件的语义体,本文采用基于语义距离的文本聚类算法进行垃圾邮件过滤。该方法利用基于《知网》的文本相似度对邮件集合进行第一次文本聚类,为了避免邮件输入顺序对聚类结果的影响,对经过整理的第一次聚类结果进行第二次文本聚类,使得最终得到的聚类结果更加准确,利用得到的聚类结果完成对垃圾邮件的过滤。通过实验验证,本文方法对具有同义词或近义词的新型垃圾邮件有很好的过滤效果:论文所提方法与传统的邮件过滤方法相比,在对邮件内容的判断中更具客观性,对内容表意不明的垃圾邮件,其方法在邮件识别的召回率方面体现了较大的优势。
其他文献
多传感器技术的快速发展使人们能获得大量同一区域的多源图像。不同类型的传感器获得的图像包含的信息不同,将两幅或多幅图像融合为一幅图像的过程称为图像融合,融合后的图像综
代理重签名是一类特殊的数字签名,通过一个代理者可以将Alice的签名转换为Bob在同一个消息上的签名。并且代理者在转换过程中不能得到Alice或者Bob的签名密钥。由于代理重签名
近年来,用户越来越倾向于通过手机等移动设备拍照并分享,这种方式使得社交网络中的照片分享应用更加方便和智能。但是目前这个应用领域还存在自动化分享、照片的管理以及社会情
学位
密钥交换协议,特别是Diffie-Hellman密钥交换协议,是密码学的一个重要并具有悠久传统的领域。设计好的密钥交换协议虽然看起来比较简单,但是其背后的设计原理、指导思想以及
自然场景仿真是近年来计算机图形学的研究热点之一,其中基于物理的流固耦合模拟是其中重要内容。其研究进展在计算机动画、真实感游戏引擎研发、自然景象模拟、灾害仿真防治
随着城市规模的发展,城市轨道交通系统在城市中的角色也越来越重要。城市轨道交通信号系统是保证列车运行安全,实现行车指挥和列车运行现代化,提高运输效率的关键系统设备。基于
软件定义网络(Software Defined Network,SDN)将网络设备上的控制权分离,并交由集中控制器管理,屏蔽了来自底层网络设备的差异,用户可以更加灵活的自定义网路路由和传输规则
近几十年来,计算机数据库的迅速膨胀导致人们被数据的海洋所淹没,人们都知道自己对数据的掌握程度远远赶不上数据升级的速度。在数据量日益突增的同时,伴随的是数据库中大量的数
随着我国互联网和移动终端技术的飞速发展,越来越多的乘客倾向于通过互联网渠道查询和订购机票。巨大的客户服务需求也催生了第三方互联网机票服务平台的出现。因此,航空公司