基于语义体与模糊聚类的中文垃圾邮件过滤方法研究

来源 :兰州理工大学 | 被引量 : 1次 | 上传用户:daxiaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,基于内容的垃圾邮件过滤方法主要采用统计分析法,此类方法对垃圾邮件内容所表达的思想缺乏精准的定量描述,研究垃圾邮件内容所表达思想的描述形式对垃圾邮件的准确识别有着十分重要的意义。邮件正文部分是一封邮件的主体,其内容是通过大量语义元(即词的语义)所形成的语义体反映出来的,所以在邮件过滤中研究语义体的信息是最权威、最有效的。因此,论文在句子相似度的基础上,利用《知网》在语义元分析中的优势,对邮件正文中包含的语义体进行分析,提出了一种语义体构建的方法及语义体间相似度的计算方法。由于自然语言的复杂性,以及在描述和理解方面具有高度的不确定性和模糊性,因而基于内容的邮件过滤的识别带有一定的模糊性,对这些具有模糊性的模式借助于模糊理论来刻画显得很自然,论文采用模糊聚类方法来解决,并将语义体与此进行结合,提出了一种基于语义体的模糊聚类方法。该方法与传统方法的不同之处在于在分类时将语义体作为分类对象,将语义体之间的相似度作为构建模糊相似矩阵的相关系数,此方式大大降低了模糊聚类方法在处理文本分类问题时的维度。最后,将基于语义体的模糊聚类方法应用到垃圾邮件过滤中。经仿真实验证明:论文所提方法与传统的邮件过滤方法相比,在对邮件内容的判断中更具客观性,对内容表意不明的垃圾邮件,其方法在邮件识别的召回率方面体现了较大的优势。
其他文献
随着信息技术的发展和普及,越来越多的业务应用系统在计算机网络中投入运行,给人们的数据处理和管理工作带来了便捷。但是由于信息技术发展的历史性原因和应用的差异性等因素,导
由于硬件设备和环境等因素的限制,很多情况下,我们采集到的图像分辨率并不理想。如果通过改进硬件设备或改善图像的采集环境来提高图像的分辨率,代价可能比较高甚至是不现实
无线传感器网络(wireless sensor network,简称WSN)是计算机科学一个重要的研究领域。由于无线传感器网络布散节点数量庞大、监测区域环境限制及节点自身构造等因素,布散后节点
LR可视性问题是计算几何领域的重要研究课题之一。通过对LR可视多边形特性的研究,能够得到求解计算几何经典问题的有效算法。因此,对于LR可视多边形的研究,不仅具有重大的理
安卓系统内嵌了SSL库来进行加密传输,开发者可以直接使用这些库在程序中与服务器建立HTTPS连接,但是在实现这些功能时,开发者错误的使用了这些库而破坏了HTTPS的安全性,使程
本文对LTE系统中ASN.1编解码的设计与实现进行了研究。第三代移动通信技术(3G)日益成熟,已在多个领域实现商用。而全球微波接入互操作(World interoperability for Microwave
手是人类最灵活的肢体之一,而手势是最丰富最具有表现能力的肢体语言。近年来增强现实、体感游戏等计算机应用飞速发展,基于鼠标键盘等传统人机交互系统存在用户使用区域固定
网络技术的飞速发展,使得以软交换为核心的下一代网络成为目前国内外网络界研究的热点,各个高等院校通信类专业纷纷开设软交换相关的课程,为了使学生充分领悟和理解软交换的概念
测试是软件开发生命周期中关键的阶段,是保证软件质量的必不可少的手段。软件测试主要依靠选定和执行一组测试用例(称为测试套件),并通过观察被测系统的执行输出结果来尽可能
社会关系广泛存在于现实生活中,它们可以抽象成各式各样的社会网络。近些年来,研究者们发现社会网络中存在的社团结构是大规模网络分析和挖掘的基础,对于分析社会系统的组织