【摘 要】
:
IB方法是一种基于信息论的数据分析方法,其将数据模式分析视为一个数据压缩的过程。若给定源变量与相关变量的联合概率分布,IB方法在对源变量进行压缩的同时,可使得压缩变量
论文部分内容阅读
IB方法是一种基于信息论的数据分析方法,其将数据模式分析视为一个数据压缩的过程。若给定源变量与相关变量的联合概率分布,IB方法在对源变量进行压缩的同时,可使得压缩变量最大化地保存相关变量的信息,进而有效的发现数据集内所隐含的内在模式。IB方法被广泛应用于需进行特征提取和信息压缩的领域,且均得到了较好的结果。垃圾邮件问题是困扰人们日常生活和学习的严重网络问题,给人们带来了很多不便。目前常用的垃圾邮件过滤方法由于没有充分考虑到不平衡类特征描述特殊化的问题,不能很好的对作为稀有类的垃圾邮件进行特征提取,因此难以得到优秀的过滤效果。如果使用已有算法提高垃圾邮件类的分类准确率,就要以牺牲召回率为代价,反之亦然,因此构建一个最大化准确率和召回率的模型是垃圾邮件过滤算法的一个主要挑战。针对垃圾邮件过滤过程中召回率、准确率不能同时提升的问题,本文提出了基于IB方法的单类垃圾邮件过滤算法。该算法将垃圾邮件过滤问题转化为单类分类问题进行求解,并使用基于IB方法的信息损失函数对单类进行特征提取。将垃圾邮件过滤问题转化为单类分类分类问题,使训练数据来源于单一数据源,能够有效地避免噪声对训练过程的影响;使用IB方法对垃圾邮件类进行特征提取,利用互信息可以提取与垃圾邮件相关性最高的一些属性特征,并为垃圾邮件类构造高效的压缩代表,解决了稀有类描述高度特殊化的难题。为了验证基于IB方法的单类垃圾邮件过滤方法的有效性,本文将其与朴素贝叶斯分类器以及Logitboosting方法在Ling-Spam数据集上作对比。实验结果表明,本文的方法不仅能够实现召回率、准确率的同时提升,而且显著降低了垃圾邮件错判和漏网的比例。
其他文献
在无线传感器网络的众多技术中时间同步技术成为其重要支撑技术,其重要性是由无线传感器网络的特点决定的。众所周知,时间同步是在分布式系统中使用率非常高的一项技术,它涉
数字水印通过在数字产品中嵌入特有的数据信息的方法,保护数字产品内容的真实性和版权归属性,同时此种技术在法律中提供的证据、医院中的光片以及票据等领域也有着广泛的应用
图像分割技术在图像处理领域一直以来都得到了广大研究人员的关注,它是从图像处理到图像分析过程中的一个关键环节,图像分割的质量直接影响到后期对图像分析的结果。传统的图
随着科学技术的发展,检测技术已经成为一种关系经济发展和科技进步的关键技术。同时,现代科学技术的迅速发展也为检测技术与检测工具的创新提供了强大的推力,特别是计算机技
VoIPoverWLAN即VoWLAN,是一种基于无线局域网(WLAN)的VoIP应用。VoIP和WLAN技术均是处于蓬勃发展中的热门网络技术。VoIP具有低成本和高通话质量的特点,WLAN具有可移动性、低
资源共享是人类追求已久的美好理想。随着信息化的不断推进,用户构建了大量的数据库,存储了丰富的信息资源。在企业信息化过程中,大多数用户采取的是“需要一个、建设一个”
21世纪是信息的时代,信息已成为一种重要的战略资源,是一个国家综合国力的重要组成部分。随着计算机科学技术的快速发展,信息的安全和保护在各种应用中已显得越来越重要。文
矢量场可视化是科学计算可视化研究领域中具有挑战性的研究课题之一,具有广泛的应用领域。生活中大规模的矢量数据被转换为图形、图像,把矢量数据直观形象的表达出来,方便人
随着网络业务的增多,某些交换节点经常发生拥塞,造成分组丢失和时延过大。这些现象引起了人们对网络服务质量QoS(Quality ofService)的关注。
本文对网络服务质量进行了
随着互联网技术的飞速发展,网络已经成为网民信息分享和交流的公共平台。视频作为声音、图像和文字等信息的载体,成为广大网络用户喜爱的交流媒介。随着网络视频的海量增长,