面向垃圾信息过滤的主动多域学习文本分类方法研究

被引量 : 0次 | 上传用户:zhaotong125555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾信息过滤是提高网络信息可用性的关键技术之一。虽然该领域已有许多研究成果,但随着社会对垃圾信息过滤的迫切需要,以及垃圾信息过滤技术在实际应用和测试中表现出的许多不足,近年来许多研究机构都在十分活跃地进一步深入研究垃圾信息过滤领域的各种关键技术,以提高垃圾信息过滤的性能和解决实际应用中的问题。目前的研究大多采用基于统计的文本分类方法来解决垃圾信息过滤问题。在这种背景下,本文对用于垃圾信息过滤的基于统计的在线二值文本分类总体框架问题、域文档分割问题、域分类结果组合问题、时空高效域分类问题和有代价反馈问题进行了深入研究,提出了一系列针对这些问题的应对方法。我们采用TREC07P邮件语料上的垃圾邮件过滤实验、CSMS中文手机短信语料上的垃圾手机短信过滤实验以及TanCorp网页新闻语料上的多类别文档分类实验来验证提出方法的有效性。本文主要的研究工作包括:(1)分析了信息文档的文本结构,揭示了信息文档普遍具有多域结构特性。根据这一特性,提出了一种多域学习框架。该框架采用分而治之的研究思路,把一个复杂的多域文档的文本分类问题划分成几个简单的域分类子问题,每个域分类子问题有其自身的特征空间和统计文本分类模型。实验结果表明多域学习框架是一种有效的基于统计的在线二值文本分类总体框架。在多域学习框架下,域间文本特征的独立性更强,而域内文本分类模型针对性更强;并且在每个域分类子问题中,无论是文本特征抽取还是文本分类模型构造都更加简洁高效。(2)研究了域文档分割问题,提出了自然域文档分割策略和特定属性域文档分割策略。自然域文档分割就是根据文档本身具有的多域结构化特点,通过识别域分隔点,将一个文本文档分割成几个域文本文档。特定属性域文档分割是一种文本特征复用技术,它将那些具备较强区分能力的文本通过某种规则抽取出来,组成一个原来并不真实存在的文本域。实验结果表明前一种策略具有较强的通用性,因为信息文档普遍具有多域结构特性;而后一种策略更加适合短文本文档,因为可以克服短文本文档的特征稀少问题。(3)研究了域分类结果组合问题,提出了均权组合策略、支持向量模型权组合策略、域分类器历史性能权组合策略、域文档信息量权组合策略和复合权组合策略。实验结果表明在多域学习框架下,这五种组合策略都能提高已有文本分类算法的性能,其中综合考虑域分类器历史性能和当前域文档信息量两方面因素的复合权组合策略在时间复杂度和分类准确率上都能达到更理想的性能。(4)分析了信息文档集合中的Token频率分布,揭示了Token频率分布普遍服从幂律的特性。根据这一特性,提出了一种基于Token频率索引的文本分类算法。该算法采用文本检索的研究思路解决文本分类问题,利用等概率随机采样方法进行在线标注文档压缩,能够有效应对传统在线文本分类研究中难以将离线批处理后验规则变成在线可计算的先验规则的困难。由于Token频率索引数据结构具备每次查询和增量更新的时间复杂度都很低的优势,还具备索引的原始文本压缩特性和基于随机采样的压缩特性,所以能够高效地捕获文档内容的变化和垃圾概念的漂移。实验结果表明基于Token频率索引的文本分类算法能够很好地解决时空高效域分类问题,而且将该算法集成到多域学习框架下,能够达到低时空复杂度和高分类准确率的最佳性能。此外,还扩展了Token频率索引的研究思路,提出了一种基于多类别Token频率索引的文本分类算法。实验结果表明该算法在多类别文档分类中也是有效的。(5)研究了有代价反馈问题,提出了时序优先主动学习策略、先验区间主动学习策略和基于方差的非确定采样主动学习策略。其中基于方差的非确定采样主动学习策略充分利用了多个域分类器之间的决策差异,通过比较域分类结果间的当前方差和历史方差阈值,挑选信息丰富的文档请求用户反馈。实验结果表明在这三种主动学习策略中,基于方差的非确定采样效果最好,它能够在大量减少用户反馈的情况下,仍然达到较理想的分类性能,而且由于计算方差的时空复杂度比较低,所以基于方差的非确定采样是一种有效的主动学习策略。综上所述,本文研究了垃圾信息过滤面临的若干关键问题,提出了以多域学习为核心的一系列文本分类方法,较好地满足了垃圾信息过滤的实际应用需求。进一步的工作仍然围绕多域学习这一核心,可以预见多域学习的进一步完善和发展能够获得更好的效果。
其他文献
翻译是复杂的交际活动,受到符号、语言、社会、文化、心理等诸多因素的影响。在翻译研究史上,人们从不同的角度对这些制约因素加以研究,并且得出了许多富有启发的见解。但这
随着全球化进程不快,跨文化交际不仅必要,而且不可避免。当代会,在跨文化语境下有交际能力成为普通人不可或缺能力之一。然而,关于普通人所做演讲进行研究相对较少,大部分公
近代中国教会学校主要是由西方国家的天主教各修会和基督教各差会在我国设立的。教会学校因其在中外文化交流中的独特作用,近年来逐渐受到史学工作者的重视。然而,关于教会学
<正> 在进行餐厅视觉环境设计时,应考虑的美学要素包括线、形、空间、光线、色彩、质感等等,而色彩与光线是其中较为重要的两个要素。通过对餐厅室内色彩与光线的分析研究,把
随着布雷顿森林体系的瓦解,西方各国普遍开始实行浮动汇率制度。由于浮动汇率制度中汇率完全由外汇市场供求决定,不受政府的干预。应运而生的外汇期权开始成为规避外汇风险的
加强对权力的监督 ,不仅是一个实践问题 ,也是一个重大的理论问题。本文从权力必须受到监督、权力监督系统要不断完善、正确认识国家审计对权力的监督、深化国家审计对权力的
汉语第二语言教学包括对外汉语教学和国内的汉语第二语言教学。现代汉语双音节形容词教学是汉语第二语言教学的重点、难点。为适应汉语教学的实际需要,应该加强现代汉语双音
对我国2002-2011年国家级继续护理学教育项目进行分析,发现我国继续护理学继续教育项目数量逐年递增,总数达3000余项,北京、上海及广东承担的继续护理学教育项目总数位居全国
本文论述了张爱玲在《十八春》及《半生缘》艺术世界里是如何显现其心灵深处真实、微妙的情爱沉积。作者认为 ,比之《十八春》,改写的《半生缘》更多了些潜意识渲泄的自由 ,
礼貌问题的研究硕果累累,本文以关联理论为基础对礼貌及其翻译问题进行探讨。关联理论强调礼貌的交际是为了作用于听者的认知环境,其结果是产生损害性含义或收益性含义。关联