层次型文本分类阻塞问题研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:glc12123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网快速发展带来了电子信息的爆炸性增长,也促进了与电子信息组织和管理相关的技术发展。平面型文本分类以及层次型文本分类都是有效管理海量信息的重要手段。相对于平面型文本分类,层次型文本分类能够充分利用类别之间的层次结构关系,进一步提高文本分类的性能和速度,同时分类结果的层次结构也便于用户更好地检索。然而,层次型文本分类在分类过程存在“阻塞”问题:当一个文本在被划分到叶类别之前发生错分时,它将永远不可能划分到正确的叶类别。层次型文本分类中的阻塞现象会严重影响分类系统的性能,因此它也越来越受到研究者们的关注。本文是在前人的基础上,对控制层次型文本分类阻塞现象的各种策略进行总结,并进一步提出一种基于可信节点裁剪的阻塞控制策略。本文在第二章对平面型文本分类和层次型文本分类的基础知识进行了系统介绍,并进一步分析了层次型文本分类之于平面型文本分类的优点:特征词具有更高的类别区分度,文本的表示效力更高,分类器过拟合学习的可能性降低,同时分类速度更快。在第三章,本文系统总结了控制阻塞的三种策略:阈值降低法、投票法、最优路径法(累乘法),并比较了三种方法各自的优缺点。在此基础上,本文改进了最优路径法,提出了可信节点裁剪法。可信裁剪法主要通过三个步骤达到控制层次型文本分类阻塞的目的,首先通过过滤发生阻塞的分类路径获得候选分类路径,其次是通过改进的分类路径权重计算方法,从候选分类路径中选择最优分类路径,最后在最优分类路径上的可信节点进行裁剪。实验表明可信节点裁剪法能够很好地控制阻塞问题,提高层次型文本分类系统的性能。最后,本文采用Reuters21578语料训练层次型文本分类系统。在相同的类别层次结构上,本文分别采用最优路径法,可信节点裁剪法两种阻塞控制策略做比较实验,并最终将结果同标准层次型文本分类的结果进行比较。实验表明,可信节点裁剪法在保证系统精确度的同时较好地控制了阻塞现象,性能优于最优路径法。
其他文献
云通常和各种天气现象密切相关。地球上平均有1/3到1/2的地区覆盖着云层。云是天气过程的重要扮演者。近年来,随着数字化卫星云图资料的出现,对卫星云图进行定量分析已成为各国
碰撞检测是计算机动画、计算机图形学等领域的重要课题。近几年来,随着虚拟现实技术和分布式仿真技术的兴起,碰撞检测问题成为一个研究热点。快速的碰撞检测对提高虚拟环境的真
网格中的副本技术是对等网络分布式存储中一个基本的、重要的环节。通过合理的副本技术可以提高网络利用率并达到更好的负载均衡。在副本技术研究中,设计副本技术在不同领域的
业务规则技术是实现企业业务规则表述、维护、部署和执行,将业务规则与应用代码相分离,从而最终实现高效灵活地企业控制的核心技术。研究和推广业务规则技术对企业信息化具有
近年来,随着电子器件的发展,计算机的处理能力有显著提高。但是,仅仅依靠电子器件的发展而达到的速度提高,远不能满足现代科学、工程技术和其他许多领域对高速运算能力的需要。这
网格变形技术是近年来计算机图形学领域的一个研究热点,已广泛应用于影视动画、游戏娱乐等商业领域。随着许多学者对网格变形技术的深入研究,在网格变形领域出现了三次技术上的
网格环境相比传统网络更容易被病毒和木马程序攻击,网格除了为用户之间提供数据传输之外,还需要提供安全性更高的程序运行环境,所以如何保证资源的安全共享比资源的使用更为
众所周知,在我们获取信息的各种类型中,图像信息占据了多数部分的比例,由于图像内容直观,并且所含信息量也相当丰富,因此较容易被人们所接受。然而随着环境的污染使得近年来
随着计算机及网络技术的飞速发展,数字作品传播和拷贝变得越来越方便,数字作品的信息安全和版权保护也成为迫切需要解决的问题。数字水印是近年来在信息安全领域兴起的保护知
随着因特网的不断发展,网络信息的增长与个人精力有限的矛盾在不断增加,为了解决这个矛盾,可以进行Web日志挖掘。Web日志可以看作是用户上网留下的痕迹,对其进行挖掘分析可以获得