基于机器学习的大规模文本分类

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:qq4156500
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类问题是指自动地将文本按照预定义的类别体系划分到正确的类别中,它是智能信息处理领域中一个重要的研究方向。随着信息技术的发展,特别是20世纪90年代基于机器学习的文本分类方法的逐渐成熟,文本自动分类技术在自然语言处理、信息组织、内容过滤等领域中开始被广泛地应用。目前,互联网上可获得的信息越来越多,如何帮助人们快速、准确且全面地获取他们所需要的信息显得非常重要,文本分类技术是解决这一问题的有效手段之一。  文本分类问题经过大约二十年的研究,其基础技术已经比较成熟,包括样本表示、分类器、性能评估指标等。然而,现实应用中的大规模文本分类问题与普通的分类问题相比,自身还具有一些明显的特点,例如:训练样本数量大,预定义类别多,单个样本拥有不止一个类别标号。此外,人们阅读文本是为了获取信息,然而大规模文本集合中各个文本的质量往往参差不齐,倘若自动地对文本的质量加以分类,就能够帮助人们更高效地获取信息。  本论文围绕着基于机器学习的大规模文本分类这个课题,分别从海量样本分类、海量类别分类、多标号分类、以及文本质量分类这四个方面开展了研究工作。本论文的主要工作和创新点体现在如下四个方面:  1.本论文提出最小最大模块化极限学习机算法来提升原极限学习机模型处理海量样本分类问题的能力。极限学习机是一种新型的神经网络分类器,具有训练速度快、人工干预少、泛化性能高等特点,但由于计算复杂度较高和内存需求较大,不适用于海量样本分类问题。本论文提出的新算法充分利用了最小最大模块化网络框架的特性,集成了相关研究中对它的多种改进,并且采用交叉验证和格点搜索来自动地完成参数和组件配置的优化。实验结果表明新算法使得极限学习机模型处理海量样本分类问题的能力得到较大提升,训练时间和内存开销都有了明显的降低,同时分类准确率得到一定程度的提高。  2.本论文提出基于元学习的层次化分类算法来提高海量类别问题的分类准确率。传统的层次化分类算法虽然能够比较快速地处理海量类别分类问题,但由于在它的分类过程中存在着“误差扩散”现象,分类准确率偏低。本论文提出的新算法利用元学习技术来缓解这种“误差扩散”现象,同时保留传统层次化分类算法处理海量类别分类问题的高效性。实验结果表明新算法不仅能够显著地提高分类准确率,而且将计算复杂度维持在与传统算法相同的数量级上。  3  本论文提出变阈值标号选择策略来更好地解决多标号分类问题。标号选择策略是指在多标号分类问题中,如何利用基分类器输出的信心指数来准确地决定最终的预测类标。本论文提出的新策略融合了目前两种主要的标号选择策略“阈值策略”和“排序策略”。实验结果表明该策略在多标号分类问题中不仅能够取得较高的分类准确率,而且在不同的分类数据集和分类器模型上都具有良好的鲁棒性。  4.本论文研究了文本质量的自动分类方法,即任给一篇文本,系统将自动地判断出它的质量高低。该课题的实际意义在于它能从大规模文本数据集中识别出高质量文本,从而有效地帮助用户获取信息。本论文采用监督学习的框架,总结并扩展了一系列与文本质量相关的特征,以便更好地对文本质量进行自动分类。本论文从互联网上收集维基百科文本作为数据集,进行了实际测试,实验结果证实了本论文方法的有效性。
其他文献
程序分割是将程序的部分程序代码从本地迁移到其他计算节点。传统的程序分割技术主要应用于并行与分布式计算领域。近几年,随着移动设备的发展,用户需求不断增长,移动设备资源有
本文结合宝钢炼钢厂办公管理系统的项目背景,针对上述问题对工作流技术和应用集成技术展开研究,在此基础上提出了可行的解决方案。文章提出了应用数据、过程定义数据、组织结构
随着Internet的发展,各种实时业务应运而生,这对服务质量(Quality of Service,QoS)提出了更高要求。传统的QoS 路由算法在实现路由技术上暴露出缺陷,主要体现在路由信息不能及时
文字识别是模式识别的一个重要分支,其任务是研究如何使计算机能够"识字".它涉及模式识别、图象处理、数字信号处理、模糊数学等学科,是一门综合性技术,在中文信息处理、办公
监控视觉内容理解是计算机视觉智能化的一个重要方面,也是计算机视觉在实际应用中亟待解决的问题。监控视觉内容理解既可以促进计算机视觉理论的不断完善和发展,又能产生巨大的
随着电信网络的不断发展,设备的数量和种类不断增多,网络格局变得非常复杂。本文对XML/Web服务的分布式计算技术在网络管理信息处理系统中的应用进行了研究。文章对当前电信网
传统MIS技术应用十分广泛,并且很好的满足了单一用户处理单一任务的应用需求,却难以很好的实现流程性系统。工作流(Workflow)作为一种新技术,成为计算机技术领域的研究热点,在实
本文主要考察不经意传输协议及其在私密协议中的应用。  首先,本文引入了一类新的不经意传输协议。这类不经意传输协议的主要优点在于:能够使用所有安全的公钥密码体系。本文
当网络安全越来越受到人们的重视之后,防火墙、入侵检测系统也得到越来越广泛的研究与应用。而入侵检测系统可以弥补防火墙的不足,在花费不是很大的前提下,实时地检测网络入
本文针对当前电信企业广泛推崇的以客户为中心的营销,结合eTOM规范对电信营销流程的划分,总结了电信企业对营销管理需求,设计了电信营销过程支持系统的体系结构。文章充分利用经