基于判别式学习和组合分类器的Web文本分类技术

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:jaz23cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何从丰富的网络信息资源中发现有价值的利用信息,是目前一个非常迫切需要解决的问题,网页自动分类是解决这一问题的一项关键技术,对信息检索、信息过滤、主动化个性化的服务提供等等的发展来讲很有应用价值。在众多的网页文本分类算法中,朴素贝叶斯方法因为具有简单、容易实现、工作效率高、非常适合在线处理等优点而被广泛应用,但是其分类正确率有待提高。本文以朴素贝叶斯算法为基础,研究如何提高网页文本分类的精度,本文的主要工作有:(1)本文研究了判别式贝叶斯网络学习算法,将一种以数据的经验分布和真实分布之间的K-L距离为目标优化函数的判别式的朴素贝叶斯参数学习算法引入中文文本分类,同时考虑了数据类别之间的关系,将判别式参数学习算法和层次分类相结合,提出一种基于K-L距离的判别式朴素贝叶斯层次文本分类方法。在本文的中文网页数据集上的实验结果证明,基于K-L距离的判别式朴素贝叶斯层次文本分类方法确实能够得到较好的分类效果。(2)本文以多种形式表示网页,将网页按照自身结构进行划分,每个结构元素单独训练一个子文本分类器,通过多种组合原则对子分类器的结果进行组合以组合分类器的方法进行网页分类。实验证明,组合文本分类器的方法是切实可行的,无论是平面分类还是层次分类,组合后的分类器都比组合前分类效果好;在本文使用的四种组合原则中,按照独立性原则和最大原则进行组合的方法比多数原则和加权求和的方法表现更佳。
其他文献
21世纪是计算机软件发展的春天,软件系统朝着网络化、服务化和全球化的方向不断发展。然而发展的同时也暴露出软件行业的一些弊端,在很多软件开发过程中,面对不断变化的性能
如今,人们对便捷化和智能化生活的需求越来越多,基于视觉的人体行为识别分析被广泛的应用在人机交互,安全防护,教育教学等领域。因此,高准确率的实现行为的识别和分析具有极
海洋Argo浮标监测数据具有不确定、轨迹分布、大批量以及由于Argo浮标“随波逐流”等特点,导致浮标观测剖面在时间和位置上的不确定性,Argo浮标受海水漂流和恶劣气象的影响,会造
数据挖掘是信息科学及其应用中一个非常有前景的发展方向。数据挖掘,也叫做知识发现,用于提取蕴涵于大型数据库、数据仓库、互联网、其它数据源、以及数据流中的代表有用知识
随着科技的发展,移动通讯设备已经成为人们生活中不可缺少的通讯工具。随着软硬件技术的发展,移动通讯设备在为人们提供优质通讯功能的同时也在为人们提供越来越多的附加应用
随着业务需求不断变化,业务流程的设计,优化和管理成为企业竞争的重要手段。目前工作流技术已成为流程定义,管理,监控的核心技术。传统的关系数据库不能有效的表示工作流定义
随着多媒体技术的飞速发展,视频的应用已逐渐成为当前多媒体技术的研究重点。其中视频对象分割技术成为各种视频处理技术的基础,视频对象提取效果的好坏将直接影响后面的视频应
作为人类情感行为理解的一种基本方式,在过去的十几年内,语音情感识别已经吸引许多相关领域研究者的关注。虽然语音情感特征提取和分类器设计已经取得进步,然而由于说话人和内容
自互联网出现以来,计算机网络技术得到迅速发展,软件产品越来越多的被开发并应用到人们的日常生活中。与此同时,软件产品被人们有意无意的多次进行拷贝,一些非法的攻击者也对
我国是皮革工业大国,但是我国皮革工业的生产方式仍停留在机械化阶段。在皮革生产过程中从鞣前准备到后整理阶段几乎都主要依赖于感官评价,这将很难保证产品的一致性和稳定性。