基于聚类树的多类标文本分类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:feicuisenlinviolet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类技术是解决由于互联网的迅猛发展而导致人们面临“信息爆炸而知识匮乏”问题的有效手段。文本分类往往是属于多类标分类,即单篇文章属于一个或以上的类别。多类标问题是传统机器学习算法不能解决的,同时因为文本数据的特殊性,业已开发的多类标分类算法不能很好地应用于文本数据。如何更好地解决多类标文本分类问题是本文的核心议题。本文的具体工作如下:  (1)全面总结了现有的文本处理技术,多类标分类方法及其优势劣势,多类标数据集的度量准则和算法验证准则。  (2)深入分析并总结出多类标文本数据的关键特点。通过对传统文本数据的分析及多类标数据的度量特点,推导出多类标文本数据普遍存在“一高两疏”的特点——高维、特征空间和类标空间稀疏。  (3)提出了解决多类标文本数据的思路。根据多类标文本数据的关键特点,提出对特征空间和类标空间的划分,通过构造不同子空间及其专注的问题,迭代解决多类标文本分类问题是一个好的思路;也就是说,通过把原问题划分为若干个子问题,子问题之间相互协作,寻找最优解。  (4)提出了全新的多类标分类算法——多类标聚类树算法。多类标聚类树算法是根据解决多类标文本文类问题的指导思想,结合传统单类标聚类树算法的特点,通过迭代调用“基于类标信息的聚类算法”将两空间依树的生长不断划分,直至空间足够简单为止。  (5)提出了全新的基于问题转化的多类标分类方法——类标掩盖树。类标掩盖树是通过树形结构和类标掩盖手段,把多类标问题转化为一系列层次分明,相互协作的多类别分类问题,进而考察类标掩盖数组,解决多类标分类问题。  (6)实验证明多类标聚类树算法在文本数据上的优越性。通过实验手段,选择十三种近年学术界公认的state of art多类标分类方法,在十二个基准多类标文本数据集,六个多类标二值验证准则,七个多类标排序和概率验证准则上进行对比分析,得到的结论是多类标聚类树算法总体上优于其他对比算法,并得到多类标聚类树算法的分类能力强于其排序能力的结论。
其他文献
随着对人类视觉生理及心理的深入了解,基于人类视觉系统(Human VisionSystem,HVS)的凝视绘制技术逐渐成为图形学的研究热点。这种技术通过略去不为用户感知的画面区域的图像细
微博是一种新兴的网络社交平台,依靠其自身独特的优点获得用户的青睐,经过短短几年的迅速发展,目前已成为主流的社交平台之一。在微博网络中,具有相同或相似爱好的用户属于同
互联网技术的飞快发展和社交网络应用的迅速推广带来的用户信息泄露问题引起了广泛关注。由于社交网络数据不同于传统的关系数据,传统的隐私保护技术不能直接应用于社交网络数
云计算的兴起,受到了各行各业的广泛关注。不同于传统的服务模式,云计算是通过与互联网结合提供的一种新型的商业模式。在云计算模式下,工作流调度的好坏对用户的服务满意度、负
为了便于服务请求者查找服务,服务注册中心会对服务按照某些分类体系进行分类以提高查找效率。Web服务的数量和使用的类别体系非常庞大,人工为服务标注类别将非常复杂且费时,而
无线传感器网络(Wireless Sensor Network)由大量传感器以自组织方式构成的分布式网络系统。随着微机电系统、片上系统、无线通信和嵌入式技术的飞速发展,无线传感器网络被广泛
日光温室是我国北方冬季生产的重要途径,但是对温室的操控仍然比较落后。对温室生产指导仍以人工控制为主,缺乏实用的理论指导。室内空气温度是日光温室环境监控的一个重要参
在测量测控领域,随着电子技术、嵌入式技术、网络技术和虚拟仪表技术的快速发展,仪器仪表朝着微型化、网络化、虚拟化、数字化、智能化的方向发展,一种顺应信息化进程的Internet
自动信任协商是解决跨安全域信任建立问题的有效方法之一。协商机制是自动信任协商中重要的研究内容,它主要包括策略语言、协商策略和协商协议三个方面。但现有的协商机制研
随着军队信息化建设的逐渐完善,地理信息系统(GIS)在军事上的应用方式正在向分布式、交互式和以数据服务为中心转变。具体表现为现代战争条件下,多军兵种联合作战时的战场实