中文文本分类中特征选择方法的应用与研究

来源 :太原理工大学 | 被引量 : 8次 | 上传用户:suojianpku798
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类技术可以用来帮助人们从海量的信息中获取有用信息,它已经得到了广泛地研究和应用。文本分类就是将一些未知的文本与预先定义好的文本类别相互比较,如果这个未知的文本与已知文本类别中的一些类别互相对应时,那么这个未知文本就属于所对应类别的文本。在文本分类中,影响分类效果的一个比较重要的因素是特征选择。特征选择就是在原始特征集中选出最有代表性的一些特征,它可以降低特征维数。在文本领域中,特征选择的必要性在于它可以使分类任务更加有效与准确。本文通过分析与比较,指出了传统的卡方统计法的缺点。一方面它仅仅只关心特征词在全部文本而不是一篇文本中所出现的次数,这就降低了最终分类的准确率;另一方面它只关心出现次数特别多的特征词,如果在研究的类别中,特征词出现比较少时,还选用这些特征词的话,分类的效果就会不准确。为了解决卡方统计法本身的缺点,本文通过频度思想对其进行了改进,并通过K-近邻算法与支持向量机算法,对改进的方法进行了验证。另外,本文还提出了一种比较新的特征选择方法,此方法在中文分类系统中还没有得到广泛地应用,可以作为今后研究的一个方向。最后本文构造了一个中文文本分类系统,它的各个模块之间是互不影响的,可以对其中的一个模块进行修改,而不会影响其它模块。本文采用的是复旦大学李荣陆所提供的开源文本分类系统,本实验选用其中的K-近邻分类器和支持向量机分类器对改进的卡方统计法进行测试。为了使实验有更好的可比性,在实验过程中,对改进前后的语料库、选择的分类器与选择的各个参数等都取相同的条件。本实验分别从文档分类的正确数、直方图、查全率、查准率与混淆矩阵等多个实验结果上进行分析与比较,从实验的结果可以得出改进后的卡方统计法分类效果比传统的卡方统计法要好,说明了改进的方法是可行与有效的。
其他文献
公路交通的飞速发展为人们的生活提供了极大的便利,但是随着汽车数量的不断增加,社会车辆侵占公交专用车道和公交站位等违章行为也越来越多,严重地影响了公共交通的效率乃至
MC13233是飞思卡尔公司将于2011年6月上市的主要面向消费类电子及智能家居的新一代传感网专用微控制器。MC13233继承了飞思卡尔公司以往的ZigBee芯片低成本、低功耗、双向传
随着信息技术的飞速发展,计算机网络技术被融合到了计算机辅助教学当中,并在校园网、局域网、广域网及Internet上得以迅速扩展。目前,计算机辅助教学正向多元化、智能化、网络化
视觉跟踪是计算机视觉领域中一个重要且基础的研究课题,其任务是给定初始帧的目标真值,利用某种算法在后续视频帧中衡量目标的状态信息。近年来,目标跟踪技术已经取得很大的突破,但是这些算法在面对复杂场景或极端条件下的鲁棒性仍有待提高,例如雾霾天气,目标遮挡,低光照等。同时随着传感器技术的成熟,传感器在目标跟踪领域得到广泛的应用。热红外传感器可以捕捉目标的温度信息,弥补可见光数据对光照条件敏感的缺点,同时可
学位
WebGIS是Internet/Intranet网络环境下的一种用于存储、分析、处理、渲染与应用地理数据信息的计算机地理信息系统,其基本思想是在互联网中提供地理信息的发布与共享,使客户
时间序列是指随着时间变化而形成的有序数据序列,它频繁地出现在金融、商业、科学和医疗等各个领域。如何管理和利用这些时序数据,发现隐藏在它们背后的规律和知识,成为人们日益
随着中国经济的飞速发展,铁路运输货物的需求量在飞速增长,其中也包括危险物品的运输。倘若在危险品运输途中发生事故,就会对铁路沿线人民的生命、财产和周围环境造成极大的
随着中国高校招生规模的扩大,高校的毕业人数与日俱增,在传统的毕业设计指导模式下,出现了工作量大,效率偏低的情况。针对这种情况,本文设计毕业设计指导系统的目标就是为指
近年来,随着信息技术的迅猛发展,基础设施系统间的依赖关系变得越来越强,研究具有相互依存关系的网络的鲁棒性能够为基础设施系统的设计与保护提供理论依据和参考价值。  针对
随着人类社会现代化进程的高速推进与经济的快速发展,汽车得到了广泛普及,走进了千百万普通家庭。然而,汽车在给人们的出行带来方便的同时,城市交通拥挤加剧、交通事故频发、