文本分类中特征选择和特征加权算法的研究与应用

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:linjing912977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各高校信息化水平的不断提高,高校重视校园网络互动平台的建立,校园网络互动平台提供问题投诉窗口,不仅解决师生切身问题,而且极大地改善高校的管理水平。因此,如何从大量的问题投诉文本中,对文本数据进行分类,找出师生所关心的问题,提高高校的服务质量,就成为高校所面临的紧迫任务。本文基于对师生投诉文本的研究,先介绍文本分类的相关技术,再对特征选择和特征加权进行了深入地研究,并实验验证改进算法的准确性,最后将改进的算法应用到校园网络互动平台下的投诉文本中,并实现基于Spark平台的高校投诉文本分类系统,主要工作:(1)针对经典互信息选择算法的不足,本文引入特征类频率和特征项平均值这两个因素对经典互信息选择算法进行改进,将改进算法称之为基于词频的互信息特征选择算法(Word Mutual Information,WMI)。为了验证改进的互信息特征选择算法的可行性和有效性,分别在中英文数据集上进行了实验验证。实验结果表明,WMI算法具有较好的分类效果,是一种有效的特征选择算法。(2)针对经典特征加权算法TF-IDF的不足,引入类别内方差和类别间方差来改进TF-IDF算法。将改进算法称之为基于类别内和类别间分布的改进TF-IDF算法(Term Frequency-Inverse Document Frequency-S,TF-IDF-S),有效解决了 TF-IDF 未考虑类内和类间分布的问题。最后对TF-IDF-S算法在中英文数据集上进行了验证,并与其它特征加权算法进行对比分析。通过实验验证了 TF-IDF-S算法的有效性。(3)在上述理论研究的基础上,考虑时间因素的影响,设计并实现了基于Spark的高校投诉文本分类系统,将改进的特征选择算法和特征加权算法合理地应用到高校投诉文本中,其中,设计了 WMI算法、TF-IDF-S算法在Spark平台下的并行化,实现了高校投诉文本分类系统,具有较好的实用价值。
其他文献
世界零售巨头沃尔玛在中国正遭遇零供之痛。4月12日,有沃尔玛供应商千仟盛负责人张先生向《中国经营报》记者爆料称,从2012年7月到现在,沃尔玛克扣了其账款达150万元左右。在沃
报纸
《物权法》实施后,其对不动产错误登记损害赔偿责任的原则性规定,对整个物权法体系、侵权责任法体系、民法体系、司法实践都具有重要的理论与实践指导意义。本文就《物权法》
目的:观察会厌逐瘀汤对颈椎前路术后声音嘶哑的临床疗效。方法:选择接受颈椎前路手术治疗后出现声音嘶哑患者40例,按照随机数表法分为两组各20例,对照组采用口服甲钴胺及维生
本文以来自2010-2014年我国创业板上市公司1586个数据为样本,首先实证检验了研发费用税前加计扣除优惠政策在全国范围内创业板上市公司中的实施效果,然后区分省份和直辖市分
<正>自从我去了上海和爸爸妈妈团聚,在妈妈的"饭衣菜弹"下,体重开始"蹭蹭蹭"地往上涨,肥胖成了我最大的烦恼。肥胖一旦粘上了我,我就摆脱不了它的"魔爪",就像孙悟空逃不出如
期刊
杨树是杨柳科(Salicaceae)杨属(Populus)落叶乔木植物的通称,银中杨(Populus alba×P.berolinensis)是银白杨(p.alba Linn)与中东杨(P.Berolinensis Dipp.)经过杂交选育出的新型树种。
随着拉曼放大器的传输性能不断改善,传输距离不断延长,拉曼放大器被认为是未来超高速通信系统的更优选择。早期的拉曼放大器操作维护难度大,安装流程繁琐。通过复用拉曼内部
随着免疫分析技术在食品安全、临床诊断、环境污染物残留检测等方面的广泛应用及迅速发展,对于免疫分析中至关重要的免疫识别元件的制备提出了更高要求,众多新型识别元件应运
目的:观察温中和胃法对慢性萎缩性胃炎伴糜烂脾胃虚弱证患者的血清胃蛋白酶原Ⅰ、血清胃蛋白酶原Ⅱ、胃泌素17及胃镜、病理、临床症状的影响。方法:选取108例符合标准的脾胃
学习兴趣是学生“学习的内在动力,开发智力的钥匙”。学生对地理课感兴趣的时候,往往自觉性强,注意力集中,能和教师积极配合。因此,我在教学中,注意培养学生的兴趣,提高学习