论文部分内容阅读
随着各高校信息化水平的不断提高,高校重视校园网络互动平台的建立,校园网络互动平台提供问题投诉窗口,不仅解决师生切身问题,而且极大地改善高校的管理水平。因此,如何从大量的问题投诉文本中,对文本数据进行分类,找出师生所关心的问题,提高高校的服务质量,就成为高校所面临的紧迫任务。本文基于对师生投诉文本的研究,先介绍文本分类的相关技术,再对特征选择和特征加权进行了深入地研究,并实验验证改进算法的准确性,最后将改进的算法应用到校园网络互动平台下的投诉文本中,并实现基于Spark平台的高校投诉文本分类系统,主要工作:(1)针对经典互信息选择算法的不足,本文引入特征类频率和特征项平均值这两个因素对经典互信息选择算法进行改进,将改进算法称之为基于词频的互信息特征选择算法(Word Mutual Information,WMI)。为了验证改进的互信息特征选择算法的可行性和有效性,分别在中英文数据集上进行了实验验证。实验结果表明,WMI算法具有较好的分类效果,是一种有效的特征选择算法。(2)针对经典特征加权算法TF-IDF的不足,引入类别内方差和类别间方差来改进TF-IDF算法。将改进算法称之为基于类别内和类别间分布的改进TF-IDF算法(Term Frequency-Inverse Document Frequency-S,TF-IDF-S),有效解决了 TF-IDF 未考虑类内和类间分布的问题。最后对TF-IDF-S算法在中英文数据集上进行了验证,并与其它特征加权算法进行对比分析。通过实验验证了 TF-IDF-S算法的有效性。(3)在上述理论研究的基础上,考虑时间因素的影响,设计并实现了基于Spark的高校投诉文本分类系统,将改进的特征选择算法和特征加权算法合理地应用到高校投诉文本中,其中,设计了 WMI算法、TF-IDF-S算法在Spark平台下的并行化,实现了高校投诉文本分类系统,具有较好的实用价值。