论文部分内容阅读
文本倾向性分类是数据挖掘、模式识别和智能信息处理领域的前沿研究课题,其主要任务是根据文本中主观信息所反映的语气色彩倾向判断出其相对的情感色彩的倾向极性。支持向量机(Support Vector Machine, SVM)作为数据挖掘中的新方法,是借助于优化方法解决机器学习问题的新工具,在文本倾向性分类算法中应用广泛。核函数是支持向量机的核心,通过将低维输入向量映射到高维特征空间,有效地解决了非线性问题。核函数在支持向量机中占据极其重要的地位,是支持向量机理论成熟发展的关键。本文在已有研究工作的基础上,结合文本倾向性分类的相关技术、支持向量机理论以及核函数理论,对构造核函数的方法、选择最优核函数参数以及文本倾向性分类性能的改善等几个方面进行了系统的研究,并提出了新的算法,改善了文本倾向性分类的性能。论文的主要工作包括:(1)构造了一个由Sigmoid核函数和高斯核函数线性组合的组合核函数。高斯核函数是局部核函数,具有很好的局部学习能力,但泛化能力弱;Sigmoid核函数是全局核函数,泛化能力强,但学习能力弱。因此结合两种核函数的优势,构造出新的核函数,使预测模型在高斯核函数的作用下有具有很好的学习能力(训练误差小),并且也能在Sigmoid核函数的作用下有很强的泛化能力(测试误差小),不仅能利用高斯核函数在小范围内的强拟合性,也能利用Sigmoid核函数在整个数据集中的较强的学习能力。实验结果表明,基于组合核函数的支持向量机分类方法,与基于单核核函数的支持向量机分类方法相比,在选择合适的参数后明显改善了分类器的分类性能。(2)将基于组合核函数的支持向量机运用到文本倾向性分类中,在确定支持向量机参数时,采用了网格搜索法,并且与相关文献中采用的文本倾向性分类算法进行了实验对比。实验结果表明,采用本文提出的基于组合核函数的支持向量机的文本倾向性分类,相对于相关文献中采用的文本倾向性分类方法,在准确率、召回率、F1值,宏平均准确率、宏平均召回率、微平均准确率、微平均召回率上都有所提高。