论文部分内容阅读
随着互联网的发展,越来越多的用户主动加入到互联网创造了大量的数据,比如微博数据、论坛数据、电子商务网站的评论等数据都是用户主动创造的数据。这些数据的一个共同点就是大部分都带有用户针对某一个社会问题或者某件产品的态度和情感。分析这些带有用户情感的数据不仅有经济价值,还有社会价值。电商网站可以通过分析用户的评论数据了解用户的需求和产品的性能,从而改善产品质量和服务水平。政府部门通过分析网民的评论数据,可以快速了解社会热点问题和网民的对此的态度,从而做到有效的舆情分析和舆情监控。情感分析研究是在此环境下应运而生的。本文在前人工作的基础上,创建了维吾尔文情感语料库,并在此语料库基础上使用传统的机器学习算法和神经网络算法,找出了最适合进行维吾尔文情感分析的研究方法。 虽然以前的学者们对维吾尔文情感分析进行了一定的研究,但是大部分从某一个角度进行了研究,没有对维吾尔文情感分析整个过程做一个对比实验。本文利用Python语言的Numpy,Pandas,Scipy,Matplotlib,BeautifulSoup,Tkinter,Scikit-learn,Gensim,Keras等库对维吾尔文情感分析进行了研究。从情感语料库的标注规范的制定到情感分类器的测试和使用,对维吾尔文情感分析的每一个过程进行了研究,从而确定了每一个过程对最后结果的影响,通过对比实验找出了每一个过程中的最好的方法。情感语料库的标注规范的制定是整个过程的开始和基础,标注规范制定的好坏直接影响情感语料库的质量,从而影响最终的效果。本文制定了8个大的情感类别和25个细致的情感类别,这样情感语料库不仅有实用性,还有可扩充性。本文的实验结果表明,在特征选择阶段最简单的特征选择方法,即基于文档频率的特征选择方法的性能最好。在特征权重计算阶段,基于TF-IDF的特征权重计算方法的性能最好。在传统的机器学习算法中,支持向量机算法的性能最好,取得了80.12%的准确率,这比卷积神经网络的准确率高出了4.45%,是最适合维吾尔文情感分析的分类算法。