维吾尔文情感分析技术研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:qiuenqiuen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,越来越多的用户主动加入到互联网创造了大量的数据,比如微博数据、论坛数据、电子商务网站的评论等数据都是用户主动创造的数据。这些数据的一个共同点就是大部分都带有用户针对某一个社会问题或者某件产品的态度和情感。分析这些带有用户情感的数据不仅有经济价值,还有社会价值。电商网站可以通过分析用户的评论数据了解用户的需求和产品的性能,从而改善产品质量和服务水平。政府部门通过分析网民的评论数据,可以快速了解社会热点问题和网民的对此的态度,从而做到有效的舆情分析和舆情监控。情感分析研究是在此环境下应运而生的。本文在前人工作的基础上,创建了维吾尔文情感语料库,并在此语料库基础上使用传统的机器学习算法和神经网络算法,找出了最适合进行维吾尔文情感分析的研究方法。  虽然以前的学者们对维吾尔文情感分析进行了一定的研究,但是大部分从某一个角度进行了研究,没有对维吾尔文情感分析整个过程做一个对比实验。本文利用Python语言的Numpy,Pandas,Scipy,Matplotlib,BeautifulSoup,Tkinter,Scikit-learn,Gensim,Keras等库对维吾尔文情感分析进行了研究。从情感语料库的标注规范的制定到情感分类器的测试和使用,对维吾尔文情感分析的每一个过程进行了研究,从而确定了每一个过程对最后结果的影响,通过对比实验找出了每一个过程中的最好的方法。情感语料库的标注规范的制定是整个过程的开始和基础,标注规范制定的好坏直接影响情感语料库的质量,从而影响最终的效果。本文制定了8个大的情感类别和25个细致的情感类别,这样情感语料库不仅有实用性,还有可扩充性。本文的实验结果表明,在特征选择阶段最简单的特征选择方法,即基于文档频率的特征选择方法的性能最好。在特征权重计算阶段,基于TF-IDF的特征权重计算方法的性能最好。在传统的机器学习算法中,支持向量机算法的性能最好,取得了80.12%的准确率,这比卷积神经网络的准确率高出了4.45%,是最适合维吾尔文情感分析的分类算法。
其他文献
RFID(Radio Frequency Identification)技术是自动识别和数据采集技术的一种,为了在提高产量的同时降低成本,在商业信息化中RFID技术日益兴起,已逐渐深入到各个领域,如供应链
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分的方法,在数据挖掘、统计学、机器学习、空间数据库技术、生物学和市场学等领域有着广泛的应用。聚类算法可以分为基
机器学习是研究让机器具有学习的能力,集成学习是机器学习的一大研究热点,是将多个不同的单个个体模型组合成一个最终模型,这些模型就是我们所要生成的分类器。生成这些模型
数字半色调是一种使用黑白二值的像素点来表现连续灰度图像的技术。在数字半色调处理的各种技术中,误差扩散算法以其较好的半色调图像质量和较快的算法运行速度,得到了非常广
对于网络安全态势的研究是近年来一个新兴的网络安全研究课题,也是目前信息安全的研究热点之一。网络安全态势是对网络安全状况的一个整体反映,对于提高整个网络系统的应急响
互联网的出现与普及,给人们带了极大便利,同时也让我们承担着来自互联网的威胁和被欺诈的风险。近年来,流氓证书被恶意颁发的事件时常发生,如果流氓证书被不法分子获取并部署
科学计算正在从传统的以计算为核心的计算密集型时代转向以数据为核心的数据密集型超级计算的时代,数据已经逐渐成为企业或机构运转的枢纽与支柱,任何形式的数据损坏都可能带来
Web2.0和社会化标签系统的流行,使得Folksonomy和标签推荐系统得到了越来越多的关注。随着语义Web研究的深入,研究者尝试利用本体来解决Folksonomy的不足并为其构建统一的结
随着计算机技术的发展,嵌入式实时系统在众多领域得到广泛应用。相比于单核处理器,多核处理器能够使嵌入式系统获得更高的性能。在PC全面进入多核时代的背景下,嵌入式领域的
随着市场经济的不断发展,企业信息化显的越来越重要。物流被称作“第三方利润源”也受到了各行各业的重视并得到了较快的发展。将计算机网络,电子商务等技术与物流相关技术结