汉语情感词语义模糊性分析及在意见挖掘中的应用研究

来源 :山东理工大学 | 被引量 : 0次 | 上传用户:hunshixiaozi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,信息技术的快速发展,促进了电商贸易和网上互动平台的发展,也刺激了网络评论文本的激增。通过对大量网络评论进行研究,可以帮助政府、企业商家、顾客做出更合理更有利的决定。由于网络评论的重要性被越来越多的人所重视,网络评论文本的情感倾向性分析已成为自然语言处理领域的研究热点之一。另外,通过对情感词的极性强度进行量化分析,可以有效区分其情感色彩程度,从而帮助人们进行更为准确的情感表达。故关于情感词的语义模糊性研究也是一大研究热点。本文选取网络评论中的情感词作为研究对象,结合汉语语言的自身特点,对情感词的语义模糊性进行量化分析,同时在意见挖掘领域对其进行应用。本文的主要工作有:1、基于How Net情感词典,提出基于Word2vec词向量和How Net语义相似度线性叠加的词典构建方法,在NTUSD情感词典和网络情感词典范围内,扩充How Net情感词典。2、针对简单情感词的语义模糊性,提出将Word2vec与How Net线性叠加方法和基于词频统计方法相结合的新方法,实现对简单情感词极性强度的量化。通过实验发现,使用该方法量化情感词的语义模糊性,可以有效提高情感词极性量化的正确率。相比Ku等人的方法,极性强度量化的正确率在α=0.3时提高了10.8个百分点。3、针对复杂结构的情感词,根据其每一小类别的不同结构特点,设计不同的情感极性强度量化方法,然后对提出的方法进行实验验证。根据得到的实验结果,发现利用该方法进行极性强度量化的正确率在α=0.3时提高了13.5个百分点。4、在意见挖掘中对上述提出的方法进行具体应用。首先,在分类模型上对实验文本集进行有无融合情感词典的对比实验,实验结果表明融合了情感词典的意见挖掘具有更高的准确率,四种分类模型在正负向文本上的准确率分别提高了5.1%和5.1%;2.8%和3.4%;6%和6.6%;3.4%和2.7%。其次,对传统的NB、SVM以及CNN和RNN分类算法进行改进,并在改进后的分类模型上进行融合情感词典的对比实验,实验结果表明改进后的四种分类模型在正负向文本上的准确率分别有提高1.7%和4.2%;2.9%和3.4%;2.2%和2.3%;3.3%和3.5%。
其他文献
中药的使用已有几千年的历史,中药的"药理"一词,在古代中医药书籍已出现,如宋代的《圣济经》中,就有"药理篇",但是运用现代科学方法研究中药的作用,是从20世纪20年代才开始的。中
文章对“普通生态学”双语教学几年来的课堂实践进行了总结,探讨了教学手段和方法,并讨论了双语教学目前所存在的问题,同时,对教学效果进行了调查分析,结果表明:在宁波大学进行的“
利用高通量组织微阵列结合免疫组化检测MT1-MMP、MT2-MMP、Ezrin、nm23-H1、E-cad和TIMP-2在鼻咽癌组织中的蛋白质表达,探讨肿瘤转移相关基因异常表达在鼻咽癌侵袭转移中的作
期刊
形势与政策教育是大学生思想政治教育的重要组成部分,要提高形势与政策教育的实效性,就必须不断改进"形势与政策"课的课堂教学模式。新闻播报教学法具有较强的思想冲击力、课堂
目的:通过检测Neuritin与TUBB3(ClassⅢβ-tubulin)在胃癌患者肿瘤组织中的表达水平,进一步探讨两者之间及两者与临床病理参数的相关性及临床意义。方法:采用免疫组织化学染
目的寻找与节律蛋白hPeriod1(hPer1)相互作用的蛋白,并对筛选出的层粘连蛋白受体Ⅰ(Lamr1)在节律系统中的功能作初步研究。方法分别构建pGAD rec/脑cDNA文库和pGBKT7/hPer1bHLH—PAS
<正> 我国养蚕历史悠久。江南的气候温暖,雨量充沛,种桑养蚕的自然条件十分优越,广大农村历来有种桑养蚕的习惯。这为在学生中开展家蚕的饲养和观察实验的课外活动提供了有利
泥沙来源判别是小流域土壤侵蚀研究的重点,也是难点。复合指纹识别技术因其结果直接、准确度高、作业快等特点,在国内外泥沙来源研究中得到大量应用,并迅速发展。复合指纹识
普通机械锁(或电子锁) 的锁栓通常被锁芯直接控制作左右直线式运动(在制锁行业为A级锁),且锁栓几乎无自锁功能,这就为盗窃份子留下了“撬锁盗窃”的犯罪之机。下面向读者介绍的
会议