基于主题模型的微博评论细粒度情感分析研究

来源 :河北工程大学 | 被引量 : 0次 | 上传用户:talisa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于微博能够及时搜集引人注意的事件,同时大众也可通过评论的方式发表自己的观点,因此受到大众的广泛推崇,逐渐在广大社交媒体平台中占了重要的地位。微博评论普遍带着高维性以及语义稀疏等特征,一般包含着浓烈的情绪,通过研究微博评论可以有效的观察到大众的想法以及态度。对某一事件相关微博评论的细粒度情感分析,能够清晰地了解大众对该事件多方面的情感倾向。本论文致力于对微博评论进行基于主题模型细粒度情感分析,具体可分为方面提取和方面情感分析任务的研究。方面提取任务中,采用基于句法规则的主题模型分析方式对评论做方面标签。微博评论一般偏口语化,本论文利用句法规则,对涉及多方面评论和过短评论进行方面拆分和语境扩展。同时,评论一般内容数量较少,且具有上下文依赖性较强、特征稀疏的特点。为解决评论上下文依赖性强以及常见的评论所含主题较多的问题,本论文提出基于一般化波利亚罐子模型(generalized Polya urn model,GPU)、BERT预训练模型和sen LDA的GBs-LDA主题模型。首先,模型通过BERT语言模型的对词语进行词向量语义表示,根据各个词向量的余弦距离生成语义相关词集;然后,评论经过句子升级模块处理,得到主题性更强的评论句子;最后,利用GPU模型,根据语义相关词集,完成句子特征扩展,进而通过改进的LDA模型对评论进行主题提取,即方面提取。方面情感分析任务中,对方面提取后的评论进行情感极性分类。本论文提出融合情感词典的预训练BERT-sen模型。这里首先将具有方面标签的评论子句以及微博评论数据集输入到BERT-sen模型进行情感极性训练,进而预测出评论子句的情感极性,然后统计各方面的评论情感极性数目,从而达到评论的细粒度情感分析。实验显示,本文设计的细粒度情感分析模型表现出良好的语义分析方面提取能力和情感分析能力。与传统的一条评论属于一个主题的模型相比,本论文提出的主题模型能够得到更加全面、准确的聚类结果,为整体细粒度情感分析模型获得较好结果起到奠基作用。同时基于融合情感词典的BERT-sen模型通过情感词典对评论的特征扩充,能够更加准确的的到情感极性。
其他文献
学位
学位
学位
学位
学位
学位
热处理工艺是机械制造中的一项重要的、不可或缺的工艺。通过热处理工艺可以改进工件材料的机械性能,但在其工艺过程中会消耗大量的能源,获取其能耗数据有非常重要的意义。热处理能耗计算可以快速获取热处理能耗数据,为产品全生命周期清单分析、热处理工艺节能和工艺优化等提供数据支撑。对热处理能耗影响因素等进行了深入分析,根据热处理设备的能量平衡方程,将热处理工艺耗能分为工件蓄热吸收的能量、辅助构件蓄热吸收的能量、
当下,传统建筑文化在现代建筑创作中发挥着越来越重要的作用。然而,在城镇化快速发展的背景下,传统建筑正在遭受着破坏,消亡的危机。那么,延续这些传统建筑的基因,在既保留自身文化特征的同时,又与时俱进,显得尤为必要。因此,如何将本土传统建筑文化与当代建筑创作有机地结合在一起,就成为了现代建筑师共同面临的问题。在邯郸地区,传统民居是当地重要的文化物质载体之一,在经过漫长的历史岁月沉淀后,折射出浓郁的乡土艺
热压热变形NdFeB磁体在大动力永磁电机等旋转电力设备服役过程中,因其电阻率低,热稳定性差,使其在服役过程中会产生涡流损耗,降低电机性能。因此,为了解决热变形钕铁硼磁体在电机服役中所出现的一系列问题,核心技术就是提高NdFeB磁体作为转子时自身的电阻率,从而降低涡流损耗。本文通过选用不同无机绝缘粉末(两种氮化物,一种氟化物)掺杂,制备热压热变形NdFeB磁体,分别探究其对热压磁体致密性,热变形磁体
学位