论文部分内容阅读
由于微博能够及时搜集引人注意的事件,同时大众也可通过评论的方式发表自己的观点,因此受到大众的广泛推崇,逐渐在广大社交媒体平台中占了重要的地位。微博评论普遍带着高维性以及语义稀疏等特征,一般包含着浓烈的情绪,通过研究微博评论可以有效的观察到大众的想法以及态度。对某一事件相关微博评论的细粒度情感分析,能够清晰地了解大众对该事件多方面的情感倾向。本论文致力于对微博评论进行基于主题模型细粒度情感分析,具体可分为方面提取和方面情感分析任务的研究。方面提取任务中,采用基于句法规则的主题模型分析方式对评论做方面标签。微博评论一般偏口语化,本论文利用句法规则,对涉及多方面评论和过短评论进行方面拆分和语境扩展。同时,评论一般内容数量较少,且具有上下文依赖性较强、特征稀疏的特点。为解决评论上下文依赖性强以及常见的评论所含主题较多的问题,本论文提出基于一般化波利亚罐子模型(generalized Polya urn model,GPU)、BERT预训练模型和sen LDA的GBs-LDA主题模型。首先,模型通过BERT语言模型的对词语进行词向量语义表示,根据各个词向量的余弦距离生成语义相关词集;然后,评论经过句子升级模块处理,得到主题性更强的评论句子;最后,利用GPU模型,根据语义相关词集,完成句子特征扩展,进而通过改进的LDA模型对评论进行主题提取,即方面提取。方面情感分析任务中,对方面提取后的评论进行情感极性分类。本论文提出融合情感词典的预训练BERT-sen模型。这里首先将具有方面标签的评论子句以及微博评论数据集输入到BERT-sen模型进行情感极性训练,进而预测出评论子句的情感极性,然后统计各方面的评论情感极性数目,从而达到评论的细粒度情感分析。实验显示,本文设计的细粒度情感分析模型表现出良好的语义分析方面提取能力和情感分析能力。与传统的一条评论属于一个主题的模型相比,本论文提出的主题模型能够得到更加全面、准确的聚类结果,为整体细粒度情感分析模型获得较好结果起到奠基作用。同时基于融合情感词典的BERT-sen模型通过情感词典对评论的特征扩充,能够更加准确的的到情感极性。