论文部分内容阅读
随着Web2.0的兴起和迅速发展,互联网上涌现出大量以微博为代表的社交媒体。微博凭借其短小精悍、发布便捷和更新快速等特点,已经成为公众获取信息和交流情感的重要平台。微博话题传播速度快、社会影响大,为公众的信息获取、分享和传播提供了便捷的服务,同时也为敌对势力和不法分子传播失实言论、引发公众负面情感提供了渠道。因此,有效的对微博话题的公众情感进行分析,能够为政府部门了解公众民意和制定高效决策提供支持,对微博舆论监控和引导具有重要意义。本文研究微博话题的公众情感分析技术,主要包括微博话题追踪、微博情感分析和微博话题公众情感分析三个部分。论文的主要研究成果如下:(1)研究了微博话题追踪技术,针对传统方法往往在微博话题追踪中忽略了特征之间的语义信息,导致追踪效果不够理想的问题,提出一种基于词向量的微博话题追踪方法。首先,使用神经网络语言模型在大规模数据集上训练,得到能够准确表示词语语义的词向量;然后,利用词向量扩展特征向量的语义信息,建立初始话题和微博模糊集合;最后,计算微博模糊集合和初始话题模糊集合之间的相似度,并依据设定阈值进行判决,完成话题追踪。在微博话题语料上进行实验,该方法的综合F1值达到85.71%,比传统方法提高了5%,表明基于词向量的微博话题追踪方法能够充分利用词向量引入的语义信息,从语义层面完成话题追踪,相比传统方法能够有效提高微博话题追踪性能。(2)研究了微博情感分析技术,针对传统的无监督微博情感分析方法不能很好地解决微博语料特征稀疏的问题,提出一种基于BTM(Biterm Topic Model)的无监督微博情感分析方法。首先,利用BTM模型对微博语料中的共现词对进行建模,挖掘文档中的隐含主题;然后,利用合并的情感词典计算隐含主题的情感分布;最后,结合文档的主题分布和主题的情感分布计算微博的情感倾向,完成情感分析。在NLP&CC2012评测语料上实验,该方法的平均F1值达到75.88%,比传统方法提高了15%,表明基于BTM的无监督微博情感分析方法能够有效解决微博语料特征稀疏对情感分析的影响,在无监督的情况下准确得到微博的情感倾向。(3)研究了微博话题公众情感分析技术,针对已有的相关研究忽视或者不能准确的对公众情感进行描述和分析,导致无法满足微博舆论监控和高效决策需求的问题,提出一种有效的微博话题公众情感分析方法。首先,抽取微博话题的正负面情感摘要,对公众情感进行描述;然后,利用提出的三种指标对公众情感进行分析,得到公众对话题的情感倾向;最后,利用提出的引导句生成方法来引导公众情感。在微博话题语料上进行实验,该方法的综合F1值达到54.95%,比传统方法提高了11%,表明该方法不但能够提高微博话题情感摘要的综合性能,而且能够准确得到公众对话题的情感倾向,并有效引导公众情感。