论文部分内容阅读
网络技术的发展以及网民的社交需求使得各种社交媒体迅速崛起,人们越来越多的利用微博和BBS等各种社交网络参与到各类话题之中,表达自己的情感和观点。微博作为参与者最多的社交平台,具有信息量更大、覆盖面更广、传播速度更快、动态性和实时性更强等特点,每天有数以亿计的微博不断地在发布和传播。一方面,这些海量文本包含了丰富的情感和主题信息,蕴藏了巨大的经济、社会和科研价值;另一方面,这些文本也具有简短、不规范、特征稀疏等问题,使得其情感和主题分析困难重重。针对上述问题,本文提出面向社交媒体的文本情感和主题的综合分析方法。其研究特色在于以偏向性、情感强度和通用知识深入研究或优化情感和主题分析任务,具体包括以下三个部分的研究创新点:第一,本文提出了偏向性的概念,包括主观偏向性和客观偏向性,并基于此构建了偏向性-情感-主题(Bias-Sentiment-Topic,BST)模型。该模型认为在不同的偏向性条件下,文本的情感和主题生成有着不同的依赖关系,在JST(Joint Sentiment-Topic)模型和Reverse-JST(Reverse Joint Sentiment-Topic)模型的基础上添加偏向性层,并引入偏向性、情感和主题先验知识,实现对偏向性、情感和主题的联合建模。BST模型利用了情感和主题生成的双向依赖关系,不仅能够提高社交媒体文本情感和主题分类的性能,而且能够挖掘除情感和主题知识以外的偏向性知识。第二,本文将情感展开为情感类别和情感强度,并构建了偏向性-情感类别-情感强度-主题(Bias-Sentiment category-sentiment Intensity-Topic,BSIT)模型。该模型认为在不同的偏向性条件下,情感强度的生成与情感类别和主题有着不同的依赖关系,在BST模型的基础上添加情感强度层,并引入偏向性、情感类别、情感强度和主题先验知识,实现对偏向性、情感类别、情感强度和主题的联合建模。BSIT模型充分利用了不同偏向性下情感类别、情感强度和主题的关联性,实现了对文本情感纵向上的深入分析。第三,本文构建了改进的基于通用波利亚罐子(Generalized Pólya urn,GPU)模型的Gibbs采样器。该采样器以从大量文本数据训练出的词语的词向量集合作为通用知识,并基于GPU模型将通用知识引入BST模型和BSIT模型的Gibbs采样过程中。改进的采样器利用通用知识完善了社交媒体文本测试集的语义信息,进一步提升了面向社交媒体的文本情感和主题分析的性能。综上,本文从上述三个方面对社交媒体文本的情感和主题分析进行了深入的研究。此外,本文还在Twitter文本数据集上进行了一系列的对比实验。实验结果表明,本文所提方法不仅能够提高社交媒体文本的情感分类性能,还能够有效提高其主题分类的性能。