面向社交媒体的文本情感和主题的联合建模研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:didi_1157
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络技术的发展以及网民的社交需求使得各种社交媒体迅速崛起,人们越来越多的利用微博和BBS等各种社交网络参与到各类话题之中,表达自己的情感和观点。微博作为参与者最多的社交平台,具有信息量更大、覆盖面更广、传播速度更快、动态性和实时性更强等特点,每天有数以亿计的微博不断地在发布和传播。一方面,这些海量文本包含了丰富的情感和主题信息,蕴藏了巨大的经济、社会和科研价值;另一方面,这些文本也具有简短、不规范、特征稀疏等问题,使得其情感和主题分析困难重重。针对上述问题,本文提出面向社交媒体的文本情感和主题的综合分析方法。其研究特色在于以偏向性、情感强度和通用知识深入研究或优化情感和主题分析任务,具体包括以下三个部分的研究创新点:第一,本文提出了偏向性的概念,包括主观偏向性和客观偏向性,并基于此构建了偏向性-情感-主题(Bias-Sentiment-Topic,BST)模型。该模型认为在不同的偏向性条件下,文本的情感和主题生成有着不同的依赖关系,在JST(Joint Sentiment-Topic)模型和Reverse-JST(Reverse Joint Sentiment-Topic)模型的基础上添加偏向性层,并引入偏向性、情感和主题先验知识,实现对偏向性、情感和主题的联合建模。BST模型利用了情感和主题生成的双向依赖关系,不仅能够提高社交媒体文本情感和主题分类的性能,而且能够挖掘除情感和主题知识以外的偏向性知识。第二,本文将情感展开为情感类别和情感强度,并构建了偏向性-情感类别-情感强度-主题(Bias-Sentiment category-sentiment Intensity-Topic,BSIT)模型。该模型认为在不同的偏向性条件下,情感强度的生成与情感类别和主题有着不同的依赖关系,在BST模型的基础上添加情感强度层,并引入偏向性、情感类别、情感强度和主题先验知识,实现对偏向性、情感类别、情感强度和主题的联合建模。BSIT模型充分利用了不同偏向性下情感类别、情感强度和主题的关联性,实现了对文本情感纵向上的深入分析。第三,本文构建了改进的基于通用波利亚罐子(Generalized Pólya urn,GPU)模型的Gibbs采样器。该采样器以从大量文本数据训练出的词语的词向量集合作为通用知识,并基于GPU模型将通用知识引入BST模型和BSIT模型的Gibbs采样过程中。改进的采样器利用通用知识完善了社交媒体文本测试集的语义信息,进一步提升了面向社交媒体的文本情感和主题分析的性能。综上,本文从上述三个方面对社交媒体文本的情感和主题分析进行了深入的研究。此外,本文还在Twitter文本数据集上进行了一系列的对比实验。实验结果表明,本文所提方法不仅能够提高社交媒体文本的情感分类性能,还能够有效提高其主题分类的性能。
其他文献
研究目的探讨慢性心力衰竭阳虚证型与甲状腺激素变化的关系,以期为慢性心力衰竭的阳虚证型寻找客观依据,从而为临床慢性心力衰竭的中医辨证及判断病情的轻重提供参考。研究方
伴随着目前的无功补偿装置趋于大容量、大电流的趋势,软连线的发热问题需引起一定的重视。本文通过实例分析,对连接线发热问题的原因进行分析,并提出整改措施,希望能对今后的
20世纪70年代以来,非营利组织在全球范围内得到了空前的发展。从北美、欧洲的发达国家,到亚非、拉美和东欧的发展中国家,非营利组织的数量都呈现出惊人的增长势头,其活动范围
目的比较超声引导下收肌管阻滞(ACB)与髂筋膜阻滞(FICB)对膝关节置换术后镇痛的影响。方法选取2018年6—12月在单县中心医院行单侧膝关节置换术患者68例,年龄45~78岁,体重59~
针对现代战争中作战节奏越来越快、决策问题越来越复杂、越来越多的问题无法抽象成数学模型等特点,设计一种分层的基于多智能体的作战指挥辅助决策系统。系统分为决策层、决
【目的】通过针刺方法治疗实验性糖尿病大鼠,观察其血糖、血脂、心体重比,及血管紧张素Ⅱ的变化,旨在分析针刺疗效的机理,为针刺治疗糖尿病的现代机制研究提供依据。【方法】
10kV串联电容器补偿装置近几年开始配电网中开始应用,该装置主要安装在线路当中,用于补偿线路的感性阻抗,提高线路的末端电压。为了方便的了解装置在线路中的运行情况,必须建
目的:运用循证医学系统评价的方法对近年来采用清热祛湿法治疗慢性乙型肝炎的临床试验文献进行定性和定量分析,为临床治疗提供最佳证据,并初步确定治疗该病的优势方药。方法:
本文就复数在电工学中的应用作了理论上的阐述。
本文较为系统地剖析了医疗卫生信息化的概念和内涵,并述评了我国卫生信息化的现状。