基于多特征融合的主题模型的微博情感分析方法研究

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:Carlower
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交平台的日益普及,微博因其文字短小、传播速度快受到了广大网友的喜爱,微博文本中蕴含的海量信息也从商业、政治、娱乐等不同方面带来了巨大价值,从而引发了学者们对微博文本的情感分析技术的深入研究。如何在控制成本、保证分类效果的前提下,对微博文本进行高质量的情感分析,是一直以来的研究热点。本文立足于无监督学习,将传统的主题模型与微博文本复杂的各项特征相结合,提出有效的主题情感模型,从而对微博文本进行情感分析。首先,针对JST(Joint Sentiment/Topic model)模型在中文微博情感分析领域建模时微博特征缺失的问题,在模型中引入了表情符号和用户性格情绪特征,通过情感先验的方式引入了表情符号对微博文本情感的影响,并对文本中表情符号的分布进行建模;依据“情感一致性”理论提出了一种基于时间的用户性格情绪特征建模方法,将用户性格情绪特征纳入主题模型中,然后在此基础上提出了基于用户性格情绪参数的改进主题情感模型(Joint Sentiment/Topic model based on User Character,UC-JST),通过实验验证了模型的可行性和有效性。然后,针对ASUM(Aspect and Sentiment Unification Model)模型在中文微博情感分析领域建模时忽略上下文语义的问题,在模型中引入中文语义规则中常用的四种句间关系“转折、假设、递进、因果”,将每种关系转换成句间关系向量来反映情感变化,从而进行情感建模;考虑转发微博和原创微博讨论的主题相关性以及潜在的语义关联性,利用微博转发符号对微博的主题进行建模,在此基础上提出了基于中文语义规则的改进主题情感模型(Aspect and Sentiment Unification Model based on Semantic Rules,SR-ASUM)模型,对其有效性进行了实验验证。最后,将UC-JST模型中的表情符号、性格情绪参数和SR-ASUM模型中的转发符号、中文语义规则相结合,并针对JST模型的强假设“文档中的每一个词语都有不同的主题和情感”和ASUM模型的强假设“句子中的每一个词语都具有相同的情感和主题”的不足,提出了弱假设“分句中的每一个词语都具有相同的情感和主题”,在此假设的基础上提出了基于多特征融合的主题情感模型(Weibo Sentiment Topic model based on Muitiple Features,WSTMF),融合了典型的中文微博特征,最终通过实验验证了WSTMF模型具有较好的情感分类效果。
其他文献
在中国经济发展方式转型的关键时期,探求创新的空间结构及影响因素,有助于加强对我国技术创新发展规律的理解,促进创新政策的完善。为了解决以往研究中存在的可塑性面积单元
信任是当今心理学与社会学研究的热点问题,是各种组织环境中必不可少的协调机制,很多研究长期以来一直强调信任的积极影响。但是,如果没有把信任用对地方,信任也会功能失调,产生消极影响。因此,精准地将信任运用于各种社会组织环境对完成一项高质量的工作就显得尤为重要。但是,信任准确度的情境预测因素的探究非常有限。虽然许多研究在探究人际信任现象时主要关注特质水平预测因子,例如个体的广义信任倾向或受害者敏感性等,
通信工程和计算机技术的迅速发展将人类社会带入到了信息时代,数据库中存储的数据量也急剧增大,如何在海量数据中分析和获取有价值的知识成为人们日益关注的问题。文本聚类分析是信息数据挖掘的一个重要研究方向,可以直观地反映数据间的分布特点,更好地发现数据集中内在的类别特性。K-Means算法作为聚类分析算法中最为普遍应用的算法之一,尽管时间复杂度较低且易于实现,但在处理具有高维性和稀疏性的数据时,容易出现局
作为一种重要的有机化工中间体,二苯甲烷二异氰酸酯(MDI)广泛应用在聚氨酯(PU)、涂料、胶粘剂等行业。目前,MDI主要通过光气法生产。其原料光气剧毒且副产物HCl腐蚀性较强。
等离子体医学是等离子体与临床医学等学科相融合的新兴交叉领域,其中气相区活性氧和活性氮物种(Reactive Oxygen Species and Reactive Nitrogen Species,RONS)的原位定量诊断
在如今高速发展的科技时代中,机械臂在制造业、农业、医疗业等都得到了广泛的应用,与之相关的机械臂控制技术研究也自然成为了学者们着重关注的方向。为了完成任务,机械臂通常需要在给定的时间内精准地按照预定的轨迹运动,也因此轨迹跟踪问题成为了机械臂控制技术研究中关键的一点。外部干扰作为影响机械臂轨迹跟踪性能的主要因素,当其可以被检测到时,前馈方法可以很好地减弱干扰带来的影响。然而,外界干扰通常难以测量,所以
随着信息技术的高速发展,数据的规模呈现指数级别增长,如何从这些数据中发现潜在的、价值高的信息是目前数据挖掘领域面临的主要挑战。伴随着数据流的出现,针对数据流的挖掘
传统的搜索引擎以关键字组合的方式进行检索,返回一系列相关网页,需要用户进行多次筛选才能获得需要的答案。知识库问答系统融合了信息检索(Information Retrieval,IR)和自然
当前是我国经济面临着转型升级的关键时期,国内供给侧结构性改革蓬勃展开,国际上要应对美国的贸易战。为了国内经济成功转型以及应对一系列国际挑战,此时对技术创新对产业结构的影响进行更深入的研究非常有意义。总体上技术创新资金投入主要是试验发展的资金投入和企业资金对二三产业的产值结构有正向的促进作用,即能显著地相对提高第二产业的产值比例。应用研究和试验发展的人力投入都对二三产业的就业之比有显著影响,但应用研
随着无线通信技术的飞速发展,卫星通信技术在社会的各个领域得到了广泛的应用。卫星通信是地面通信的重要补充和延伸,可以在海洋、沙漠等无法建造地面基站的地区提供通信服务。但是面对日益复杂的电磁空间坏境、对通信卫星有意无意的干扰问题,如何快速准确的对干扰源进行定位显得尤为重要。首先,本文对卫星通信系统中基于时差和频差联合的无源被动定位技术及系统进行综述,分析了无源被动定位技术的研究背景和意义,同时对无源被