基于监督学习的文本情感分析研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:Liu234449171
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,微博、社交网、论坛、维基、网络购物平台等社会网络聚集了大量的用户。这些用户不仅是网上信息资源的浏览和接受者,也是所述资源的提供和传送者。这些信息中既有对人、物、事的客观报道,也不乏对人、物、事的主观表达。如何对来自不同社会网络的主观情感表达进行自动分析和处理已成为亟待解决的难题。其中,文本情感分类问题受到愈来愈多的关注,成为当下的研究热点。在众多的文本情感分析方法中基于监督学习的方法是目前最具代表性也是最成功的一种方法。然而,它们在处理情感的歧义性、组合性和隐含性等方面却存在或多或少的不足。随着大数据和深度神经网络技术的兴起和蓬勃发展,深度特征在自然语言信息处理领域得到了越来越多的关注。相比于人工设置的底层特征,深度特征可以更全面、更准确地描述蕴含在文本中的情感信息。在上述研究背景下,本文对文本情感分类问题进行了深入研究。针对文本表达中存在的情感歧义性、组合性和隐含性等问题,在监督学习的框架下开展了文本情感分析改进研究,提出了一些新颖的情感分类方法,期望通过挖掘蕴含于文本中的情感特征来提高文本情感分析的准确性以促进文本情感分析的实用化进程。本文的主要贡献与创新点如下:1.构建了一种多层级情感语料库。针对研究用文本情感语料不足的问题,提出了以词语、短语和句子为标注基本单位的多层级情感语料库构建方案。在词语和短语情感资源构建过程中,使用了如下方法:词典翻译方法和情感词汇扩充方法。前者利用已标注的英文情感词典,将源语言的英文情感词汇翻译成目标语言的汉语情感词汇,从而实现汉语情感词典的构建;后者则是根据已构建的小规模种子情感词汇集合,利用Bootstrapping方法,对其进行适当的扩充以构建更大规模的情感词汇集。在句子级情感语料构建过程中,使用了如下方法:人工标注和基于句子对齐的方法。前者由人工标注完成;后者则根据对齐的英汉双语语料,将源语言的英文情感句子映射为目标语言的汉语情感句子,从而实现汉语情感语料的构建。实验结果表明,所构建的情感语料库可以满足本研究的实际需求。2.提出了一种基于短语的文本情感分析方法。针对文本情感分析中实际存在的情感歧义性和组合性问题,以监督学习为基本框架,从短语层面入手,提出了基于短语的监督学习的文本情感分析方法。该方法首先对输入文本进行短语切分;然后对短语的情感类别进行标注;最后通过对这些情感类别信息进行组合以最终确定整个文本(句子或短文本)的情感类别。在短语切分的研究中,本文以依存句法为切分依据实现了对句子的短语切分。在短语情感类别标注研究中,提出了基于扩展式条件随机场和基于半马尔科夫条件随机场的两种模型,有机地结合了词语与词语、词语与短语、短语与短语之间的相互关系。在句子的情感类别生成过程中,本文设置了几条情感传递规则来实现短语情感类别信息的整合,并据此完成对句子情感类别的判别。在文本情感倾向性和文本情绪分析的实验中,取得明显优于传统方法的结果。3.提出了一种基于主动学习的情感分析方法。在已标注语料缺乏的情况下,研究了如何在监督学习的框架下利用大规模未标注语料以提升所构建情感分析模型性能的问题,提出了一种基于主动学习的文本情感分析方法。该方法以基于短语的半马尔科夫条件随机场为基本分类模型,以基于池的主动学习为基本框架来完成对语料的标注。在样例筛选时首先选择最不确定的训练实例,然后利用聚类差法进行进一步筛选,最后由专家对查询结果进行情感信息的标注。该方法充分利用了概率图模型和自然语言本身的特点,可在训练样本不足的情况下取得较好的标注性能。4.提出了一种基于组合语义特征的情感分析方法。针对基于表面词形的底层特征无法挖掘文本内涵语义信息的问题,提出了基于组合语义特征的文本情感分析方法。组合语义特征是以词语分布式语义模型为基础,针对依存短语模型而构建的能表达语义信息的特征。本文首先提出了组合语义特征的生成算法。然后提出了两种将组合语义特征应用于情感分析的算法:基于组合语义特征的监督学习模型和基于组合语义特征的神经网络方法。上述方法充分挖掘了存在于文本中的语义信息,为隐含情感问题的解决提供了有效途径。
其他文献
青少年违法犯罪固然有社会客观原因和主观因素,但家庭不良因素的影响也是导致青少年违法犯罪不容忽视的原因。家庭不良因素主要有家庭结构残缺、家庭关系恶化、家庭气氛恶劣
<正> “意识”在《心理学》中是个极复杂的概念,它的争论由来已久。但反映在目前国内出版的各种心理学教材上,似乎得到了解决。如华东师大编写的《心理学》认为,“心理的高级
B7-H4是2003年发现的B7家族成员,在T细胞介导的免疫中起负调节作用,尽管其mRNA在淋巴组织和非淋巴组织均有表达,但其蛋白质在正常组织、细胞中不表达或极低表达。研究发现多
目的论证《国家基本药物目录》(2012年版)(以下简称2012版基药目录)中适宜儿童使用的化学药品和生物制品(以下简称化药)。方法依据化药最新版说明书、《中国国家处方集(化学
目的:总结言语障碍的治疗体会。方法:根据116例的诊断分类(其中口吃31例,开放性鼻音16例,功能性失音15例,青春期后假声11例,声带息肉25例,声带结节18例)进行相应的治疗。结果
<正> 资产证券化作为一种结构融资,其核心是将能产生稳定现金流的特定资产与资产原持有人隔离开来,以此为基础发行证券。这一隔离通常需要通过两个步骤完成:一是创设一个特殊
资金是企业发展的血液,融资风险问题关乎企业运营,影响金融市场稳定。当前,经济全球化深入发展,全球经济下行态势明显,国内经济发展进入新常态,国际国内经济金融不稳定因素增
文本情绪分析属于细颗粒度文本情感分析范畴.传统的基于监督学习的方法,大多注重从表面词形提取特征,对语言的结构化特征考虑较少,无法应对特征稀疏问题,也无法挖掘文本中隐
农村干群矛盾的解决的途径在于 :发展农村经济 ,改革农村税费管理体制 ,建设高素质的基层干部队伍 ,推进农村基层民主政治建设。
<正> 金融法从资本市场到资金市场,从保险市场到外汇市场,都要涉及到各种"债权关系"与"物权关系"。这些权利义务关系都会受到外来的四种因素影响。这四种因素分别是:政府、市