基于表示学习的情感分析关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gjzd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分析技术可以挖掘互联网文本中蕴含的情感信息,使我们高效的了解人们针对某实体的观点,并根据这些观点做出决策。然而当今互联网应用中的文本特点却对传统情感分析技术形成了挑战:首先,无标注文本的数量越来越多,标注文本却始终稀缺,如何利用无标注数据提高情感分析方法的性能,是目前亟待解决的问题;此外,文本变得简洁且随意,这使得基于词袋的传统特征面临严重的稀疏性问题;另外,不同应用场景的互联网产品层出不穷,针对性的特征工程耗时较长,难以适应快速迭代的文本的分析需求。词向量特征(即词的分布式特征表示)可利用无监督方法训练得到,可以有效利用大量无标注数据;相似的词对应的词向量相似,因而,词向量作为特征可以起到平滑的作用,缓解稀疏性问题;基于深度神经网络的方法可以组合词向量,自动学习文本的抽象表示,无需耗费人力设计特征。因而,基于分布式特征表示和深度神经网络的表示学习技术,具有解决文本情感分析所面临的一系列问题的潜力。论文主要研究如何利用表示学习技术解决情感分析中的若干关键问题。具体的,我们研究了利用含有门控操作的循环神经网络组合模型进行句子表示、句子序列的表示、词表示的方法以及词表示的改进策略,并将其应用于情感分析中的句子情感极性分类、情感表达抽取、情感对象属性抽取和多轮对话中的情绪预测四个任务。本文的主要内容包括以下四个方面。针对互联网短文本表达多样且规范性差带来的极性分类特征稀疏问题,本文提出了利用基于门控操作的循环网络组合模型进行情感语义表示学习的方法,并利用情感信息的抽象表示进行情感极性分类。实验表明,这一方法可以有效识别文本的极性类别。此外,文本对网络训练过程中的词向量变化进行了研究,并结合长短时记忆单元的内部结构,对二者协同作用,模拟词与词间交互的机制进行了探讨。文本中的情感表达方式多种多样,难以总结其共性,隐式的情感表达往往不含情感词,更不易被传统的词袋特征所覆盖,且现有表示学习方法灵活性不足。为了解决这一问题,本文提出了基于长短时记忆网络的序列标注方法,以学习词的抽象语义表示,进而完成识别和抽取。实验表明,通过引入双向连接网络结构,长短时记忆网络可以有效提高情感表达的抽取性能。此外,还针对长短时记忆网络有能力进行信号分离和信息选择的特点进行了研究,探讨了该结构在序列标注过程中的优势。情感对象的属性识别与候选文本中的词的联系密切,因而,词向量的质量直接影响着抽取的性能,但词向量作为词的分布式表示,本身存在诸多问题:其向量表示与对应词的功能间存在鸿沟,统计信息缺失,且具有意义上和功能上的歧义性。为解决这些问题,论文针对性的引入了基于依存句法的词向量和基于外积矩阵的扩展方法,并提出了基于长短时记忆单元特化输入门的词向量特化策略。实验表明,这些方法能够有效改善词向量,并提高属性抽取模型的性能。发现人机多轮对话中的用户负面情绪,可以为对话技术的评价和改进提供依据。然而,现有人机交互的方式使得我们难以直接获得用户的负面反馈。通过多轮对话的上下文预测用户的情绪则是获得此类信息的一种方法。我们对多轮对话的已知句子中可能影响用户情绪的多种因素提出假设,并针对性的建立了神经网络模型学习这些因素的抽象表示,用以预测用户的情绪反馈。实验结果表明,基于卷积循环神经网络的方法可以有效表示多轮对话中的文本序列和关系序列,从而并对用户情绪做出有效预测。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
在很多射频识别(Radio Frequency IDentification,RFID)应用中,为获得识别对象的实时数量与种类信息,或者为达到100%的识读率,读写器需要重复识别其覆盖范围内的标签,这种情
近年来,以大数据、云计算、物联网、移动互联网等为代表的互联网新兴技术已经成为国际社会普遍关注的热点,在金融、军事、科研、通信、医疗等领域都引起了人们的高度重视。目
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
贵州石头寨二叠系古油藏是滇黔桂地区众多上古生界生物礁型古油藏的典型代表。该古油藏发育了三期溶孔、裂缝充填方解石,其中含丰富的油气包裹体,三期油气包裹体组合依次为:
近年来,随着数据获取能力的不断提高和计算机的飞速发展,人们获得的数据信息越来越多,数据维数越来越高,如何寻找这些海量高维数据信息中潜在的规律,更好地为人类服务,是目前
构造安全的新型加密方案和利用加密方案设计高效的安全协议是网络空间信息安全研究的主要热点。本文的工作主要体现在两个方面:(1)具有新性能公钥加密方案的构造和安全性分析
目的:分析山西省阳泉市2008年中小学生恒龋流行现状和龋患程度,为龋齿防治工作提供依据。方法:收集市直管中小学校2008年的健康监测资料,分析恒龋患病情况。结果:恒龋患率为10.11%,龋
数据匿名是一种基于模糊和隐藏的隐私保护技术。现有的数据匿名技术主要通过泛化、抑制等方式实现数据的匿名化,降低攻击者获取用户身份和敏感信息的概率,保护用户隐私,同时
化疗药物在发挥抗肿瘤作用的同时,也会对包括免疫细胞在内的正常细胞产生杀伤作用,从而抑制机体的免疫功能。然而近年来的研究发现,包括吉西他滨在内的部分化疗药物可通过不同途