论文部分内容阅读
近年来社交媒体蓬勃且迅速的发展,使其成为了全世界最大规模的公共数据源。文本作为社交媒体中一种重要的信息载体,有着指数级增长趋势且蕴含着极其丰富的研究与商业价值。文本情感分析作为分析文本的主要技术之一,可作为分析社交媒体文本的必要手段及技术支持,因此面向社交媒体文本的情感分析技术应运而生。面向社交媒体文本的情感分析主要包含情感信息检索、情感信息抽取、情感分类、情感归纳四大任务,实现对用户在各种网络平台中所表达观点、倾向等主观性文本进行分析与挖掘,进而获取用户所生成文本的倾向性和话题等重要信息,以辅助不同用户、研究者、商业组织及政府机构的决策需要。本文结合社交媒体文本情感分析的任务,分别从如下几个方面进行了创新性研究,具体完成的工作主要包括:1、针对社交媒体文本中的关键信息抽取问题,本文研究了如何从产品评论语料中准确且高效地抽取产品属性的信息,提出了将同一句子内部的局部信息与不同句子间的全局信息进行融合的方法,实现了对产品评论语料中的产品属性抽取;然后在依据其重要性对产品属性加以归并及排序,从而发现产品中的重要属性。实验结果表明本文提出的融合全局信息与局部信息的产品属性抽取方法适用于产品属性抽取任务,并能在一定程度上提高产品属性抽取的精度。2、针对社交媒体中文本情感复杂多样的特点,本文研究了如何将认知思维模式引入社交媒体文本情感分析中,并用于指导情感分类任务。对于不同民族和区域所存在的思维模式差异现象,及其所引发的语言与情感表达的多样化问题,本文提出了度量思维模式差异的具体模型,并利用思维模式差异模型来指导社交媒体文本情感分类,分别以中英文语料作为实验对象,实验结果表明在中英文语料中考虑各自思维模式特点有助于提高社交媒体文本情感分类的精度。3、针对社交媒体平台中层出不断的热点事件,本文研究了如何从海量微博信息中发现热点事件,并以新浪微博作为研究对象。依据当微博平台中热点事件出现时,用户的情感发生波动,所发微博中情感词数量增多的现象,提出了情感分布语言模型。通过分析相邻时段间情感分布语言模型的差异,实现了对微博平台中热点事件的发现。实验结果表明本文提出的方法可以有效地从微博平台中发现热点事件,并且有助于对微博平台中热点事件的管理和监控。4、针对社交媒体平台中的海量信息缺乏归纳的问题,本文以新浪微博作为研究对象,提出了一种基于权重量化的微博热点事件摘要生成方法。该方法融合微博信息熵、话题的重要性及微博在话题中的重要性等因素,并以话题中转发度最高的微博为中心,结合停用词比例及与中心微博的编辑距离等统计特征对候选微博进行排序,从而完成热点事件摘要生成的任务。在新浪微博数据集上的实验结果表明本文提出的方法可有效地对微博平台中的热点事件进行摘要生成,可以用于对新浪微博平台中的热点事件摘要生成与监管。