论文部分内容阅读
随着网络技术的迅猛发展,Internet已成为越来越多的人们获取信息的重要来源,同时,也成为人们表达自己观点的平台。面对迅速增长的网上评论,如何有效地组织承载着大量信息的数据?如何针对特定的需求获取最新的信息?如何区分有用的信息和无用的“垃圾”信息逐渐成为当前信息科学和技术领域面临的一大挑战。文本情感分类是指通过挖掘和分析文本中的立场、观点、看法、情绪等主观信息,对文本的情感倾向做出类别判断。它可以广泛地应用于社会舆情分析、产品在线跟踪与质量评价、影视评价等方面。本论文针对评论文本的情感分类问题,借助于计算语言学、统计学、机器学习等领域的理论与方法,从词、搭配、产品特征与情感词汇关联对等文本表示的不同语言粒度入手,开展文本情感倾向性建模、分析与计算研究,探索文本情感分类的新技术与新方法。本论文主要研究内容及创新点包括:(1)文本情感分类的特征选取方法本文分别从限定特征选取范围、特征的类别区分能力角度,提出了限定词性词语+信息增益、类别区分能力+信息增益、以及基于词频的Fisher判别准则三种特征选择方法。实验结果表明,类别区分能力+信息增益特征选择方法和基于词频的Fisher判别准则特征选择方法优于限定词性词语+信息增益特征选择方法。(2)汉语情感词语搭配的自动获取方法根据情感词语搭配的特点,本文设计了10种情感词语搭配模式,考察了词语之间窗口长度对情感词语搭配的影响,提出了两个词语之间的关联性度量方法,以及基于搭配模式和词语关联性的情感词语搭配获取方法。(3)产品特征与情感词汇关联对的自动识别方法从词性、词间距、依存语法等影响关联对构成的环境信息出发,本文探索了基于最大熵模型的产品特征与情感词语关联对自动识别方法。提出了基于词性信息+词间距信息和基于依存语法信息的两种最大熵模型的特征构造方法,设计了多种复合特征模板,并在多个句子集上进行了对比实验。(4)文本情感分类的多层次语言粒度分析基于低层语言粒度表示高层语言粒度的思想,本文设计了由词汇(搭配或关联对)→句子→文本的分层次文本表示模型。词汇的情感倾向直接影响更高层次语言粒度的情感倾向,鉴于此,提出了基于同义词的词汇情感倾向判别方法,探索了基于词的搭配及关联对情感倾向判别方法。提出了基于加权线性组合的句子及文本的情感分类方法。(5)基于推广粗糙集模型的文本情感分类方法为使粗糙集理论适用于文本情感分类问题,本文推广了经典粗糙集理论中的数据表示模型,提出了带情感倾向强度的文本向量表示模型;基于情感倾向强度序的属性离散化方法,用于对文本表示维数的压缩;构造了赋权粗糙隶属函数,用于文本的情感类别判定。(6)构建了一个面向用户的汽车产品评价系统利用本论文的理论研究成果,开发了一个面向用户的汽车产品评价系统。