论文部分内容阅读
随着Web2.0技术的蓬勃发展,互联网上产生了海量的用户评论信息,如何从这些评论中挖掘出有价值的信息,越来越受到研究者们的关注。从产品评论中挖掘意见信息,一方面可以帮助用户在购买产品时作出决策,另一方面可以帮助商家即时了解用户对自己产品的意见。情感标签由评价对象和评价词组成,包含了用户评论的详细信息,能够有效地体现出用户评论的核心内容。为此,本文针对情感标签抽取中的三项任务:评价词集构建、评价对象识别以及情感标签抽取进行了深入研究。在评价词集构建中,为了构建准确且全面的评价词集合,本文采用了融合语义知识库和大规模语料库的方法来获取候选评价词集合,进而通过候选评价词在语料库中的上下文为其设置置信度,根据置信度来度量候选评价词正确的可能性,最终选取置信度较高的评价词构成评价词集合。使用本方法构建的评价词集合参加了第一届中文倾向性分析评测中的任务一,取得了较好成绩。在评价对象识别中,本文首先基于短语结构获取候选评价对象集合,进而针对评价对象具有领域相关性的特点引入了基于网络挖掘的PMI(Pointwise mutual information)值过滤方法,针对评价对象中的名词冗余现象引入了名词剪枝算法,最终对评论句进行分类,以评价对象集为基础找出评论文本中用户进行评论的评价对象。本方法实现的系统参加了第一届中文倾向性分析评测中的任务三,取得了较好成绩。情感标签抽取方面,本文提出了基于短语句法路径的情感标签抽取方法,本方法通过句法关系挖掘评价词与评价对象之间的修饰关系,解决了就近查找方法存在的经验性过强问题,同时,本文采取全自动的句法路径库获取方法,解决了传统人工制定规则方法存在的规则覆盖不全的问题,最后,本文在句法路径匹配的过程中引入了编辑距离进行松弛,从而有效的提高了系统召回率。最后,针对传统情感标签抽取方法无法解决的隐式标签抽取问题,本文尝试使用主题模型对文本进行情感标签标注,提出了基于互信息和基于概率相似度的两种具体标注方案,实验结果表明主题模型在抽取隐式标签时能够起到一定的作用,本文最终对主题模型应用于情感标签标注存在的问题进行了详细的分析。