论文部分内容阅读
文本情感分类是文本分类一个新的研究分支,其目的是判断一篇文章对评价对象所持有的情感倾向是支持还是反对。它可以广泛应用在文本检索、文本过滤等领域中。
对情感分类的研究,目前国外有些学者初步提出了一些方法,同时还建立了供公开测试的语料库,国内一些学者也开始了在这一领域的研究尝试。
本文在总结前人工作的基础上,从文本中词和短语的分析着手,提出了基于短语模式的文本情感分类算法(PhrasePatternsBasedTextSentimentClassification,以下简称PTSC)。该算法通过分析文本中的情感词以及由这些情感词构造的短语模式,来作为文本的情感特征,并利用这些特征实现文本的情感分类。该算法改善了以往基于统计的文本分类算法因缺乏语义上的约束而在文本情感分类上的不足。
PTSC算法主要包括情感词汇的选取、短语模式的构造、短语模式情感倾向的评价以及文本情感倾向值的判断。算法通过分词、标注、抽取有效的短语、计算全文情感倾向值等步骤实现,文本情感分类的结果依据全文情感倾向值来确定。
该算法在邮件过滤项目中得到应用,达到了较好的查准率和查全率,有效地控制了过滤的误判率,保持了较高的过滤时空效率,取得良好的效果。通过开放性实验验证,基于短语模式的文本情感分类算法过滤的查准率达到了89.8%,查全率达到了93.8%。