论文部分内容阅读
近年来随着信息技术的迅猛发展,互联网迎来前所未有的新局面。以网络为传播媒介的文本评论信息越来越受到企事业单位和个人的关注。传统的主题分类已经不能满足人们的需求,用户希望得到更多的主观性信息,如:公共事件的社会反映、焦点新闻的追踪报道、产品的用户反馈及民意调查信息等。然而,网上每天都有大量的新评论出现,对于这些评论,仅靠人工进行跟踪和分析显然是行不通的,人们开始关注并研究评论文本的主观性情感倾向分析。 本文针对文本情感分类中的特征选择问题进行了研究,主要内容包括:⑴建立了以汽车产品评论为主的中文文本情感分类语料库,并在此基础上建立了汽车产品知识库。⑵研究了停用词对文本情感倾向性分类的影响。选用信息增益、互信息和x2统计三种特征选择方法,布尔权重和频率权重两种权重计算方法,并选用支持向量机作为分类器进行了实验研究。实验结果表明,当选用不同的停用词表时,它们对文本情感分类的影响不尽相同,停用词表对情感分类作用较大,整体性能效果较好。⑶提出了基于类别区分能力的混合特征选择方法,并测试了其对文本情感分类的作用。该方法是基于词汇的类别区分能力与信息增益相结合的特征方法,讨论了在不同的特征选择方法和不同维数特征空间下对文本情感分类结果的影响。实验结果表明使用混合的特征选择方法要优于使用单一的信息增益方法。⑷从特征选择和维数压缩的角度,提出了基于粗糙集理论的特征选择方法。通过对情感分类问题的分析并结合粗糙集理论,将属性离散化方法用于文本情感分类中的特征选择、维数压缩,利用支持向量机作为分类器进行分类实验。实验结果表明,该方法具有良好的特征可解释性和较好的特征维数压缩效果。