论文部分内容阅读
随着电子商务的飞速发展,网络购物被越来越多的消费者所认可。大部分消费者都会对自己购买的商品发表评论,这些评论信息为其他消费者提供了参考决策。由于某些利益关系,并非所有的评论信息都真实可靠,虚假的评论会影响到消费者的购物体验甚至会误导消费者做出错误的购买决策,这些虚假的评论统称为垃圾评论。垃圾评论大致可以分为内容型垃圾评论和欺骗型垃圾评论两类。内容型垃圾评论一般为广告、垃圾网页链接、随机文字等无关信息,其主要目的是消息的推广。欺骗型垃圾评论则是蓄意吹捧和诋毁商品的评论,其主要目的是影响潜在消费者的购买行为。本文分析两类垃圾评论的表现形式,设计不同的方法抽取特征,最终融合多维特征使用分类器完成对垃圾评论的识别。主要工作如下:(1)分析内容型垃圾评论的特点,本文设计主题匹配模型抽取评论的主题信息构建特征。该方法首先收集大量的与商品相关的评论文本,抽取其主题信息构建商品的语料库。然后赋予语料库中每个主题词不同权重,并抽取评论的主题信息与语料库进行匹配计算,得出该评论的“主题吻合度”。最后结合从评论内容和用户行为抽取的多维特征,采用监督学习的方法实现对垃圾评论的识别。(2)分析欺骗型垃圾评论的特点,本文基于情感分析提取用户评论的情感信息构建特征,该方法利用深度学习的技术将所有评论进行情感分类,在得出评论情感的正负向后,分析每条评论情感倾向的程度,分别计算其在同类情感评论中的情感偏差。利用情感分类的结果本文总共提取了3维情感特征:评论情感异常度、用户打分与评论情感的一致性、用户所有发布评论的情感复杂度,然后结合多维非情感特征使用监督学习的方法实验对垃圾评论的识别。(3)融合上述提取的特征和传统的文本特征,使用多分类器集成的方法完成对评论的分类。根据随机子空间方法中在处理特征维数不高时的缺点,提出一种基于规则特征抽取的随机子空间方法,改变了传统方法中通过随机抽取原始特征集构建特征子集的方式。通过制定抽取规则,保证了每个成员分类器有一定的准确度,最后比较了3种不同分类器集成方法对垃圾评论的识别效果。