论文部分内容阅读
随着互联网的迅猛发展,电子商务产业逐渐迎来兴盛期,在这种商业模式的运作下,网络上产生了大量的商品评论。这些商品评论的质量参差不齐,在给商家和消费者带来巨大信息价值的同时也带来了诸多挑战。相关研究者经过统计发现,在各领域内的商品评论中都存在着大量的垃圾评论。这些垃圾评论有的是与购买商品毫无关系,没有任何参考价值。有的是过分褒贬,内容不真实甚至误导消费者。因此要从这海量的商品评论数据中过滤出有价值且高质量的商品评论就成为了一件亟待解决的问题。网络商品评论数据产量惊人,早以超出人力所能处理的范围,因此使用计算机科学技术去解决这个问题就成为了首要选择。目前国内外对识别出商品垃圾评论这个课题的研究已经逐渐成熟,并且形成了一套行之有效的研究方法。得益于当前机器学习领域的高速发展,现阶段对于这个课题的研究都是依托数据挖掘和机器学习技术来解决的。传统的研究方法是人为的从商品评论中提取出某些对识别商品垃圾评论非常有效的特征,然后人工搜集并标注一批训练数据集来训练机器学习分类器,最终获得商品垃圾评论识别模型的这样一种解决流程。当然这种主流研究方法已经取得了非常不错的效果,但是这种方法也有其局限性所在。传统的对商品评论的特征提取方式并没有深入到评论句的语义层面,他们所提取出来的特征基本上都是一些句子的表面特征,而想要提取出隐藏在语义层面的深度隐含特征,对这种方法来说显然是无能为力的。google在2013年开源了一款能够对文本进行深度表示的模型工具Word2Vec,这款工具能够通过训练某个特定情景下的语料库获得适应于这个情景下的高维词向量表示。经Word2Vec训练出来的词向量具有语义层面的深度表示能力,因此本论文就在这项技术的基础上来研究如何提取出商品评论语义层面的特征信息。本文提出了三个新的商品评论特征提取方法:WV-1、WV-2和WV-3。WV-1采用商品评论句分词的词向量累加的方式来构建,与传统商品评论特征相比,在商品垃圾评论识别的问题上具有非常优越的表现。而WV-2则将WV-1特征和传统商品评论特征结合起来,使它们优势互补,在WV-1特征的基础上进一步提升了识别模型的效果。WV-3特征考虑了词语权重信息,对WV-2特征进行了改进,同样也在商品垃圾评论的识别问题上有良好的表现。这三个特征提取方法成功的将商品评论中语义层面的特征信息表达了出来,对比以往传统的商品评论特征,它们具有十分优越的表现,在同一个分类器下能够显著提升分类器的各项指标。本文在最后一章还简述了基于以上理论的商品垃圾评论识别系统的软件设计过程,成功地将新提出的理论应用到实际场景中,进一步证实了该论文核心理论的可行性和有效性。