论文部分内容阅读
购物网站或者APP中的在线商品评论是用户生成内容(User GeneratedContent,UGC)的一个重要体现,对于辅助消费者购买决策及帮助商家改进商品和服务具有极大意义。然而,随着互联网技术对人们生活的渗透,在线评论等UGC也呈现爆炸式增长。这些在线评论质量参差不齐,使得消费者从大量评论信息中找出有用的信息变得越来越困难。另一方面,不同的消费者对信息的需求点不一样,然而现有的评论系统没有对评论进行有效地分类。为了解决这些问题,本文提出了一种分主题在线评论排序方法。通过抽取评论主题,可以将评论信息按照主题聚类,从而帮助消费者快速定位到想要的信息;通过评估评论的有用性,可将对消费者有用的评论排在前面;从而最终挖掘出不同主题下的高质量评论。为了探究什么样的评论对消费者来说是有用的信息,本文开展了评论有用性影响因素研究。本研究基于美团网7.2万的旅游评论为研究对象,以在线评论有用性投票数为因变量,从评论者历史评论信息、评论信息质量、评论极性三个方面,构建了评论有用性影响因素模型。针对在线评论有用性投票数0值较多的问题,本文利用零膨胀负二项模型替代传统的线性回归模型,对本文的数据进行了实证分析。研究结果表明,评论长度、评论图片数量、评论者历史发表评论数、评论者历史发表评论的平均投票数、评论文本情感极性对评论有用性投票数具有正向影响。而评论评分对于增加评论有用性投票数没有影响,而对评论投票数是否为0值具有解释作用。低分评论相对于高分评论,评论投票数为0的可能性更小。最终本文基于数据分析结果确定了评论有用性计算模型。为了对评论进行主题抽取,本文开展了基于LDA模型的评论文本主题抽取研究。除了评论分词与建模、最佳主题数确定及参数设置等LDA中常见技术问题外。本文针对评论文本中垃圾评论较多的问题,对评论文本中的垃圾评论特点进行了总结,提出了两种识别垃圾评论的办法。同时,针对LDA所训练出的主题质量不一的问题,从主题语义一致性角度,利用UCI和UMass两种办法对高质量主题进行了筛选。实验结果表明,UCI和UMass两种办法均对主题筛选具有较好的效果。最后,基于评论有用性研究及评论的主题抽取研究,本文确定了评论的排序权重及主题抽取方法。最终对武汉欢乐谷的评论数据实现了分主题评论排序,并通过调查问卷方法验证了排序的有效性。问卷的数据结果表明,本文提出的分主题在线评论排序方法,能够从主题相关性及评论有用性角度,筛选出各个主题下对消费者有用的评论。