论文部分内容阅读
2015年,中国国内网络零售交易额已经达到3.88万亿元(同比增长39.07%),相当于同期社会消费品零售总额(共计300931亿元)的12.89%,网络购物已成为中国国民进行购物的重要渠道。其也是传统购物方式的重要补充,能起到提升交易效率、改善社会资源配置的作用;但网络购物中买卖双方地理分离等特点,加剧了商品销售过程中的信息不对称现象。为应对相应问题,网购平台设计了商品评价系统、卖方信誉体系等增信措施以维护买方利益。与此同时,有部分卖方发现选择虚假成交、虚假评价等方式能够改善自己的部分展示指标,从而获得排名提升、流量增加、流量转化订单率增加的收益。这种现象就是本文所研究的刷单现象,其危害包括造成买方与不刷单卖方的损失,进而对网购平台造成资源挤出,甚至会影响交易效率与社会资源配置。本研究设计了刷单行为的识别措施,以帮助监管方识别出存在刷单嫌疑的对象以进行重点关注、检查。以监管方视角应对该问题有其恰当性:在识别措施中,分析刷单行为涉及的责任主体(买方、卖方、平台方与监管方),同时考虑质量管控体系,对各方特点分析并以因果图法梳理刷单发生原因后,明确以监管方视角应对刷单现象是恰当的。在确定应对视角后,本研究为监管方设计了信息获取、文本挖掘筛选,后进行异常态识别的全套措施。在信息获取方面,考虑到研究对象为购物平台上的商品,同时考虑后续研究需要包括时间、用户名、销售、评价类型、评价内容等信息,本文选择八爪鱼网页爬虫软件,进行逻辑架构设计以爬取商品的这部分信息。在进行信息获取之后,开展后续的识别措施设计。其中文本分析模块包括文本挖掘与描述性统计分析两个过程。文本挖掘过程包括以文本挖掘技术将采集到的评价文本进行分词、聚类与词频统计,提取评价文本之中的有用词以供分析;对整条在线评价的情感倾向进行测量,将文本信息转化为情感得分,以实现不同商品在线评价之间的横向比较。描述性统计分析依旧从词的分析与语句的分析两个等级上展开,包括对采集到的商品进行评论的单评价平均有用词数、积极词占比、消极词占比横向比较,对在线评价的平均情感得分进行横向比较,以描述性统计分析的方法确定可疑商品进行最后阶段分析。在以文本挖掘方式获取分析目标后则以统计方法进行异常态识别。正常的销售过程与刷单性质的销售过程存在差异,故本文将这两个过程分别定义为正常态与异常态两个状态。在进一步研究中将常见的刷单现象分解成刷销量、刷好评、刷评论三个细分类型,明确三种情况分别对应的异常现象为销量异常、好评异常与在线评价异常,将对刷单现象的识别转化为异常态的识别。运用的方法包括:以标准差限、箱线图等识别销量异常点,并以ARIMA模型进行异常点与异常原因验证;以趋势拟合方法寻找好评率的异常趋势,再以异常点的识别方式进行验证;以趋势发现的方法寻找在线评价存在的异常现象,再以holt趋势的指数平滑法进行验证。进行识别原理分析与措施设计之后,本文以设计的方法对M购物平台上商品进行了刷单现象的识别研究。成功识别出两件存在刷单嫌疑的商品,可供监管方作为重点被监管对象,验证了方法的有效性。本文在一定程度上弥补了刷单现象识别这一研究领域的空白,并为完善网络购物中质量监管措施作出了相应贡献。本文在最后一章进行总结并向监管方提出建议,在研究的最后提出了文本挖掘、机器学习这个未来研究思路。