论文部分内容阅读
在网络上,对大量的评论数据进行情感分析是Web挖掘的最新范畴,受到各个学科的普遍关注。伴随着信息技术的快速成长,人们更加倾向于用网络的方式来购买自己喜欢的东西,中国现在有很多的电商平台,网络购物的盛行为各大电商平台和对应商品的生产厂家带来了机遇,但同时也为各大平台与生产厂家带来了挑战和竞争,所以各个电商如果希望商品销量增长,除了保证正品、提高商品质量和降低商品价格之外,还需要去了解消费者的心声。现在越来越多的人选择在电商平台上购物,很多的电商平台也相应地有了评论系统,用户可以在系统中表达对商品的看法,用户的看法也日渐成为电商平台和生产厂家发展的重要依据。因此对消费者的文本评论数据进行情感分析,可以使对应的生产厂家和电商平台的自身竞争力得到大幅度的提升,可以为相应的生产厂家和电商平台制定新的营销策略。利用计算机帮助生产厂家和电商平台挖掘并处理相关的文本评价信息是本文的重要工作。我们选择京东电商的格力品牌空调的三种产品格力KFR-35GW/(35592)FNhDaA3、格力KFR-72LW/(72596)FNAa-A3、格力KFR-35GW/(35559)FNAd-A3(WIFI),对这三种产品的评论进行挖掘,通过爬虫软件-八爪鱼采集器去抓取2016年7月11日之前的评论数据评论信息。接下来对获取的数据进行基本的数据处理工作,主要有文本去重、机械压缩去词、中文评论分词、去掉英文及英文字符等工作。文本评论数据经过预处理之后,对处理好的文本数据用基于情感词典的方式对文本的情感倾向做判断和处理,从而把文本数据分成积极情绪和负面情绪两大部分;接下来对评论数据进行语义网络分析,构建语义网络,实现数据可视化;紧接着分别对把三种空调产品的正面和负面评论进行基于LDA模型的主题分析,提取三个潜在主题,寻找评论数据中的高频特征词,挖掘商品的特征;最后对空调产品评论数据用tf/idf的方法来提取商品属性,对三种商品的属性做出对比。最后通过上述的分析结果中获取挖掘出文本评论数据中有价值的内容,寻找三种空调中,最具优势和潜力的商品,为京东电商和格力厂商提供建议。