论文部分内容阅读
现今,互联网购物已经逐渐成为消费的主要模式,在中国国民的购物消费中,网购消费比重逐年增大。半数以上的消费者在网购后会对所购买的商品进行评论,而超过七成的消费者在选购商品时会浏览商品评论。可见,商品评论数据已经成为消费者做出购买决策的重要依据。据新浪财经报道,2016年天猫双11全球狂欢节总交易额超1207亿人民币,覆盖235个国家和地区,而伴随网络购物产生的商品评论数据也早已经到了TB级别。对于如此大的数据量,消费者逐条浏览商品评论数据已经变得不现实。但是如果只阅读部分商品评论数据往往会造成以点概面的问题。同时用户在选购商品时,会去各类网站查询商品参数,有时单个网站还不能满足用户需求,需要查询多个网站来获取商品参数。为了解决该问题,急需一款强有力的商品评论分析工具,使消费者能全面地、及时地获取商品评论的分析信息,并且可以查看商品参数信息,帮助消费者做出购买决策,降低选购繁琐度。本文研究的主要内容如下:(1)商品评论数据的获取与预处理。分析国内热门电子商务网站,京东、淘宝和亚马逊的防爬虫措施。针对不同的防爬虫措施,提出相应的解决方案,并利用爬虫爬取商品评论数据。对于爬取下的商品评论数据,分析其中问题,提出解决方案,帮助下一步的情感分析,减轻人工工作量。(2)商品评论的情感分析。对商品评论进行语法语义分析,根据分析结果,利用Bootstrapping算法,结合规则与PMI方法,构建适合商品评论的情感词词典和评价对象词典。通过情感词词典和评价对象词典,利用规则抽取评价对象-情感词对。并建立商品特征与评价对象的映射关系,方便之后的分析结果展示工作。(3)商品评论情感分析结果的展示。利用Django框架,设计并实现商品评论情感分析系统。系统具有商品参数信息模块、品牌参数信息模块、商品情感信息模块、品牌情感信息模块、对比模块和推荐模块。参数信息模块的作用是为了减少用户选购商品时查询商品信息的繁琐步骤。情感信息模块则是从不同角度对比展示情感分析的结果,使用户轻松获得商品评论中蕴含的情感信息。对比模块和推荐模块则是结合商品评论情感分析结果和参数信息,帮助用户选购商品。另外,本文还对相关技术与理论基础进行了介绍,包括点互信息技术、句法分析、语义技术平台和Bootstrapping算法。本文建立适合于商品评论的情感词典和评价对象词典;利用词典抽取评价对象-情感词对,并建立评价对象和商品特征的关系;利用情感分析结果构建商品评论分析系统。该系统旨在帮助用户降低选购商品繁琐度,使用户能够清晰全面地了解商品评论中蕴含的信息。同时根据本系统的推荐和对比功能,帮助用户做出最终购买决定。