论文部分内容阅读
随着Web2.0的飞速发展,在电子商务网站、专业论坛等网络站点中出现了大量的针对产品或服务的用户评论,这些用户评论中蕴含了丰富的信息,一方面可以促进企业内部的变革,另一方面也影响着消费者的行为模式,有很多证据表明,网上其他用户的评论会影响到消费者的购买决策。通过对产品的评论进行分析,可以挖掘出这些产品的主要特征,进一步发现用户对这些特征的意见和态度,让商家及时的了解顾客反馈,以便更好地调整经营策略,让用户无需翻阅大量评论就找到自己关注的特征信息,以帮助做出可靠的决策。但是,网络评论有形成速度快、交互性强、语言随意性和多变性等特点。面对质量参差不齐且海量的用户评论,要想获得其中有价值的信息,单靠人工的分析方法是不现实的,这需要耗费大量的人力和时间。所以如何用机器来处理用户评论以挖掘出有用的产品信息已经成为一个重要课题,“评论挖掘”正是在此背景下产生并成为了近些年的研究热点。所以为了适应互联网环境,本文选取大众点评网站作为研究对象,编写程序搜集了大众点评网上云南省美食店铺的评论数据,并开发程序对两万多条美食店铺的评论进行分析和处理,对产品特征词的抽取方法和特征词的聚类方法以及情感分析做了详细研究。具体研究内容包括如下几个方面:(1)提出了基于Apriori关联规则算法的产品特征抽取方法,利用与种子特征集合的点互信息和与观点词的共现度对候选特征进行过滤;(2)提出了一种特征自动聚类方法,以特征词间的字符串相似度和语义相似度以及特征所对应的观点词作为衡量产品特征之间关联程度的特征,采用K-means聚类算法对产品特征进行聚类;(3)采用基于语义与向量空间模型相结合的方法进行情感分析判断。为了检验本文提出的评论挖掘研究方法是否有效,从产品特征的提取效果、产品特征的聚类效果以及情感分析三个方面,本文进行了实验验证。本文采用大众点评网对美食店铺的评论作为实验数据进行了实验。从实验结果中可以看出,本文提出的方法行之有效。在文章的最后,对全文进行了总结,并对以后的研究思路和努力方向做了展望。