论文部分内容阅读
随着电商行业的快速发展,网络购物越来越受消费者的青睐。在购买手机时,消费者可以根据电商平台上的评论信息,分析手机在“外观”、“价格”、“功能”等方面的表现并做出判断。另外,手机生产商也可以通过分析评论来了解消费者的关注倾向,进而为新款手机的制造提供策略性帮助。本文提出的手机评价模型是以评论语料为依据,通过分析语料来反映消费者对手机某一特征的倾向程度,并为消费者或生产商提供参考。本文从手机的评价信息出发,研究现有评价模型、属性评价结构和属性聚类的相关理论,对相关技术方案深入思考。首先,设计爬虫规则并利用八爪鱼爬虫工具在京东商城上获取5种品牌的手机评论作为参考语料,把其中荣耀手机的评论用于检测模型的评估语料,即单款手机的评论语料;其次,根据现有的中文自然语言处理技术,对参考语料和单款手机的评论语料进行分词和去停用词处理;再次,用预处理过的参考语料训练CBOW(Continuous Bag-of-Words)模型得出参考语料模型,并由此模型得出与手机特征词相关的属性词及其词向量,进而通过Kmeans、谱聚类和SOM(Self-organizing Maps)对属性词的词向量进行聚类,并选取最好的聚类结果确定手机的属性评价结构;最后,依据参考语料模型和单款手机的评论语料的预处理结果抽取出荣耀手机评论中的属性词,结合手机属性评价结构和评价方法,构建某款手机的评价模型并可视化展示。本文利用TOPSIS(Technique for Order Preference by Similarity to an Ideal Solution)方法的思想,通过计算单款手机的评论语料的属性词集合与参考语料的属性词集合的接近程度(即手机特征倾向度)提出手机评价方法。因数据非数值化,故采用计算Jaccard相似系数的方式作为计算手机特征倾向度的方法;又因中文语义的多样性,提出基于语义相似度的评价方法,根据语义相似度阈值的变化反映不同语义层次的手机特征倾向程度。实验表明:SOM对属性词聚类的平均精确率、召回率、F值和准确率分别达到84.4%、80.63%、82.47%、80%,证明通过SOM聚类建立属性评价结构的合理性;其次,基于语义相似度的评价方法更能灵活地反映不同语义层次的手机特征倾向程度,为消费者提供不同精度范围的参考。