面向电商产品评论的情感分析研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:made121990699
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网络的发展和电子商务平台的迅速崛起,线上购物已经成为主流。在消费者深度参与的同时,网络上出现了大量用户评论信息,这些网购评论中往往蕴含大量有价值的信息。通过对这些文本进行情感分析可以得到关于商品的有用建议和反馈,提高购买效率,还可以找到产品问题,改善不到位之处,提高运营效率。情感分析技术由来已久,从最初的基于词典做规则匹配到提取文本特征后基于机器学习算法做分类,再到当下的深度学习技术。本文以电商网站电子产品评论为研究对象,从深度学习算法和LDA主题挖掘两方面对语料数据进行情感分析。主要内容如下:1)基于爬虫技术从电商网站京东等爬取了大量电子产品评论信息并对其进行文本预处理,通过评分数据和人工情感标注等整理得到本文的训练语料。然后在中文维基百科语料上预训练了word2vec词向量模型并将爬取的语料数据向量化。针对传统深度学习模型CNN,RNN的特点和缺陷,本文提出一种CNN-Bi GRU-Attention复合模型对语料数据进行情感极性分析。首先,利用多通道卷积神经网络提取输入文本不同粒度的局部特征信息,然后连接双向门控循环神经网络(Bi GRU)进行上下文序列学习以记忆长距离依赖信息,这种方式即解决了CNN无法进行上下文序列学习的问题,又能够解决传统RNN模型存在的梯度消失或爆炸问题,最后在Bi GRU隐藏层后引入注意力机制(Attentional mechanism)筛选文本重要特征,使模型更多关注对文本分类更重要的词语,提高分类效率。通过设置多组对比实验,结果表明本文所提出的CNN-Bi GRU-Attention模型在电子产品评论数据集上的情感极性分析效果要优于其他复合模型,准确率达到93.09%,F1值为92.96%。2)对上述CNN-Bi GRU-Attention模型调参后重新实验,发现模型性能提升不明显,准确率之间相差不大,泛化能力有待提升,且word2vec为静态词向量模型,虽然通用性强,但无法理解上下文一词多义等复杂语境且无法针对特定任务做动态优化。故在上述基础上,同样基于中文维基百科语料预训练了一个BERT模型,提出一种BERT-Bi GRU网络进行分析。BERT模型内部采用多层Transformer Block结构,使模型可以学习到上下文相关的双向特征表示等深层次语义信息。通过在数据集上进行实验,结果表明预训练语言模型BERT能够获得更好的语义特征表示,相较于word2vec静态词向量无法理解一词多义等复杂语境的问题,BERT-Bi GRU模型有更高的分类准确率和泛化能力,F1值达到95.78%。为了在极性分析的基础上获得更细粒度的信息表示,本文在最后对已分类的评论文本进行LDA主题挖掘,进行文本主题提取和主题情感分析,并根据结果对消费者和商家提出相应的建议。
其他文献
人脸识别系统将从摄像头读取到的人脸图像与事先存好的标准人脸进行比对,我们把存储标准人脸图像的库称为原型图像库。作为人脸识别系统的基础,原型图像库设计的好坏与否,对整个系统的识别性能影响很大。目前原型图像库构建大多停留在人工采集标准人脸的方法。为降低构建时所耗费的经济、人力成本,论文设计了一种原型图像库的构建技术,由基础支撑和扩展支撑两方面组成,将用户自行上传的图像作为标准人脸,省去了专门的人脸图像
学位
随着电子商务产业的迅猛发展,越来越多的消费者选择在电商平台购买产品和服务,而对于该商品的评价是消费者选择购买与否的一个重要参考。虚假评论隐藏在电商平台的海量评论数据中,对消费者有效选择商品会产生严重干扰。为进一步实现对虚假评论的有效识别,以电商平台的评论数据为切入点,构建了有标注的中文虚假评论数据集,基于一个双层图卷积网络建立了一个虚假评论识别模型,且在模型的基础上设计和实现了一个电商平台虚假评论
学位
随着计算机技术的进步,人们越来越依赖于方便快捷的网络购物,从而带动了我国物流业的发展。随着快递使用人数的增多,快递面单泄漏用户隐私信息的事件层出不穷,对快递用户的财产乃至人身安全造成危害。因此近几年来,保护快递隐私信息成为物流业研究的重点。为了解决快递面单隐私泄漏问题,在分析了现有隐私保护方案的基础上,根据系统的实际需求,设计了一种基于身份加密(Identity Based Encryption,
学位
近年来随着人工智能技术的发展,越来越多的领域开展了自动评分方面的研究。中文论述题评分是考试自动评分中较为重要的一个领域,人工评分过程往往要耗费较多的人力资源,并且不能完全保证公正性,而设计实现一个完备的中文论述题自动评分系统将有效解决这几个问题。目前自动评分在中文论述题领域方面的技术仍然不够成熟,存在着准确度低、适用性窄等较为普遍的问题,中文论述题因为判分过程较为复杂,无法用简单的自动评分系统进行
学位
防范影子银行风险是防范系统性金融风险的关键。作为影子银行的重要组成部分,资管行业的高速发展,在实现居民财富保值增值、拓展银行新利润渠道的同时,也给金融系统带来了潜在的风险。本文选取双重差分法,使用2016—2019年15家上市银行的季度数据,实证检验了2018年严监管政策——资管新规对银行盈利能力的影响。结果表明:资管新规显著降低了银行的盈利能力;当银行业务更多元,面临更高风险时,资管新规的负面影
期刊
随着信息技术的飞速发展,企业的应用数据正经历着爆发式增长。由于团队逐渐庞大,随之而来会遇到诸如数据不一致、读脏数据等数据质量问题。面对多源的数据,传统的数据管理与服务方案如今已难以满足大规模高复杂度的企业应用需求。规则引擎作为通用的策略规则管理框架为解决问题提供了新的思路。已有的技术受限于单体应用架构或特定规则引擎框架,导致其系统耦合度高、规则处理不可定制,难以承受多任务、大吞吐量的应用需求。对此
学位
随着互联网技术和深度学习技术的不断发展,人们越来越关注成本低、灵活性高和性价比高的在线教育,将深度学习应用于在线教育系统也得到了快速发展。客服业务是各大企业和用户交流沟通、获取用户体验、服务用户的重要一环。将基于深度学习的在线教育应用于客服业务将大大提高客服业务的效率,并节省很多成本,所以打造一款在线客服智能教育系统有着重要的作用。设计了一种在线推理算法和离线算法训练相结合的智能评分系统。在线推理
学位
作为信息抽取系统的一个重要环节和基础技术,命名实体识别任务的目标是从非结构化的文本中提取出含有特殊意义或有指代性的词语,其识别结果被用于关系抽取、文本摘要等。对于中文命名实体识别而言,句子的表达是字符接着字符的。尽管一些研究工作在中文分词中取得了成果,但分词误差仍然存在并影响下游模型的识别效率。因此,中文命名实体识别模型通常是基于字级别的,但基于字级别的模型忽略了中文词汇的语义信息,而词汇信息对于
学位
随着移动互联网的飞速发展,网络购物与社交媒体占据了国民生活中的大量闲时流量。大数据时代,为了挖掘用户对商品的偏好,将电商平台的商品数据与用户的社交信息结合可以有效筛选出热点信息,发掘用户潜在的兴趣点并进行针对性的商品推荐。传统的基于内容的推荐系统、协同过滤推荐系统只能通过用户的历史购物记录进行推荐而无法发掘用户潜在的偏好。而基于深度学习的推荐系统又受到机器算力的制约,且无法对推荐结果进行解释。因此
学位
本文运用"相对价格法"研究了汽油、柴油和电力等中国能源市场分割状况及其对中国全要素能源效率的影响。研究表明,中国能源市场分割呈现倒U型曲线,能源调出区市场分割情况更为严重。中国全要素能源效率呈现N型走势,能源调出区全要素能源效率更低,呈现出"能源效率诅咒"。市场分割对全要素能源效率的影响呈现U型曲线,超过97.59%的样本点表明,降低市场分割水平有利于全要素能源效率提高。据此,本文认为,推进能源市
期刊