基于深度学习的电商平台用户评论情感分类研究

来源 :青岛科技大学 | 被引量 : 0次 | 上传用户:fgh000000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,互联网与大数据深度融合已成为当下技术发展的显著特征。电商平台的发展激增出海量的用户生成内容,挖掘这些海量数据信息,对掌握消费者行为,提升企业核心竞争力至关重要。然而,目前仍存在诸多问题,制约着潜在信息的挖掘。主要归结为三点:一是用户生成数据庞大,单纯依靠人工分析往往费事费力;二是中文语言复杂,机器对语言的理解还不尽人意;三是国内在文本挖掘领域起步较晚,技术体系还不甚完善,仍需不断创新发展。本着在一定程度上简化文本挖掘工作量、提升文本挖掘精度、丰富相关技术体系的目的,本文以大型电商平台用户评论文本为驱动,结合BERT(Bidirectional Encoder Representations from Transformers)预训练模型,突破传统词向量静态表示的缺陷,通过Transformer刻画文本的全局语义信息。在此基础上,构造并设计出BERT+Bi-LSTM+Attention分类模型,提升传统分类任务的准确率。最后,在用户“差评”数据中挖掘用户的“痛点”及其程度分布。本文所做的主要工作分为以下几个方面:(1)提出一种模型迁移方法,将BERT预训练模型在中文评论短文本数据集上进行微调,捕捉文本中的双向词语信息,较好的解决了中文文本中的一词多义词语映射在同一向量中的问题。本文将BERT与BiLSTM结合,并引入注意力机制,提取影响情感极性分类的关键文本特征,有效提升模型分类准确度,并获得较好的分类效果。(2)提出一种基于情感词典和规则的评论文本“痛点”挖掘方法,用以实现对情感分类文本—“差评”文本的深度挖掘。通过提取文本特征词,得出用户的痛点和关注点,利用情感词典对痛点进行计算和量化,从而提出消费者感知质量提升策略和消费者期望控制策略。(3)对上述模型分别进行实验研究和分析。以网络爬虫获取数据和基础数据集IMDB作为两组实验数据,对文本进行二分类。以分类结果中的“差评”数据为数据集,对用户“痛点”进行建模分析,提出针对性的意见和建议。实验证明,本文提出的分类模型可以有效提高分类任务的准确率,“痛点”挖掘模型同样具有便捷性和应用价值。
其他文献
目前,面对全面建成小康社会和实现中华民族伟大复兴"中国梦"的新形势、新任务,各基层央行如何强化央行文化建设,最大限度地充分调动广大干部职工的积极性、主动性和创造性,这
朱钅容基总理今年4月访美为中国加入世界贸易组织(WTO)基本铺平了道路。美国首次明确承诺:“坚定地支持中国于1999年加入世贸组织”。这表明,经过10余年的艰苦谈判,中国加入WTO的愿望有望在今年
与传统的光子治疗相比较,质子束在穿越物质损失能量的过程中,能量的损失率会在其射程的末端形成一个峰,称为布拉格峰,峰值后面剂量迅速跌落为零。基于质子束这一物理优势,将
认缴资本制下认缴资本与实缴资本往往不同步。股东权之基础为股东的出资行为,股东权归属股东自治事项,公司章程的约定具有优先效力。在没有约定的情形下,股东的实缴资本比例
<正> 便秘是猪的一种常见病症,内服药治疗常易发生异物呛肺;肥皂水灌肠,效果又短暂。笔者从1988年3月开始使用大黄巴豆煎液(下面简称煎液)对120例便秘病患猪进行治疗,效果明
<正>鹿结核病是由结核分支杆菌引起鹿的一种慢性、消耗性传染病,多发生于梅花鹿、马鹿、驯鹿和黑鹿中,广泛流行于世界各地,不仅影响养鹿业的健康发展,也威胁人类健康。甘肃武
目的 :探讨临床药师干预对2型糖尿病患者健康管理的影响,为糖尿病患者的健康管理策略提供参考。方法:通过问卷调查方式,比较临床药师干预前后,2型糖尿病住院患者在用药依从性
超级电容器由于其高的功率密度和快速充放电等优势,可以作为新的能源储存装置,但是,超级电容器的功率和能量密度应进一步提高,这其中的关键因素就取决于电极材料的改进。本论