论文部分内容阅读
随着信息技术的飞速发展,互联网与大数据深度融合已成为当下技术发展的显著特征。电商平台的发展激增出海量的用户生成内容,挖掘这些海量数据信息,对掌握消费者行为,提升企业核心竞争力至关重要。然而,目前仍存在诸多问题,制约着潜在信息的挖掘。主要归结为三点:一是用户生成数据庞大,单纯依靠人工分析往往费事费力;二是中文语言复杂,机器对语言的理解还不尽人意;三是国内在文本挖掘领域起步较晚,技术体系还不甚完善,仍需不断创新发展。本着在一定程度上简化文本挖掘工作量、提升文本挖掘精度、丰富相关技术体系的目的,本文以大型电商平台用户评论文本为驱动,结合BERT(Bidirectional Encoder Representations from Transformers)预训练模型,突破传统词向量静态表示的缺陷,通过Transformer刻画文本的全局语义信息。在此基础上,构造并设计出BERT+Bi-LSTM+Attention分类模型,提升传统分类任务的准确率。最后,在用户“差评”数据中挖掘用户的“痛点”及其程度分布。本文所做的主要工作分为以下几个方面:(1)提出一种模型迁移方法,将BERT预训练模型在中文评论短文本数据集上进行微调,捕捉文本中的双向词语信息,较好的解决了中文文本中的一词多义词语映射在同一向量中的问题。本文将BERT与BiLSTM结合,并引入注意力机制,提取影响情感极性分类的关键文本特征,有效提升模型分类准确度,并获得较好的分类效果。(2)提出一种基于情感词典和规则的评论文本“痛点”挖掘方法,用以实现对情感分类文本—“差评”文本的深度挖掘。通过提取文本特征词,得出用户的痛点和关注点,利用情感词典对痛点进行计算和量化,从而提出消费者感知质量提升策略和消费者期望控制策略。(3)对上述模型分别进行实验研究和分析。以网络爬虫获取数据和基础数据集IMDB作为两组实验数据,对文本进行二分类。以分类结果中的“差评”数据为数据集,对用户“痛点”进行建模分析,提出针对性的意见和建议。实验证明,本文提出的分类模型可以有效提高分类任务的准确率,“痛点”挖掘模型同样具有便捷性和应用价值。