论文部分内容阅读
细粒度情感分析能够帮助人们提高获取信息的效率,了解公众对某事或某物各个方面的观点。细粒度的商品评论情感分析能辅助消费者做购买决策,帮助生产商改善商品。本文将研究其涉及的三项任务:Aspect抽取、基于Aspect情感分析及Aspect层次结构构建。基于Aspect层次结构的情感分析能够帮助消费者快速定位到感兴趣的Aspect,同时Aspect节点聚集了对应方面的情感极性,能让消费者快速了解Aspect的整体评价。针对Aspect抽取问题,考虑到词语临近上下文对该词标注结果有较大影响,本文提出采用词语级别CNN(Word-level CNN)进行标注,通过卷积窗口捕捉n-grams信息。此外,观察到词形能够反映词性进而影响标注结果,本文提出加入字符级别CNN(Char-level CNN)学习词语的字符组成信息(形态学信息)来增强特征表示能力,即两层级别CNN(Two-level CNN,TCNN)。针对Aspect情感分析问题,已有方法利用上下文为Aspect构造特征,在一个句子中存在多个Aspect的情况会因不同Aspect的特征较相近导致分类错误,对此本文提出了基于注意力机制的CNN(ATtention-based CNN,AT-CNN),让模型自动学习上下文中不同词语对Aspect情感极性的影响权重。此外,考虑到Aspect自身携带信息的重要性,在AT-CNN基础上提出将Aspect信息作为输入一部分的ATtention-based CNN with Aspect Embedding(AT AE-CNN)模型。考虑无监督方法生成的Aspect层次结构准确率较低,文中采用了半监督学习方法,从CNet.com上获取Aspect初始层次结构。由于现有Aspect向量化方法难以区分有相似上下文的不同Aspect,因此在对Aspect聚类时易产生错误,本文提出了基于注意力机制加权上下文的Aspect向量化方法,利用Aspect聚类算法结果完善初始层次结构并聚集与Aspect相关评论中对应的情感极性。为验证本文提出方法的有效性,我们在SemEval提供的两个数据集上设置多组对比实验评估提出的方法。实验结果表明,本文提出的方法相比现有方法取得了更高的准确率和F值,证明了提出方法的有效性。