论文部分内容阅读
网络消费者在各种平台上撰写了海量的产品评论,包含丰富的有价值的信息。面对海量评论文本,如何提取出关键信息成为一个棘手的问题。基于自然语言处理技术的在线产品评论观点挖掘是解决这种矛盾的主要思路,具有重要的研究和应用前景。 针对产品评论的观点挖掘旨在挖掘用户评论文本内容,以获取用户对产品要素的观点和需求。现有的研究多是先抽取评价对象,再进行情感极性分析,却没有挖掘出一种直观地、简短的针对各个产品要素的观点概要以供参考。鉴于以上问题,针对产品要素的细粒度观点挖掘是本文的主要研究内容,旨在抽取出评论集中的产品要素,并总结基于这些产品要素的观点。本文的研究主要涉及以下三个任务: 1.观点信息标注。观点信息标注旨在识别出评论中的评价对象、程度词和观点词。鉴于使用条件随机场(CRFs)模型以序列标注任务处理这类问题时需要人工构造语言学特征的缺陷,本文提出一种融合了分布式词向量(Word Embedding)、深度学习与条件随机场(CRFs)的算法框架BLSTM-CRF来标注评价对象、程度词和观点词。具体地,本算法框架使用CBOW模型无监督训练的分布式词向量馈送给双向长短期记(BLSTM)神经网络模型自动学习词序列的语义、上下文、依存句法等特征,再以CRFs层进行解码标注,从而识别评价对象、程度词和观点词。通过实验发现这种结构能充分获取它们在语义、角色上的相互依赖关系,有助于信息标注的准确性。 2.构建观点知识库。在观点信息标注的基础上,对句子中的评价对象和观点陈述(程度词+观点词)按规则进行搭配。本文构建了评价对象和观点陈述的关联关系二部图,同时分析归纳评价对象和观点陈述之间的词性搭配规则、依存句法路径模式,用于筛选不确定的搭配关系,最终生成评论集上的<评价对象,观点陈述>二元组集合,作为产品评论的观点知识库。 3.生成基于产品要素的观点摘要。由于同一产品要素存在多种表述方式,需要把语义相同的评价对象聚合为一类作为一种产品要素,并总结该产品要素的观点。本文提出一种基于词向量的评价对象相似度计算方法,人工给定产品要素关键词,抽取与之最相近的评价对象,并总结其观点。 为了测试本文所提方法的有效性,抓取了某电子商务网站的几种产品评论,人工标注其中部分评论用于模型的训练与测试。实验结果表明,引入深度学习模型的算法框架BLSTM-CRFs能显著提高观点信息标注任务的准确性。在观点信息标注的基础上,构建出了产品评论的观点知识库,并生成基于产品要素的观点摘要。