基于词向量和深度学习的产品评论观点挖掘

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:a372092
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络消费者在各种平台上撰写了海量的产品评论,包含丰富的有价值的信息。面对海量评论文本,如何提取出关键信息成为一个棘手的问题。基于自然语言处理技术的在线产品评论观点挖掘是解决这种矛盾的主要思路,具有重要的研究和应用前景。  针对产品评论的观点挖掘旨在挖掘用户评论文本内容,以获取用户对产品要素的观点和需求。现有的研究多是先抽取评价对象,再进行情感极性分析,却没有挖掘出一种直观地、简短的针对各个产品要素的观点概要以供参考。鉴于以上问题,针对产品要素的细粒度观点挖掘是本文的主要研究内容,旨在抽取出评论集中的产品要素,并总结基于这些产品要素的观点。本文的研究主要涉及以下三个任务:  1.观点信息标注。观点信息标注旨在识别出评论中的评价对象、程度词和观点词。鉴于使用条件随机场(CRFs)模型以序列标注任务处理这类问题时需要人工构造语言学特征的缺陷,本文提出一种融合了分布式词向量(Word Embedding)、深度学习与条件随机场(CRFs)的算法框架BLSTM-CRF来标注评价对象、程度词和观点词。具体地,本算法框架使用CBOW模型无监督训练的分布式词向量馈送给双向长短期记(BLSTM)神经网络模型自动学习词序列的语义、上下文、依存句法等特征,再以CRFs层进行解码标注,从而识别评价对象、程度词和观点词。通过实验发现这种结构能充分获取它们在语义、角色上的相互依赖关系,有助于信息标注的准确性。  2.构建观点知识库。在观点信息标注的基础上,对句子中的评价对象和观点陈述(程度词+观点词)按规则进行搭配。本文构建了评价对象和观点陈述的关联关系二部图,同时分析归纳评价对象和观点陈述之间的词性搭配规则、依存句法路径模式,用于筛选不确定的搭配关系,最终生成评论集上的<评价对象,观点陈述>二元组集合,作为产品评论的观点知识库。  3.生成基于产品要素的观点摘要。由于同一产品要素存在多种表述方式,需要把语义相同的评价对象聚合为一类作为一种产品要素,并总结该产品要素的观点。本文提出一种基于词向量的评价对象相似度计算方法,人工给定产品要素关键词,抽取与之最相近的评价对象,并总结其观点。  为了测试本文所提方法的有效性,抓取了某电子商务网站的几种产品评论,人工标注其中部分评论用于模型的训练与测试。实验结果表明,引入深度学习模型的算法框架BLSTM-CRFs能显著提高观点信息标注任务的准确性。在观点信息标注的基础上,构建出了产品评论的观点知识库,并生成基于产品要素的观点摘要。
其他文献
采用蒽,9-溴蒽,1-萘硼酸,2-萘硼酸为原料,NBS为溴化试剂,通过Suzuki偶联反应制备出9,10-二(1-萘基)蒽(α-ADN)、9,10-二(2-萘基)蒽(β-ADN)及9-(1-萘基)-1O-(2-萘基)蒽(α,β
高压异步电动机直接全压起动,会产生较大的电流冲击,造成电机寿命降低和电网电压剧烈波动等一系列危害。因此需要采用降压起动的方法,以减小冲击电流。传统的软起动方法对电压的调节都是不连续的,在电机起动过程中存在二次冲击电流现象。晶闸管调压式软起动器的出现很好的解决了低压场合上异步电机的起动问题,但由于功率器件的耐压限制,无法应用于高压大电机的起动。本文介绍了一种基于可变电抗变换器的高压异步电动机软起动器
探讨了芦丁与DNA相互作用的机理,利用紫外吸收光谱法、荧光光谱法和黏度等方法,研究了两者之间的相互作用,确定了其结合机理.实验结果表明,芦丁与DNA结合后紫外吸收峰发生了
目标检测是从图像中判断感兴趣物体是否存在,及存在信息的过程。其准确性和实时性是系统的重要评估指标之一。概括来说,目标检测主要分为两部分,先确定图像中是否存在目标,若存在
随着信息技术的不断发展,基于图像的渲染技术在计算机视觉中起着越来越重要的作用。基于图像的渲染技术不仅能提高图像的渲染速度,达到实时渲染,而且使得图像的显示结果非常真实
以环氧丙烯酸树脂作为基体,用片状和球状银包铜粉作为导电填料进行树脂填充,无水乙醇作为溶剂、邻苯二甲酸二丁酯(DBP)作为增韧剂、二乙烯三胺和三乙烯四胺作为固化剂来制备
经过多年的发展,智能家居智系统功能越来越完善。本课题以嵌入式系统平台的构建为基础,以智能家居系统发展和功能要求为目标,从嵌入式系统的硬件设计入手,深入研究了嵌入式家居控