基于序列标注的汽车产品对象抽取方法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:honglei413413
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向汽车的产品评论是指用户在微博、论坛、微信公众号等平台发表自己对汽车的价格、性能、动力、外观等方面的主观使用感受。在汽车评论中,用户评论产品时经常带有明确的指向,往往针对特定产品的某一部分或某一功能做出具体评价。因此,挖掘汽车产品评论中的汽车名称及属性,对于汽车厂商和消费者具有重要的商业价值。本文将汽车名称和属性统称为产品对象,这样,抽取评论中的产品对象也是产品评论分析的基本任务,更是细粒度情感分析的重要研究问题。已有的研究多是针对评价产品名称进行单独抽取,并没有考虑产品的名称和属性。本文针对汽车评论中产品对象的抽取问题,以实现产品评论细粒度情感分析为目标,开展汽车的产品名称和产品属性的抽取方法研究。本文的主要工作有以下三点:(1)相关技术和数据标注规范对中文文本表示基础理论以及汽车产品名称与属性抽取相关技术进行了分析,并对数据标注规范进行了介绍。首先对中文文本表示相关方法Word2vec模型和Cw2vec模型进行了介绍。通过分析评论数据的特点,制定相应的数据标注规范,为实验数据的标注提供了标准。(2)融合多特征的产品对象抽取方法将产品对象的抽取看作是一个序列标注问题,提出一种基于词向量和条件随机场(Conditional random field,简称CRF)的产品对象抽取方法。在此模型中,在选择词特征、词性特征、词长特征以及词语的左右信息熵、互信息作为统计特征,在此基础上,计算出词语的词向量与汽车领域词表的词向量之间的相似度,将相似度特征引入CRF模型中,设计了融合多种特征的基于CRF模型的产品对象抽取方法,并在产品对象抽取数据集上取得了较好的结果。(3)基于cw2vec-BiLSTM-CRF的产品名称和属性识别方法针对产品评论数据中用户希望获取更细粒度的产品名称和属性问题,设计了基于cw2vec-BiLSTM-CRF的产品对象识别方法。首先使用了cw2vec模型对中文文本进行表示,在此基础上,利用双向长短期记忆模型融合了条件随机场模型对产品中的名称和属性进行识别。该方法利用长短期记忆模对上下文信息进行有效建模,同时利用条件随机场模型作为标签推理层较好地解决序列标签的依赖问题。通过在汽车领域数据上进行实验,实验结果表明cw2vec-BiLSTM-CRF模型在产品名称和产品属性识别任务是有效的。
其他文献
5G无线网络主要面向增强型移动宽带(enhanced mobile broadband,eMBB)、超可靠低时延(Ultra-Reliable Low Latency communications,URLLC)等场景。在eMBB场景下,用户可以达到极致的体验速率。URLLC场景为一些新兴产业如自动驾驶、远程医疗提供超高可靠性与超低时延的服务。5G通信网络的目标是实现万物互联互通,所以今后异质业务共
质子交换膜燃料电池(PEMFC)由于其高效、清洁和绿色等优点,是未来最可能替换传统能源的候补之一。众所周知,燃料电池阴极动力学迟缓是制约燃料电池的主要发展原因,金属Pt是催
石油开采工程中得到广泛应用的聚合物驱油技术得益于幂律型非牛顿流体高粘度、低热导率的性质,比普通水驱采油率高。同时螺旋形通道相对于常规直管通道剪切降解作用小,管内聚
民国时期中国的高等教育似昙花一现,虽短暂却以其闪耀的光彩与美丽惊艳了世人。而在那个艰难困苦的年代,中国的高等教育之所以取得了令世人称赞的成功与辉煌,在一定程度上依赖于当时一批教育家名校长的艰辛努力与苦心经营。他们卓越的大学教育思想如绚烂耀眼的烟花,点缀、照亮了民国时期教育的绚丽夜空,指引了近代中国高等教育在黑暗中的前行。马君武与胡庶华就是这批教育家名校长中的坚定力量。二者在近代中国的高等教育领域卓
我国牛乳行业迅速发展的同时,特种家畜乳逐步得到区域商业化开发。但其营养特征,尤其是脂肪酸(FAs)特征缺乏系统研究。采集蒙古马(包括酸马乳)、牦牛、山羊和双峰驼原乳,牦牛
药柱燃面退移过程的测试分析对于导弹性能和打击毁伤效果评估具有重要意义。目前现有的燃面退移测试方法存在测试周期长,计算复杂装药燃面误差较大等问题,导致获得的测试数据
《左传》作为先秦时期的编年体著作,其以时间为线索对春秋时期的历史作以梳理和叙述,其中活跃在春秋时期各国政治经济舞台上的世家大族也是《左传》叙事重中之重,而鲁国的季孙氏便是其中的代表。《左传》中记载季孙氏家族从季友开始,历经季文子、季武子、季平子、季桓子、季康子,家族六世辅政,对鲁国有着较为深远的影响,纵观春秋各国历史,此类情况也较为罕见。本文着重对《左传》中季孙氏家族相关叙事作以分析。第一章将季孙
能源对人类社会的发展起着重要作用,同时也影响和制约着国家综合实力的发展。然而科学技术和工业化的迅速发展,带来的是日益增大的能源需求,迄今为止,地球上所有国家的日常能
神经网络是一种处理信息和数据的非线性模型,且其在智能机器人,图像处理,并行计算,金融,优化问题等诸多领域有着巨大的潜在应用.这些应用的实现常常需求神经网络具备某些动力学性质.在信息处理的过程中,放大器具有着有限的开关速度,于是时滞成为神经网络中需要考虑的因素之一,并且它会引发网络的扰动,不稳定,发散等不良现象.比例时滞是一类重要的无界时滞,带比例时滞的神经网络的优势是能依据网络准许的时滞范围去控制
清华大学始于民国也盛于民国,自1928年正式更名清华大学后,短短几年间,为中国培养出了许许多多的杰出人才。文化昆仑钱钟书、明史研究开拓者吴晗、气象学家叶笃正、核物理学家邓稼先等等,这些人才虽分布于各行各业,但是他们都拥有勇于开拓、一往无前的探究精神和探究能力。大学课堂是发展学生探究精神,培养探究能力的重要场所。翻阅有关民国时期清华大学的课堂教学史料,我们可以看到学子们对知识的渴望,感受到学生积极思