面向网络热点新闻评论的观点对象抽取研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:wly9007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展使得信息的采集和传播速度得到了显著的提升。用户每天都会从新闻网站、APP应用上获得大量的新闻信息。当社会上发生某一事件后,很多媒体机构都会在网络上报道与这个事件有关的新闻,大量的新闻报道和转载就形成了一个热点新闻事件。网民会通过互联网阅读该新闻,并针对新闻当中的人名、地名、组织机构、事件等不同的对象发表自己的观点。自然语言处理(Natural Language Processing,NLP)中的观点对象抽取领域能有效地挖掘出用户针对文本中的哪些对象发表自己的观点。对中文热点新闻评论进行观点对象抽取研究,可以有效地为后续的舆情分析,了解民意提供基础性技术支撑,有很广泛的应用价值。因此,对网络热点新闻评论进行观点对象抽取研究具有重要意义。观点对象抽取是观点挖掘领域中的一项子任务。目前国内外在观点对象抽取领域作了大量工作,但在网络热点新闻评论观点对象抽取上还存在以下问题:(1)缺乏可以支撑网络热点新闻评论观点对象抽取研究的语料。(2)新闻评论存在大量噪声,导致观点对象识别效果不佳。(3)字符级观点对象抽取方法虽然粒度上比词语级观点对象抽取方法精度更高,但字符实际上缺乏词性信息和位置信息。本文针对以上的问题展开研究并取得了以下成果:(1)构建新闻评论语料库。利用爬虫方式从新闻网站爬取了一定数量的新闻与对应的评论作为支撑研究的语料库。(2)提出融入新闻标题信息的新闻文本与评论语义相似度计算方法。通过语义相似度计算可以有效地筛选出评论中与新闻内容相关的部分,提高观点对象抽取模型的性能。针对新闻文本与评论长度差异较大导致语义相似度计算效果不佳和BERT对超长文本序列处理能力不佳等问题。将计算语义相似度转换成计算两种文本的主题相似度。在融入新闻标题信息的基础上利用TextRank算法将新闻文本转换成短文本,将短文本和评论传入BERT获得语义融合表示后,再引入主题模型计算该短文本与评论的主题分布向量,最后将语义融合表示和主题分布向量融合传入全连接层计算评论与新闻是否相关的概率。实验结果表明该方法具有一定的效果。(3)提出一种基于TextRank与BERT预训练模型的新闻评论观点句识别方法。本文认为观点对象存在于观点句之中,通过观点句识别可以对评论进行进一步筛选,从而有效地抽取出观点对象。针对传统观点句识别方法没有融入外部信息,BERT处理超长文本序列能力不佳等问题,提出通过融入新闻摘要信息来提高观点句识别效果。首先通过TextRank算法对新闻生成自动摘要,再将新闻的每条评论与新闻摘要信息一起传到BERT模型中获得文本融合表示,最后送入全连接层,利用softmax函数将全连接层的输出转换为是否为观点句的概率。实验结果表明该方法具有一定的效果。(4)提出一种融入词性-位置特征和字典特征的新闻评论观点对象抽取方法。针对字符级观点对象抽取方法忽略了词语的词性信息和位置信息等问题,首先利用新闻文本构造字典,其次通过对评论文本进行分词、词性标注、位置标签集标注等处理构造每一个字符的词性-位置特征,利用n-gram方法以字符为中心,根据字符的上下文来构造词汇并与字典进行匹配,从而构造出字典特征。将字符序列、词性-位置特征和字典特征进行融合后传入BiLSTM-CRF网络层去进行序列标注。实验结果表明该方法具有一定的效果。
其他文献
学位
哺乳动物肠上皮是一种拥有快速自我更新能力的组织,在维持机体免疫稳态与肠道应激后的损伤修复中发挥重要作用。源于隐窝底部的多能肠干细胞不断进行增殖、迁移与分化,并沿隐窝—绒毛轴向上移动,从而维持肠上皮完整性。本试验旨在阐明lncCHUKILA调控猪肠上皮细胞增殖的分子作用机制。本研究通过对课题组前期转录组学测序数据分析发现了新长非编码RNA CHUKILA,结合生信功能预测分析的结果,显示lnc-CH
本试验采用大田试验,第一部分以山西省长治市襄垣县王桥镇洛江沟村复垦5a土壤为研究对象,有机肥、无机肥、生物炭配合施用;第二部分以襄垣县西山底村复垦3a土壤为研究对象,有机肥、无机肥、固氮菌肥配合施用,研究有机无机肥与生物炭菌肥配施对采煤复垦土壤氮素和玉米产量的影响,为探究生物炭、固氮菌对复垦土壤氮素的作用和机制提供理论依据。试验结果如下:(1)与对照相比,配施生物炭均提高了复垦土壤碱解氮、硝态氮和
涡流空气分级机作为粉体分级技术中的关键设备之一,因其结构简单、易操作维修和产品粒度可调等优点在粉体制备领域备受青睐。随新产业新技术的快速发展,各行业对粒径小且粒度分布窄的超细粉体材料需求不断扩增,因此对涡流空气分级机分级性能的提升至关重要。本文以卧轮式分级机为研究对象,通过数值模拟技术、理论分析和物料分级试验相结合的方法对分级机内流场特性进行分析,改进涡流空气分级机的关键部件,并对选定范围内的操作
随着农业智能化的发展,在温室栽培中,人们对温室环境的控制技术越来越成熟,通过人工控制温室内温湿度、CO2浓度等环境因素,使环境更加满足作物生长需求。尤其在无土栽培中,基质对室内环境的依赖性强,且环境变化可能引起植株对水分和养分吸收的变化。为此,本研究以番茄为试验材料,通过岩棉栽培,设置了两个试验,分别在人工气候室和智能温室研究了CO2浓度与营养液EC互作、根区温度与营养液EC互作对番茄生长的影响。
本文选用我国21种农田土壤,采用外源添加污染物的方法,同时考虑了老化时间对土壤中锑毒性影响,参照ISO和OECD推荐的标准方法研究了锑(Sb)在不同类型土壤中对植物-大麦、动物-赤子爱胜蚓的毒性,得到了基于不同终点土壤锑的生态毒性阈值。除此之外,选取常见的蔬菜-小青菜,利用物种敏感性分布法,推导基于小青菜土壤的安全阈值。研究了Sb对大麦根伸长的毒性影响。根伸长EC10和EC20范围为201-250
精准的获取作物发育期信息可以为作物生长发育阶段所需的农业机械化作业提供一定的指导,从而获得多产优质的作物。目前,作物生育期的数据获取主要来源于人工观测方式,其耗费大量的时间、人力资源,无法进行不间断的观测,且极易受人们主观因素的影响。信息化促进了农业现代化,计算机视觉作为现代化农业领域的热点之一,因其可针对大面积进行监测,具有省时、省力,且可连续性观测作物的生长趋势等优势,该技术已被应用于获取农作
目前关于三元硫族化合物Ag Bi S2的研究报道仍然不多,但是在其基础理论计算研究、实验室合成制备以及各方面的应用上或多或少都能找到关于这种材料的研究,说明Ag Bi S2这种半导体材料正在逐渐被人们关注。本文以磁控溅射法制备薄膜并探究了硫化退火过程对薄膜的影响;以回流法和溶剂热法分别制备了Ag Bi S2粉末,并与Zn S进行复合,探索未经复合的Ag Bi S2原始样品和Ag Bi S2与Zn
在中生代时期,华北克拉通发生了大规模的破坏减薄,并诱发了大规模岩浆活动。鲁西地区位于华北克拉通东部,早白垩世时期有大规模中-基性侵入岩活动,并显示EM1型和EM2型地幔源区时空不均一性,是研究华北克拉通破坏的天然实验室。大别-苏鲁造山带、郯庐断裂带是华北板块内重要的岩石圈薄弱带,它们对诱发华北克拉通的破坏及岩浆活动具有重要的影响。鲁西淄博金岭、临朐铁寨辉长闪长岩位于华北克拉通的东南缘,靠近郯庐断裂
随着我国社会主义经济的快速发展,我国的建筑工程已经取得了很大进展,建筑企业对于成本控制工作也日益得到了重视。经济成本管理主要包括企业资金的使用规划、流通预测和监督管理等多项内容,是建筑企业重点工作之一,同时也是践行可持续发展目标的基本任务。因此,建筑企业应该加大力度认真地重视建筑成本管理问题,运用各种科学、合理的管理方式和手段,尽可能地最高限度减少资金支出的成本,为建筑企业健康、稳定地生存与发展奠