基于ERNIE-CNN模型的微博疫情大数据分析与应用

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:lzx6963817
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在5G时代背景下,来源于社交媒体的大数据凭借快速反应、自发反馈、获取成本低等优势成为城市灾害应急管理中新的数据源,在灾害分析和促进城市安全方面所发挥的作用被赋予了新的意义。特别是在应对COVID-19大流行时,社交媒体大数据在舆情监测、疫情预警、传染源追踪等方面发挥了特殊的作用。然而,社交媒体大数据海量、多模态特点突出,有效信息难以挖掘。因此,及时、准确、高效的文本分类成为社交媒体大数据应用中亟需突破的关键技术。近年来,随着深度学习技术在自然语言处理中的快速发展,神经网络模型被广泛应用于文本分类任务。然而,由于缺乏能够较全面反映我国社交媒体文本内容特性和防疫现状的疫情主题语料库,同时现有的主题分类模型语义特征提取能力不足,导致目前基于深度学习的主题分类方法难以从多模态的海量社交文本中挖掘出符合我国防疫现状的细粒度、高精度疫情主题信息,难以为后续疫情应急管理提供有效的数据支持。针对上述问题,本文构建了一种改进的ERNIE预训练语言模型,以实现更高效地从社交媒体大数据中挖掘细粒度、高精度的疫情主题信息,并基于此开展了国内舆情分析和城市级疫情应急防控应用研究。主要研究工作如下:(1)设计了基于ERNIE-CNN模型的主题分类方法。针对COVID-19大流行期间新浪微博文本内容特性以及我国防疫现状,制作了十类反映社会不同层面的疫情主题语料库。构建了ERNIE-CNN主题分类模型,通过将ERNIE预训练模型嵌入CNN网络,在原有大规模通用语料基础上融合局部的疫情语义特征,利用CNN网络进行优化训练并分类,实现从海量的社交媒体文本流中挖掘出细粒度、高精度的疫情主题信息。(2)基于疫情主题分类信息进行国内舆情时空特性分析。分析了微博推文的时间趋势和空间分布模式,揭示了疫情期间(2019/12/1-2020/4/30)微博推文的时空特性,以对我国舆情发展态势进行宏观感知。(3)基于疫情主题分类信息进行城市级疫情应急防控应用研究。以深圳市为例,探索了疫情期间深圳市确诊小区和定点医院/发热门诊的空间格局,进一步探索了确诊病例分布与居民日常生活受影响程度之间的相关性。此外,利用主题分类文本构建后端数据库,开发了一款微信小程序“4)(90)8)”,支持“周边疫情”和“求助咨询”等功能。研究表明:(1)本文构建的ERNIE-CNN主题分类模型能够从海量社交文本流中识别出反映我国防疫现状的细粒度、高精度疫情主题信息,且性能优于其他主题分类基准模型。(2)舆情时空特性分析结果符合疫情态势在我国发展阶段的现实情况,表现为:疫情期间微博推文在时间上呈现出“先剧烈增长,然后逐渐回落,最后又小幅上升”的特点。空间上主要聚集在我国中部及东部地区,并形成了四个热点区域。(3)疫情期间确诊病例主要集中在城市交通便捷、人流密集的地区,在该地区居民日常生活受影响程度更大,对应的社交媒体响应也更剧烈。此外,微信小程序能够为城市居民提供疫情期间的便民服务,为城市管理者提供云问政和决策支持服务。基于ERNIE-CNN模型的微博文本主题分类方法能够为疫情应急管理提供可靠的数据支持,对于提高疫情期间的态势感知能力是科学可行的。
其他文献
随着国家对集成电路产业的扶持力度越来越大,国产半导体产品的需求量也越来越大,功率器件是半导体产业的重要组成部分,它不需要特别精密的制程,是赶超国外同类产品的重要突破口。功率MOSFET是功率器件的主要种类之一,其技术壁垒相对较低,因此,着力提升功率MOSFET性能,既有利于加速实现国产化替代目标,又有利于提高国产功率MOSFET产品在世界市场上的竞争力。与此同时,电动汽车等新能源汽车的兴起,5G基
隐马氏模型(hidden Markov models)是一类统计模型,简称HMMs。它包括两个随机过程,其中一个是不能够被直接观测到的并且具有马氏性,称之为状态马氏链;另一个是与此状态马氏链相关的可被观测到的随机过程,称之为观测过程。这一模型是于六十年代由L.E.Baum提出来的,在七十年代由Jenik等应用到语音识别领域,逐步发展成为语音识别中最瞩目、最有效的技术之一。目前,它在基因关联分析和基
本文对脆性材料的破坏过程进行了计算机模拟,模拟方法为有限元法。 本文的工作可分为三大部分:第一部分编制了四叉树法程序,通过它可对平面结构进行单元离散,快速自动生成质量较好的全四边形单元,并获得离散后的单元信息和节点信息,为有限元计算打下基础;第二部分利用面向对象方法编制了有限元计算程序,在破坏模拟过程中,利用它进行位移、应力分析;第三部分对脆性材料的破坏过程进行了模拟。模拟时,破坏准则和破坏
巨灾事件造成的生命财产损失及社会负面情绪日益增加,对应急管理的发展提出了更高的要求。作为应急管理体系中不可或缺的风险规避手段,巨灾保险在很多国家被广泛应用,然而在我国尚处探索阶段。国内现有研究多集中于制度构建与定性分析,无法有效探究公众在灾害情境下的行为选择与投保意愿。基于已有研究成果,本文以具有代表性的自然灾害事件为案例,采集巨灾保险相关文本,结合风险感知理论、需求与行为理论,通过扎根理论分析方
随着我国铁路运输的发展,铁路运输不能仅达到单纯运输的目的,还要兼顾轻量化、低噪声、保护环境等等,为了实现该目的,研发新型结构转向架成为关键。现阶段我国铁道车辆转向架一般采用轴箱在车轮外侧布置的二轴或者多轴转向架,它具有蛇行运动稳定性好,抗侧滚能力强,检修方便等优点,因此成为了我国铁道车辆的主型转向架,但是它也存在着由于簧下质量大,造成轮轨作用力及轮轨磨耗增大,小半径曲线及扭曲线路通过性能差等缺点,
学位
智能功率集成电路在生活中的应用越来越广泛。电机驱动芯片是智能功率集成电路的一个重要领域,广泛应用于生活中的工业、汽车、消费电子等领域。目前芯片的供应受当前国际化环境的影响巨大。因此研究、设计电机驱动芯片有着重要的意义。A4950是美国知名芯片企业的一款电机驱动芯片,主要用于驱动有刷直流电机。此电机驱动芯片能够工作在8V~40V的电源电压下,持续输出3.5A的电流,最大静态电流为10μA。能够根据外
强激光束在科学和军事领域有着巨大的应用前景。很多情况下,强激光束的获得和使用,都将会与超音速流场有关。当强激光束通过超音速流场时,会受到流场的干扰,而且流场参数也会由于强激光束的辐射加热产生变化。对超音速流场与强激光的相互作用机理研究越来越受到关注。 本文作为国家自然科学基金项目《强激光与超音速自由剪切层的相互作用》的机理研究工作,采用NND-2M差分格式,数值求解了二维全N-S方程,得到了
在核电压水堆一回路系统中,主管道是将堆芯中核燃料产生的热能通过循环水传递到二回路的核一级安全部件。主管道的主要作用是通过工作介质完成能量的传递,并把介质的大部分动能转化为压能。主管道用奥氏体不锈钢易在高温、高压和放射性等恶劣服役环境下产生热老化脆化效应,导致其断裂韧性下降,从而使得反应堆运行风险大大增加。因此,开展热老化对主管道不锈钢断裂行为的影响规律研究,将为主管道的安全设计和可靠性评定提供技术
水是所有生物生存所需要的重要资源,是生态环境循环变化的重要控制因素。运用各种手段监测和量化陆地水的变化对当地政府以及国家进行干旱与洪涝的预防、水资源管理政策的制定以及气候变化分析等都有重大意义。局部Slepian函数是将局部区域内的地球物理信号转化为空间谱的一种方法,该方法可以保证在球面上局部范围内获得最优谱平滑解,非常适用于局部范围地球物理信号的研究。本文目标是应用Slepian函数方法解算60