面向领域的多源数据文本实体识别与关联发现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:y810417
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
应急管理领域是与国家安全及社会稳定密切相关的重要领域,利用人工智能相关技术自动发现和识别领域多源数据文本中有价值的情报信息,如领域核心实体及其语义关联,对于突发事件预警及响应有着重要指导意义,而实体识别与实体间关联发现正是可以自动化实现领域信息抽取的关键技术。但是,领域实体识别与关联发现技术当前仍面临以下挑战:首先,中文文本缺少分词边界且词法、语法复杂,导致词特征利用困难,限制了实体识别的效果;其次,领域标注集缺失且人工标注成本高,主流模型无法基于全监督方法得到充分训练;最后,领域信息的稀疏性与特异性也导致了实体关联发现的效率与精度均较低。针对上述问题,本文分别有针对性的实现了以下改进:(1)针对中文词信息利用困难的问题,提出了基于字词自适应结合的实体识别模型。该模型先利用卷积神经网络实现字符窗口信息感知,再与潜在词间计算多头注意力,自适应的完成中文字词信息结合;同时,还通过与中文预训练模型组合引入大规模先验知识。最后,在ResumeNER和weiboNER两个主流评测集上验证了其识别效果,与最好的基线模型FLAT相比,识别F1值分别提高了 0.32%和0.6%,引入中文预训练模型RoBERTa-wwm之后,识别效果又实现进一步提高。(2)针对领域实体人工序列标注成本高的问题,提出了基于远程监督的领域实体识别与扩充框架,该框架利用词典远程监督流式标注得到训练集,并结合PU-Learning算法训练本文提出的基础模型CWAl-R,节省了大量人工标注的成本,又引入了教师-学生模式的自训练实现训练语义的泛化。最后,利用ResumerNER评测集的人名、机构名、专业名进行了领域实体识别验证,识别F1值相比基于人工序列标注的全监督基线模型仅下降了 2.2%,证明了其在无需人工标注的前提下依然可以实现较好的识别效果;还利用应急管理领域数据集对武器类实体进行了实体扩充验证,实体扩充率和扩充准确率分别达到了 107.4%和81.3%。(3)针对采集数据中非领域噪声多,实体间关联表述领域性强等问题,本文提出了基于RoBERTa-wwm的多源实体关联发现框架,该框架第一部分为基于Fasttext的领域语义判别器,可以实现对非领域噪声文本快速预筛;第二部分为基于RoBERTa-wwm的实体关联发现模型,该模型通过RoBERTa-wwm自适应完成字符语义计算,再通过卷积神经网络完成窗口信息提取,最终基于实体信息、实体间语义依存信息及全局语义信息共同完成实体间关联的推断。最后,在本文构建的应急管理领域数据集上进行对比实验证明,领域语义判别器的F1值仅比选用的最佳基线模型BERT-cls低0.4%,但其判别速度同在cpu环境下是后者的近三千倍,即使将后者迁移至gpu环境下,判别速度依旧只是前者的1/500不到;基于RoBERTa-wwm的实体关联发现效果也优于所选用的基线模型。最后,基于上述改进开发了应急管理领域信息抽取系统,该系统可以自动化地实现信息采集,领域信息判别,实体识别及实体关联发现。经测试,该系统自动化程度及分析精度均较高,满足了领域需求。
其他文献
不同添加量的SAPO-34分子筛作为添加剂,对聚丙烯材料进行改性.通过挤出注塑制备出SAPO-34分子筛聚丙烯复合材料.采用示差同步扫描热分析仪(TG-DSC)、X射线衍射仪(XRD)、扫描电子显微镜(SEM)等对改性前后的聚丙烯复合材料的结构进行表征,并通过万能材料试验机和摆锤式冲击试验机等研究了复合材料的力学性能.研究结果表明: SAPO-34分子筛的添加对聚丙烯材料的力学性能具有显著的提升作用, SAPO-34分子筛添加量在5%时可达到最大的拉伸与冲击强度,最大拉伸强度可达1 171 N,相比纯聚丙
金卤灯内胆大多由透明的石英玻璃与组件电极密封组成.根据玻璃与金属的润湿性原理,在封接前,通过电解氧化的方法在金卤灯电极表面氧化成低价的金属氧化物,解决两种相异材料的永久封接问题.选用金卤灯电极70/100 W为研究对象,进行电解氧化处理实验研究.通过正交实验以及数据分析,研究电解液盐酸含量、电解电压、电解电流、电解反应时间4种实验参数及其交互作用对氧化层质量的影响.利用数显显微镜观察表面氧化层质量,并在封接后进行漏气检测.实验结果表明:运用电解氧化方法在金属表面产生一层低价氧化物,能使玻璃与金属形成牢固的
电影不是小说,它是通过镜头语言去塑造人物形象和展开叙事结构.作为还原战争题材的影片,在处理好符合逻辑关系的镜头剪接的同时,还要考虑场景搭建、影片调度、灯光处理、声效合成等一系列技术处理及所体现的情感表达.电影《八佰》集合声、光、电、特效等一系列技术手法的综合运用,“真实再现”了一部中国人民同仇敌忾的抗战史;刻画了特殊时空一个群体的心灵觉醒史以及全国各阶层人民觉醒的屈辱史.影片通过对远去历史的激活,重唤历史的生命力,为当下精神“躺平”一族倡导一种精神回归,增强名族凝聚力和文化自信.尝试探索视听语言阈值下情感
英语名词短语中前置修饰语顺序并非是任意无序的,而是受到认知因素的影响和约束,遵循一定的秩序.传统规定语法对英语前置修饰语语序类别进行了详细的描述并形式化,但对其后的动因却鲜有深究,二语学习者在使用和理解前置修饰语语序及其所体现的语义时仍有不小的障碍.认知语言学中语言结构象似性理论为解释英语名词短语中前置修饰语语序排列提供了理论基础,该理论解释了语序同感知方式以及经验结构之间的联系;对直接语料和间接语料的分析结果印证了英语名词短语中前置修饰语语序排列受认知因素影响;其排列顺序是对人类思维和认知活动轨迹的反映
基于定数截尾样本,对CE模型下瑞利分布恒定应力加速寿命试验进行了贝叶斯统计分析,利用蒙特卡洛计算积分法给出了该模型的贝叶斯估计的近似算法,最后通过模拟比较表明贝叶斯估计更加精准有效.
随着物联网、云计算、5G网络等新型技术的快速兴起,网络规模的不断扩大,传统的网络架构面临着巨大压力和挑战,出现了如设备固化严重、维护复杂、扩展性有限、新业务开发周期长等问题,因此需要新的技术对当前网络架构进行升级。SDN(Software Defined Network)技术的快速发展打破了该局面,为网络技术的革新提供了思路。SDN将网络分为控制层和数据转发层,集中管理底层网络设备,实现网络的可编
10月25日下午,上海市职业技术教师教育学院在我校揭牌成立.教育部党组成员、副部长翁铁慧,上海市副市长陈群,上海市人民政府副秘书长黄永平,教育部教师工作司司长任友群,教育部高校学生司司长王辉,教育部职业教育与成人教育司副司长林宇,上海市教育委员会主任王平,上海市人大华侨民族宗教事务委员会、外事委员会主任委员高德毅,上海市发展和改革委员会副主任陈石燕,上海市经济和信息化委员会副主任阮力,上海市教育委员会副主任毛丽娟,上海市人力资源和社会保障局副局长张岚等出席成立大会.大会由我校校长谢华清主持.
在后疫情时代,生鲜产品线上需求增长迅速.根据调查发现: 配送速度和生鲜质量已经成为消费者选择生鲜电商平台时重要的影响因素.在此基础上,将货损成本加入形成生鲜电商前置仓选址目标,以中心仓、前置仓及其覆盖区域形成的运输网络配送距离和配送过程中的货损成本作为约束条件,构建前置仓选址模型,并用Excel规划求解得到结论.最后,通过一个实例来说明模型的可行性.
VoLTE是在4G网络全IP条件下的端到端语音解决方案,能提供更短的接入时延和更好的语音质量.以复兴号为代表的高铁列车运行速度快、车体损耗高,这样的无线环境对时延、抖动、丢包敏感的VoLTE业务质量有很大的影响.本文介绍了针对高速铁路网络服务的特点在4G Volte业务及四项感知指标方面,为满足高铁用户高质量服务需求而进行的端到端感知提升的分析研究、基本思路、优化方法及经验.
在“碳达峰、碳中和”的国家战略背景下,控制碳排放成为各地发展经济的前提条件.县域是中国社会经济发展的基础单元,统筹县域经济发展和碳排放的关系对中国实现控碳战略具有重要意义.基于中国172个县级单元的经济发展和碳排放数据,采用线性回归模型分析法,对中国县域经济发展对碳排放的影响进行了分析.研究发现:一、县域碳排放总量与经济总量和工业化水平高度正相关,经济发展水平的提高有助于提升碳生产力,降低碳排放强度;二、县域内工业的集聚有助于降低碳排放强度,但服务业的聚集将会导致县域碳排放水平的上升.基于此,建议在县级国