基于依存实体词向量的科技领域命名实体识别研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:java_flash
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入信息时代以来,网络中信息的数量以惊人的速度急剧增加。用户要在这些巨量的信息资料中准确找到所需的部分极其困难,如何利用计算机辅助用户过滤噪声数据,挖掘有用信息已经成为目前的研究热点。命名实体识别是利用计算机从自然语言文本中抽取出命名实体,为之后更高级的任务奠定基础。对于科研技术人员来说,经常需要从大量文献中寻找资料,而中文领域的命名实体识别研究目前还大多集中于通用领域,也就是新闻文本领域,涉及科技领域的命名实体识别还鲜有人进行研究。为了对科技文本这一具体领域进行有效实体或者术语的识别,提出了依存实体词向量的生成方法,搭建了针对科技领域实体识别的模型,开展了科技领域实体识别方法的研究并进行了实验验证。针对科技领域文本中专业术语多为组合词的特点,利用互信息和TF-IDF等方法构建科技术语词典,保证了对语料进行分词时能够尽可能完整地保留术语,为之后进一步的词向量预训练做准备。此外,根据科技文本句式结构清晰简洁、指代明确的特点,将句子间词语的依存特征引入了词向量训练的过程,构建了依存实体词向量的生成模型,并从语义相似度层面进行了词向量训练方法的对比,验证了依存特征对词向量语义的提升作用,并将训练得到的依存实体向量作为之后实体识别模型的预训练词向量。针对目前主流中文领域命名实体识别模型仅利用字符向量进行序列建模而损失了词和词序列信息这一问题,建立了科技领域实体识别的lattice输入层,将字符向量和词向量进行拼接,从而能够同时利用字符和词语两个粒度的信息,为利用依存实体词向量提供条件。为了能够利用句子全局的信息,建立了Bi LSTM-Attention的序列建模层。设计了实验分别研究了lattice输入层、依存词向量以及Attention机制对实体识别效果的影响。从实验结果证明了依存实体词向量对科技领域的实体识别性能有明显提升,Attention机制对通用领域和科技领域的实体识别都有性能的改善。综上,本文立足科技领域实体识别的特点,基于这些特点进行了科技领域实体识别方法的研究,在现有方法基础上提高了实体识别的性能。
其他文献
随着单无人机向多无人机协同技术的发展,多无人机应对不同需求实现编队控制的应用场景增多。相对单无人机,多无人机能够携带不同设备,完成单无人机无法完成的任务等优点,目前的多无人机编队控制仍有协同能力低,自主能力不足,无法应对突发情况,实时性低等问题,无法满足不同飞行任务对编队队形控制的要求,因而展开关于群体智能控制方向的多无人机编队控制研究迫在眉睫。为解决上述问题,将多无人机协同编队控制问题,分为编队
随着移动终端设备数量的增长和人工智能技术的发展,移动设备对运行实时应用(如人脸识别、AR/VR)的需求大幅增加。然而,资源有限的移动设备通常无法承载此种计算密集、时延敏感的应用,导致用户体验的下降。如果采用传统的云计算解决方案,也存在传输延迟过长、流量拥塞,大量数据处理成本和通信成本高的问题。在此背景下,移动边缘计算(Mobile Edge Computing,MEC)将计算基础设施从远程云数据中
无人机集群自组网相比于地面MANET网络,在三维空间中具有更大的灵活性,在军事和救灾场景下具有重要的应用意义,与此同时,由于无人机之间距离远,无人机集群网络更加稀疏,无人机飞行速度较大,通信链路容易中断失效,进行三维空间网络拓扑控制要考虑更多的因素,而现有的二维平面网络拓扑控制技术应用在无人机集群自组网具有很大的局限性,因此,研究基于三维空间的有效拓扑控制是有必要的。为了构建具有一定容错性和抗毁能
随着互联网时代的到来,各种信息的数字化在人们的生活中随处可见。比如之前学生上课大多采用纸质书籍作为信息承载媒介,而近年来课件、PPT等电子授课工具越来越流行。甚至出于成本的考虑,电子化书籍也在学生中颇受欢迎。但是与此同时也带来了一系列的问题,比如电子化书籍中的PDF或者图片中的文字无法像文档一样直接编辑,为信息查找、修改或者统计录入带来了诸多不便。针对这些问题,本文提出了一个基于隐马尔可夫模型的文
阿尔茨海默病作为最常见的老年疾病之一,其主要表现为患者认知功能下降并逐渐丧失生活能力。该疾病具有隐匿性和不可逆性,尽早的诊断与干预对延缓病情发展对提高患者生活质量具有重要作用。研究表明阿尔茨海默病会导致患者大脑结构形态畸变,其中最典型的脑部结构是海马体。因此磁共振影像中海马体形态变化研究有助于疾病的早期诊断以及对疾病的发生和进展机理的进一步研究。目前磁共振影像中阿尔茨海默病海马体形态学研究方法仅从
卫星物联网(Satellite-based Internet of Things,S-Io T)能够突破现有地面网络仅覆盖20%左右陆地范围的局限,实现全球立体覆盖下的宽带接入。S-Io T已成为下一代移动通信的重要发展方向之一。本文面向未来S-Io T服务于地面终端的典型业务场景,综合考虑卫星受限的功率资源、星地长距离链路导致的大传播延时以及信号衰落,设计了基于网络编码(Network Codi
伴随着信息时代的发展,人们的数字娱乐生活越来越丰富,智能手机提高人们生活品质的同时也对无线数据业务的提出了新的要求。在第五代移动通信(Fifth-Generation Mobile Communication,5G)时代,移动无线网络不仅仅需要提供几十倍于4G(Fourth-Generation Mobile Communication)的峰值传输速度,更需要保证毫秒级的数据传输时延。当前的商用的
脑肿瘤又称脑胶质瘤、脑癌,是最具侵袭性的肿瘤之一,无论对患者的身体上还是心理上都威胁极大。核磁共振成像技术由于成像质量高,且对人体没有伤害,在临床上被广泛应用于肿瘤图像的采集。然而脑肿瘤图像十分复杂,不同肿瘤亚区的边界具有一定的模糊性,这使得脑肿瘤分割工作变得非常困难。当前主要是依靠医生或专家手动进行分割,不但效率低,而且医生在长期高强度的工作下可能会导致分割精度的下降。另外,为了能帮助医生进行临
多载波系统是当今水声通信的热点研究方向,其利用循环前缀(Cyclic Prefix,CP)拥有了优秀的抗多径性能,但是其采用的矩形窗带外衰减过慢,导致受多普勒效应干扰明显,且CP的使用也降低了系统的信息传输速率。水声信道复杂且变化快速,存在明显的多普勒效应,后者极大限制多载波通信技术在水声通信中的应用。而滤波器组多载波(Filter Bank Multi-Carrier,FBMC)系统既有良好的抗
移动数据的爆炸式增长,给传统的蜂窝网络带来了前所未有的挑战。为了缓解海量无线流量带来的压力,边缘缓存技术成为了当下研究的热点。边缘缓存把部分网络内容放置在具有缓存能力的边缘节点中,可以在流量高峰时实现快速的内容分发,缓解传统蜂窝网络的流量压力。通常,这些边缘节点可以是基站或者是移动设备等。随着移动设备数量的飞速增加和移动设备中的存储介质成本逐渐降低,D2D(Device-to-Device)通信技