基于深度学习的命名实体识别算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:redbattleline
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,如何从海量数据中快速、精准地获取信息显得尤为重要,命名实体识别研究有助于人们更好地进行信息处理等任务,从而更好地利用大数据中蕴含的信息。本文主要针对于中文命名实体识别中实体边界的确定以及实体歧义的消除这两大难点进行深入的研究,在现有的深度学习框架下进行优化,主要工作如下:1、本文提出了基于深度学习的字符级命名实体识别算法,利用卷积神经网络来提取字符级的N-gram特征,不但增加了实体与上下文之间的关联,而且不涉及人工规则以及特定领域的知识。首先,利用Wikipedia语料库来训练word2vec模型,从而得到预训练的字向量。然后,利用卷积神经网络提取字与字之间的N-gram特征。最后,通过双向长短期记忆网络和条件随机场对文本序列进行命名实体标注。2、本文提出了基于深度学习的笔画级命名实体识别算法,利用中文字符的五笔编码和神经网络来得到字的笔画级特征,获得更多的字符的形态和语义信息。首先,以预训练字向量和笔画级向量共同组成含有笔画级信息的字向量作为网络的输入。然后,利用字符级的神经网络进行标注。最后,引入桶策略来提高模型训练的速度和效率。为了验证本文提出的基于深度学习的字符级和笔画级命名实体识别算法的有效性,在SIGHAN Bakeoff-2006语料库和微博语料库上与现有文献发表的结果进行对比。实验结果表明,本文提出的字符级和笔画级命名实体识别算法性能超过了现有算法,分别在MSRA和CityU语料库中达到了91.67%和90.68%的F1值,在微博语料库上也达到最佳的结果。
其他文献
化学发光分析法(Chemiluminescence,CL)是根据化学发光反应在某一时刻的发光强度来直接或间接测定反应体系中待测物含量的分析方法,它与流动注射技术结合建立的流动注射化学分
目的:本研究旨在深入探讨载脂蛋白A-I模拟肽D-4F减轻造影剂诱导的血管内皮氧化损伤的分子机制。方法:体外实验:本研究分离与培养原代人脐静脉内皮细胞(HUVECs),利用活性氧探
有机太阳能电池具有质轻、柔性和可以进行大面积制备的优点。目前,有机太阳能电池的效率已经突破了18%。基于聚合物受体的有机太阳能电池在热力学和机械稳定性上具有明显的优
女性盆底功能障碍性疾病是一种由于盆底支持组织的生物力学性质发生进行性减退而导致的盆腔器官移位和功能异常的中老年女性常见慢性疾病,主要症状有:盆腔器官脱垂、压力性尿
螺旋管式直流蒸汽发生器(OTSG)大量应用于一体化小型核反应堆(SMR)中。其蒸发盘管临界后传热及流动特性对OTSG 一二次侧换热具有重要影响。论文通过分析了临界后弥散流膜态沸
棉花(Gossypium spp.)作为全球最重要的经济作物之一,也是世界上重要的天然纤维和油料的来源之一,但是其产量以及纤维品质极严重的受到黄萎病菌(Verticillium dahliae)的危害而显
钙钛矿太阳能电池(PSCs)因其使用的钙钛矿材料光学性能优异且器件制备工艺简单而受到广泛关注。自2009年首次报道以来,PSCs的光电转换效率(PCE)从3.8%飙升至25.2%。但是,钙钛矿多
随着经济发展和人口数量的增加,水体污染带来了越来越严重的环境及生态问题,影响着人类健康、经济和社会的可持续发展。因此,工业废水的有效处理已成为环境科学界急需解决的
抗缪勒氏管激素(Anti-mulerian hormone,AMH)是β转化生长因子超家族的成员之一,AMH可以抑制原始卵泡的募集和降低卵泡对FSH的敏感性,但是作用机制尚不清楚。近些年来,AMH作
长春碱(Vinblastine)和长春新碱(Vincristine)具有高效的抗肿瘤活性,是临床上抗癌药物的主要成分。长春花(Catharanthus roseus)是长春新碱和长春碱的唯一来源,但因其在长春