基于深度学习的命名实体识别方法研究

来源 :重庆理工大学 | 被引量 : 0次 | 上传用户:guomenling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是从文本中抽取出关键的实体信息。随着用户在网络中的交互数据量增多,为应对网络信息爆炸的问题,命名实体识别研究一直是研究热点。目前,命名实体识别的相关研究主要基于深度学习的方法开展,研究者一方面尝试在文本的字符隐藏特征表示中加入外部词典信息,另一方面在transformer框架下加强文本字符的边界信息,两者都有效地提升了实体识别的精确度。现有研究存在的主要问题主要有二,一是当前主流的中文命名实体识别模型基于字嵌入表示方法开展工作的,但是在其原字符向量中并不能有效蕴含上下文信息。二是实体信息融合的表示方法尽管改善了实体识别的整体性能,但由于词典的自身局限性,造成词典利用率低,实体匹配不完整。本文主要完成以下工作:(1)提出了一种基于图注意力网络的语义融合表示方法,提升了中文实体识别任务的F1值。首先筛选出文本中所有字符的候选实体集,然后构建文本字符与其候选实体的字符—实体关系图,通过图注意力网络对字符—实体关系邻接矩阵中的字符表示进行更新,从而得到融合上下文实体语义信息的字符表示。将这种字符表示输入到Bi LSTM—CRF实体识别模型中进行实体识别任务测试,实验在Resume、Weibo(NE)、Onto Notes、MSRA四个数据集中的F1值分别为95.38%、56.70%、74.06%、93.26%,较基于单个字符信息表示的命名实体识别方法F1值分别提高1.88%、10.69%、10.03%、4.18%,证明了所提出的字符表示方法在中文命名实体识别任务中的有效性。(2)提出了一种增强文本语义信息的特征表示方法,在工作(1)的基础上,进一步提升了中文实体识别任务的F1值。一是根据文本信息预先用余弦相似度方法筛选出词典对应的相关词汇集,将其与文本字符的特征信息以注意力机制融合,得到新的词汇特征信息;二是为进一步增强文本的字符语义信息,采用多头交叉注意力机制更新文本的字符特征,让其充分学习相关语义信息。最后,将文本字符的前后两个特征状态进行加权融合,通过条件随机场进行实体抽取。实验在Resume、Weibo、Onto Notes、MSRA数据集上的F1值分别达到96.54%、71.06%、83.03%、95.35%,与工作(1)的字符语义融合表示方法的效果又有所提升,比标准的BERT+LSTM+CRF模型的F1值提高1.03%、3.73%、1.21%、0.52%。实验进一步验证本文提出的增强语义信息方法的可行性。
其他文献
自从互联网技术高速发展以来,信息的获取变得十分容易,自媒体、新媒体等依托于互联网技术的媒介已经融入普通人的生活,也产生了巨量的产业需求,但同时也在蚕食着传统出版业的市场。许多报纸、周刊等出版社不得已关掉了线下纸质出版业务,转而面向线上。印刷企业自然也受到了冲击。印刷企业要想获得更大的发展,必须从对外对内两个方面同时发力。对外开拓市场,甚至进行多元化转型,对内则必须要提高管理水平,而全面预算的就是很
学位
自2014年以来,受国家政策重视与扶持,文化产业蓬勃发展,网络游戏、电影传媒等高利润产业吸引着诸多面临天花板的传统制造业转型,跨界并购重组成为炒作热点,尽管跨界并购可以加速企业战略转型,但其背后却雷区重重,风险伴随信息不对称产生,并购过程中往往存在标的物识别难、溢价高等困难,倘若企业自身内部制衡存在漏洞,对外部政策的解读有限,则极易引发一系列商誉危机以及债务问题。而上市公司选择跨界并购的动因五花八
学位
股利政策的选择,对投资者和上市公司都十分重要。对投资者而言,股利是其获得股票投资回报的重要途径。对上市公司而言,股利政策是其进行经营管理、财务决策的重要途径。根据信号传递理论,股利政策可以向投资者传递上市公司经营业绩相关信号,而“高送转”作为股利政策的重要形式,一直受到市场追捧。从财务会计角度来看,“高送转”只是所有者权益内部结构的调整,并不能给股东带来真正的价值,但是投资者和管理者却对此热度不减
学位
2型糖尿病(Type 2 Diabetes Mellitus,T2DM)的主要特征为胰腺β细胞胰岛素分泌功能障碍。本课题组前期研究发现,栀子的主要活性成分京尼平苷是胰高血糖素样肽-1(Glucagons-like Peptide-1,GLP-1)受体的选择性激动剂,可快速调节INS-1细胞的胰岛素分泌。腺苷酸活化蛋白激酶(Adenosine 5-Monophosphate(AMP)-activat
学位
近年来随着互联网的发展,越来越多的网民通过互联网参与到社会热点事件的讨论中,特别是对社会突发敏感事件,越来越多人参与其中,通过各种渠道发表自己的意见,网民对于社会热点话题的讨论如果不受管制有可能会成为网络舆情事件。如何对网络上的话题趋势进行正确预判,对信息的传播规律进行深入的研究并找到有效的话题趋势预测办法,可以帮助管控舆情事件的发生,并成为了急需解决的问题。本文的主要工作是研究合适的方法以对互联
学位
关注儿童健康是健康城市建设背景下的应有之义。从中小学生成长的校园景观入手,探讨校园景观对中小学生的健康促进机制。借鉴城市绿地提升公众健康的作用机制,从校园景观提供生态产品或自然教育服务、促进健康行为活动、提高心理恢复能力、引导积极向上的道德健康等方面研究其对中小学生健康的促进机制。以上海平和双语学校的校园景观改造为例,运用理论机制,以促进师生身心健康为目标,提出设计优化策略。
期刊
自2016年我国针对房地产行业首次提出“房住不炒”市场定位,随后至今“房住不炒”一直作为房地产行业发展的主基调,中央围绕金融端、税收端、供给端以及需求端四大端口发力,陆续出台一系列房地产监管和调控政策,促进房地产行业进入了平稳健康的发展阶段。众多房地产企业在探索新发展模式的过程中,纷纷将目光聚焦到了物业蓝海市场,在物业管理领域频频加码布局。物业管理板块相关资产也成为一些房企为寻求转型破局之路和挖掘
学位
自第四次技术革命浪潮以来,形形色色的社交平台逐渐崭露头角甚至在短时间内发展壮大,它们极大的改变了人们的传统社交模式,规模宏大且复杂的在线社交网络也随之产生。作为在线社交网络研究分支之一的社区发现可以进一步揭示网络的隐藏结构,同时也有利于其他领域的研究。本文主要围绕在线社交网络的状态开展相关工作,分别从在线社交网络的静态性和动态性两个方面进行建模分析和理论研究。本文设计了一系列科学实验,以检验提出模
学位
近年来,白色念珠菌耐药性问题不断加剧,抗菌环肽逐渐成为了治疗耐药性白色念珠菌感染的一类新型替代性药物。本文通过抗菌环肽的合理设计原则,设计了一系列新型抗菌环肽。选择热休克蛋白90为靶标蛋白,对新设计的抗菌环肽进行分子对接,利用分子动力学模拟进一步探究抗菌环肽与靶标蛋白结合的稳定构象,并辅助结合自由能的结果来最终确定候选抗菌环肽。将所得结果较好的4个候选抗菌环肽进行体外抗菌活性测定、细胞毒性以及稳定
学位
间苯三酚及其衍生物是重要的天然产物,因其具有各种生物活性而被人们广泛利用。由于此类化合物主要是从天然提取分离得到,往往需要耗费大量的时间与成本,且分离产率低,使得后续的各种生物活性研究难以进行,所以发展快速高效的化学合成方法来获取此类化合物对于评估其潜在的药理价值有不可忽视的作用。本文以具有苯并吡喃稠合的多环缩酮骨架的间苯三酚类衍生物Hyperaspidinols A-B和Cryptoflavan
学位