【摘 要】
:
命名实体识别作为自然语言处理领域的基础性任务,实体抽取的效果好坏直接影响到关系抽取、事件抽取等下游任务的上界。传统的实体抽取技术大多采用词典规则和统计机器学习方法,在低资源的目标语言和目标领域中,不能有效地进行实体抽取。随着跨语言词向量、迁移学习和深度神经网络模型的出现,为解决上述问题提供了新的思路。本文旨在探究跨语言和跨领域情境下的实体抽取问题,即在目标语言和目标领域实体标签语料很少、文本噪音多
论文部分内容阅读
命名实体识别作为自然语言处理领域的基础性任务,实体抽取的效果好坏直接影响到关系抽取、事件抽取等下游任务的上界。传统的实体抽取技术大多采用词典规则和统计机器学习方法,在低资源的目标语言和目标领域中,不能有效地进行实体抽取。随着跨语言词向量、迁移学习和深度神经网络模型的出现,为解决上述问题提供了新的思路。本文旨在探究跨语言和跨领域情境下的实体抽取问题,即在目标语言和目标领域实体标签语料很少、文本噪音多的情况下,如何对目标语言和目标领域进行有效地实体抽取。在现有研究中,迁移学习和深度学习尚未系统地应用于跨语言和跨领域命名实体识别任务中。鉴于此,在跨语言情境下,提出一种基于标签迁移学习和深度学习的跨语言命名实体识别框架CL-NER(Cross Language-Named Entity Recognition);在跨领域情境下,提出一种基于参数迁移学习和深度学习的跨领域命名实体识别框架CD-NER(Cross Domain-Named Entity Recognition)。具体而言,本文的主要工作包括如下两点:1)提出融合迁移学习和深度学习的跨语言命名实体识别框架CL-NER,将跨语言实体抽取分解为跨语言标签映射和命名实体识别两个子模块。基于标签的迁移学习思想,通过廉价翻译、词典规约和自学习三种方法,将源语言的标签数据迁移给目标语言;在此基础上对目标语言建立三种不同的命名实体识别模型。在跨语言标签映射模块中,自学习方法取得最好的实验结果;在命名实体识别模块中,GRU-LSTM-CRF深度学习模型取得最好的实验结果。当目标语言的语料资源有限时,可借助源语言丰富的标注语料,使用跨语言迁移学习方法,提高目标语言命名实体识别的效果。2)提出融合迁移学习和深度学习的跨领域命名实体识别框架CD-NER,将跨领域实体抽取分解为命名实体识别和参数迁移学习两个子模块。在命名实体识别模块中,源领域和目标领域均使用LSTM-CRF深度学习模型进行实体抽取;基于参数的迁移学习思想,通过多任务学习和预训练两种方法,实现从源领域到目标领域的参数迁移,其中BERT-FineTune方法取得最好的实验结果。当目标领域的文本噪音多,可借助源领域丰富的标注语料和成熟的预训练模型,使用跨领域迁移学习方法,提高目标领域命名实体识别的效果。
其他文献
《D大调双簧管奏鸣曲》是法国民族乐派作曲家圣桑创作的奏鸣曲,也是他创作生涯晚期所创作的一个作品,该奏鸣曲的意境较为高雅,属于典型的浪漫主义风格的优秀的双簧管奏鸣曲。这给当时法国民族派音乐的振兴,提供了更为多元的帮助,特定的历史时期,优秀的创作,让这首奏鸣曲具有了特色的意义和价值。所以,笔者以该奏鸣曲为研究对象,基于目前的相关研究文献、文字资料以及影像资料作为写作的研究基础,分三个部分对作品进行深入
本文通过对Beat-Box这一音乐文化进行分析,总结出Beat-Box作为Hip-Hop音乐文化里的新型元素,在近几年飞速的发展,不管是作为口技形式的存在,还是与其他音乐形式的混合,都能够给现代流行音乐添加一份色彩。但是目前国内Beat-Box处于初级发展阶段,且以往研究中对于Beat-Box的分析大多具有局限性。本文主要针对Beat-Box的技术、技巧和舞台表演形式多样性进行了针对性研究,通过对
布鲁斯音乐作为流行音乐的根基有着渊源的发展历程,在其发展过程中随着不同时期社会条件的变化,音乐形态也随之产生变化。本篇论文通过对布鲁斯音乐发展历程的研究,对现代流行音乐所应用的布鲁斯元素进行分析。通过歌曲从和声以及旋律的角度分析布鲁斯音阶大小调转换在歌曲中的应用,为后期的创作提供更多的动机和素材。
热障涂层(Thermal Barrier Coatings,TBCs)广泛应用于航空发动机燃烧室、涡轮叶片等热端部件表面,提供隔热和腐蚀防护。当前,航空发动机热端部件表面的实际工作温度随着涡轮进口温度不断提高。当热端部件表面工作温度超过1260 ℃时,从空气中吸入的粉尘、火山灰、砂砾等固体颗粒(主要成分为CaO-MgO-Al2O3-SiO2,CMAS)会熔化形成液态玻璃,附着在热障涂层表面。CMA
罗忠镕先生创作的中国古诗词声乐套曲《秋之歌》,属于中国艺术歌曲中的古诗词艺术歌曲,这部套曲包含《山行》、《南陵道中》、《寄扬州韩绰判官》三首作品,歌词内容均出自唐代诗人杜牧,罗忠镕先生高超的创作技巧与杜牧的诗词所彰显的意境融为一体,具有极高的艺术研究价值。声乐套曲是歌唱中的重要体裁之一,一般要求歌者将整套作品放在一起演唱和研究。本文通过对作品的基本概述,再到作品的艺术特征和演唱技巧进行分析和阐述,
本论文主要对任选期权和复合期权的定价问题做了进一步研究.首先,本文利用分数布朗运动描述了真实金融资产价格所表现出的“尖峰、厚尾”的非正态分布特征,以及长期记忆性和自相似性现象.同时,考虑到市场利率的均值回复性对金融市场的影响,采用Vasicek随机利率模型刻画了利率的随机波动现象,由此,建立分数Vasicek随机利率下的金融市场数学模型.在该模型下,利用风险中性定价方法对欧式简单任选期权和复杂任选
目的:评估并分析我院超低出生体重儿和极低出生体重儿急性肾损伤(Acute kidney injury,AKI)的发生率、危险因素等,为后期指导临床早期防治新生儿AKI提供参考。方法:回顾我院2015年至2019年收治的250例超低出生体重儿和极低出生体重儿的住院资料,收集住院时的临床数据资料,主要包括产妇以及新生儿两者的病史资料,并根据新生儿AKI的诊断标准,将患儿分成为两组:患有AKI组和未患有
随着现代工业的发展,环境污染问题日益严重,光催化技术被认为是一种低成本、高效、环保的环境污染治理技术。氯氧化铋(BiOCl)因具有无二次污染、强氧化性、高稳定性等优点,被认为是一种具有潜在应用前景的光催化剂材料。然而,BiOCl的禁带宽度大,仅在紫外光下响应,而且光生电子和空穴的复合率高,从而严重制约了其光催化活性。本文通过金属负载、异质结构建和氧空位引入等方法,分别设计了金属/半导体型异质结(T