【摘 要】
:
随着高通量技术应用于生物医学研究,生物医学文献的数量急速增长,使用文献挖掘技术自动从文献中准确的提取知识显得尤为重要。而近年来,预训练语言模型如BERT的兴起极大的推动了生物医学文献挖掘领域的发展,其使用基于深层Transformer的模型结构,并通过特定的预训练任务在大规模通用领域语料库上进行预训练的方式,有效的提升了预训练语言模型的语言表征能力,同时通过任务精调的方式在生物医学命名实体识别任务
论文部分内容阅读
随着高通量技术应用于生物医学研究,生物医学文献的数量急速增长,使用文献挖掘技术自动从文献中准确的提取知识显得尤为重要。而近年来,预训练语言模型如BERT的兴起极大的推动了生物医学文献挖掘领域的发展,其使用基于深层Transformer的模型结构,并通过特定的预训练任务在大规模通用领域语料库上进行预训练的方式,有效的提升了预训练语言模型的语言表征能力,同时通过任务精调的方式在生物医学命名实体识别任务中表现出优秀的实体识别性能。然而,一方面现有将预训练语言模型迁移到生物医学领域仅是通过更换语料库的方式实现,存在较大改进空间;而另一方面,基于预训练语言模型的生物医学命名实体识别模型存在模型规模过大、速度过慢的缺点。针对上述两个问题,本文围绕生物医学领域预训练语言模型展开相关研究。首先,针对如何在预训练语言模型中引入外部生物医学领域知识的问题,本文综合考虑生物医学领域文献特点,提出了两种生物医学领域预训练任务:生物医学实体级遮掩语言模型任务BEMLM和生物医学实体类别预测任务BETP,通过命名实体识别模型对生物医学实体进行自动化抽取,并利用抽取结果完成预测任务的自动化构建。其次,针对如何将预训练语言模型迁移到生物医学文献挖掘领域的问题,本文提出了一种基于BERT的生物医学领域预训练语言模型BioTypeBERT,通过在预测层建立对应任务分类器,结合BEMLM和BETP预训练任务进行联合学习,解决现有研究没有引入外部生物医学领域知识的不足,对于生物医学领域预训练语言模型的发展具有一定的指导意义。并以任务精调的方式用于各生物医学文献挖掘任务的运用。最后通过在五组公开数据集上的有效性实验,验证了 BioTypeBERT的有效性。此外,针对如何高效压缩基于预训练语言模型的生物医学命名实体识别模型,提出了一种基于动态权重的知识蒸馏方法DKG,解决了现有知识蒸馏方法过于依赖经验进行调参的问题,其使用动态权重函数模拟非线性学习曲线并优化知识蒸馏过程,用于对预训练语言模型的高效压缩,对于模型压缩算法具有一定参考意义。同时提出了基于知识蒸馏的生物医学命名实体识别模型FastBioNER,将经过任务精调后的预训练语言模型作为教师模型压缩到规模较小的学生模型中去,最后通过公开数据集对FastBioNER进行了实验验证。
其他文献
噪声作为一种特殊的数据形式伴随着信号的出现而出现,其按概率密度函数可分类为高斯噪声、椒盐噪声、伽马噪声、瑞丽噪声等。图像噪声的产生会使其含载的信息受到干扰,对后续依赖于图像数据的处理如数据挖掘、机器学习、图像识别等造成很大影响。经典的图像去噪算法针对二维图像数据,应用各种先验知识与数学模型在尽可能保留原始图像细节的前提下最大程度去除噪声干扰。然而对高光谱图像(Hyperspectral image
三维目标检测在汽车自动驾驶、机器人环境感知等应用中占有重要的地位,主要研究如何有效地感知三维环境信息,对感兴趣目标进行准确分类和定位。相比于二维目标检测,三维检测由于维度增加更具有挑战性。一方面,各类传感器数据单独应用于三维场景理解时都有不足之处,例如激光雷达获取的点云稀疏且不规则;相机获取的图像缺乏空间深度信息。另一方面,物体在空间中随机分布,当目标距离远或部分被遮挡时,容易出现漏检情况。针对以
随着交通信息量爆炸式地增长,难以仅凭人工处理方式实现对其的管理,以系统化和智能化方式对交通数据进行的操作的智能交通系统逐渐在现代交通管理中占据了重要地位。车辆作为交通中的一个重要组成成分,要完成整个系统的智能化管理,使用各种现代技术处理车辆数据是智能交通中不可或缺的一个重要环节。现阶段用于车辆检测与识别的技术中存在诸如处理计算量较大、效率较低等问题。针对上文中提到的车辆检测与识别技术中存在计算量大
在当今这个数字化、信息化高速发展的时代,“互联网+”技术风靡全球,微电子技术与互联网技术相结合成为许多行业发展的重点,使得电子产品的发展逐步走向微小化、精密化,这也推动了电子产品组装工艺的进步,点胶机在电子产品的表面贴装中起着十分重要的作用。和国外成熟的自动化点胶设备相比,我国点胶机无论是在点胶精度还是点胶速度上都有很大差距。点胶机在点胶加工的过程中会产生多种误差,其中主要包括与机床组件运动过程中
自身免疫性疾病是指由于某些原因造成免疫系统对自身成分的免疫耐受减低或破坏,致使自身抗体或致敏淋巴细胞损伤自身器官组织而引起的疾病。抗核抗体(Antinuclear Antibodies,ANA)作为自身免疫病患者中最常见的一类自身抗体,对相关疾病的分类、鉴别、分型、预测、预后及预防等具有重要的临床意义。传统的ANA检测以手工操作为主,需要人工对荧光显微镜下的ANA图像进行判读,并判断其所属的荧光模
近年来,随着区块链分布式账本的快速发展,区块链上的信息增长迅速,在区块链网络中,为了保证去中心化,每个节点都要独立的保存区块链数据,而不断增长的区块链信息提高了区块链网络中节点的存储要求,同时也给新加入网络的节点带来大量同步以及验证的负担,这提高了成为区块链网络节点的门槛,进而导致保存区块链信息的节点数量减少,对区块链的去中心化造成消极影响,不利于区块链网络的发展,因此越来越多的研究着眼于优化区块
激光选区熔化(SLM)3D打印技术由于其个性化定制、能够成形复杂修复体、成形精度高、能大批量生产修复体、理化性能优异等特点,在口腔修复体领域拥有广泛的应用前景。但是SLM技术也存在一系列问题待以解决,其成形件内部孔隙较多、表面粗糙度较差、残余应力较大,以上这些问题一直困扰着SLM技术在口腔修复领域的临床应用。为解决以上问题,本文首先对SLM钴铬合金的显微组织进行表征,分析其显微组织的特点。然后通过
随着中国科技与经济的快速发展,中国汽车持有量仍在大幅增加,然而交通拥堵、交通事故等一系列道路安全问题也在持续攀升,其中由于车辆异常行为导致的悲剧占据多数,无论是车辆故障还是驾驶员问题引起的车辆异常行为均会给自己或者他人带来致命性的伤害。因此,车辆异常行为识别作为智能交通安全管理与智慧城市交通管理领域重要的关键技术,已经成为当今人工智能研究与应用的重要内容之一。近年来,交通监管技术主要着手于车辆违规
金属密封环作为超高真空阀门中的关键密封零件,其性能将直接影响超高真空系统设备的健康运行与工作效率。随着半导体芯片、特种冶炼、真空镀膜等行业的蓬勃发展,超高真空阀门的应用大幅拓宽,其中的金属密封环也面临着更高性能的需求与挑战。因此,通过性能分析与结构优化提升超高真空阀门中金属密封环的综合性能显得尤为重要。本课题以某型号DN40全金属超高真空角阀的金属密封环为研究对象,基于金属密封环的结构受力与密封机
随着微电子技术、通信技术、嵌入式技术和人工智能技术的飞速发展,这些技术已进入到农业和工程机械领域。当前,我国现代农业机械行业正处于加速发展的重要阶段,人们对联合收割机性能和工作效率的要求越来越高,迫切需要提高联合收割机的自动化和智能水平。目前,国内联合收割机机型的自动化程度低于国外机型,联合收割机作业控制所采用的电控手柄主要依靠进口,虽然部分机型已经采用电控手柄控制方式进行收割作业,但大部分联合收