面向小样本的医学文本属性抽取系统研究与实现

来源 :东华大学 | 被引量 : 0次 | 上传用户:ch12358
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习技术正在重塑各个行业,在病理诊断领域,医生以非结构化文本的方式记录病理切片的诊断结果,这些文本中包含许多有价值的信息。属性抽取系统可以将文本结构化,从而提炼出新颖有效的知识,辅助医生诊疗决策。本文以肠癌切片病理诊断文本为研究对象,此文本中需要抽取的属性共十一个,可归纳为文本分类和序列标注两种任务。用于属性抽取的深度学习模型往往需要大量标注样本,本文提出一种基于多任务学习和迁移学习的联合模型,重点解决医学文本样本量少导致的过拟合问题,并基于此模型完成肠癌文本属性抽取系统的设计与实现。一方面,医学文本数据标注的成本较高,导致缺少足够的训练数据,传统模型容易发生过拟合现象,联合模型同时训练多个任务,得益于强大的文本特征提取能力和不同学习任务间的底层编码信息共享,使各个任务得到隐式数据增强,相较于单任务模型,各属性抽取准确率显著提升,达到95%以上;另一方面,来自不同数据源的医学文本在表达方式、描述内容、抽取需求等方面存在差异,需要为每一数据源构建单独的模型,迁移学习可以将源域的模型参数迁移至相关的目标域任务中,在目标域进行网络结构修整和微调,为目标域模型提高了性能。本文结合上述方案和病理科实际需求设计出数据流模型和概念模型,实现了基于B/S架构的属性抽取系统,该系统可从一条肠癌诊断文本中同时抽取出十一个属性,形成规范化报告,同时支持离线知识迁移,此外,肠癌属性抽取系统解决方案对其他医学小样本的应用具有参考价值。
其他文献
近年来,随着大数据分析的成熟和价值挖掘的深入,数据的价值越来越大,而数据的价值在于流通,各个行业海量数据除了内部流转,还需要进行外部共享,这是数据发挥大价值的需求和前提,但同时也是信息泄露的来源之一。近年来出现了较多的全球范围数据泄漏问题,按照国家和通信行业对信息安全保护的规划及要求,通信行业试点采用数据安全脱敏技术来保护系统信息安全。Y公司作为国内一家通信运营商,按照上级领导部门要求,对涉密的内
阿尔兹海默症是一种神经不可逆疾病,在时间的逐渐推移过程中,患者自身的病情也将愈发严重。医学上将阿尔兹海默症的发展分为三个阶段,分别是认知正常(CN)、轻度认知障碍(MCI)和确诊阿尔兹海默症(AD)。目前,核磁共振(MRI)影像中海马体部位的体积和形态特征已经被用作诊断阿尔兹海默症的重要生物标志物,因此,针对海马体的研究对阿尔兹海默病的辅助诊断有着重大意义。本文以结构核磁共振(sMRI)影像为研究
碳纤维复合材料(CFRP)具有比强度高、比模量高、密度小、耐高温、耐腐蚀等优点,在航空航天、工业制造等国家军工领域应用比较广泛。3D打印技术具有易于成型复杂零件、成型速度快、材料利用率高等优点。将碳纤维复合材料与3D打印技术相结合,可快速精确地制造出碳纤维复合材料成型件,具有重要的工程应用价值。针对长纤碳纤维复合材料成型工艺特点,本文构建了基于熔融沉积成型(fused deposition mod
随着空间技术不断发展,卫星通信前端的空间越来越有限,因此天线与射频模块的小型化、共口径复用成为此领域技术发展的重要方向。本文面向多频空间通信导航系统的应用需求,探索圆极化可重构滤波天线一体化设计新方法,并在此基础上完成可重构滤波天线样机设计,验证技术方案的可行性。在传统阵列天线设计中滤波网络与极化的控制往往是两个独立功能的单元,本文将两部分合二为一,在相位控制的过程中利用耦合谐振器的滤波特性实现相
随着近些年我国移动互联网的高速发展,用户体量激增,各企业需要建立超大型的数据中心部署云服务为用户传递、加速、展示、计算、存储数据信息。基于业务形态、用户规模和成本等因素考虑,云及数据中心迁移正成为一种常态化,而其中的进度效率问题面临着重大挑战。本文主要针对企业在进行云及数据中心迁移时,迁移效率低下导致的工期延误、成本损失等进度问题进行研究。本文以P公司为例,将其视频云核心数据中心迁移项目作为案例,
随着当代社会的发展以及人们生活方式的变化,脑癌及脑血管疾病逐渐成为中国死亡率较高的疾病之一。在临床中,通过在多模态Magnetic Resonance(MR)图片上准确提取出脑肿瘤区域,能够让医生有针对性地进行脑肿瘤的体积测量、监测患者的脑肿瘤生长并制定治疗计划和随访评估。然而,人工分割脑肿瘤MR图片是一项非常繁琐、耗时且容易出错的任务,主要是由于操作者容易疲劳、分割主观性较强以及影像数据过于庞杂
随着时代的快速发展,学生身边存在的诱惑越来越多,由于一些学生,特别是低龄学生的自控能力比较差,学生很难经受住身边的诱惑,学习时经常会受到周边事物的影响而导致学习专注度下降,影响学习效率,此时需要一种学生学习状态检测的方法对当前学生的学习状态进行评估来辅助家长等监督学生学习。本文针对以上需求,提出了一种基于Faster RCNN的学习状态检测的方式,并结合判断学生关注的区域以提高检测效果。本文主要工
摩擦取向技术虽然目前应用十分广泛,但由于它的一些天然劣势在一定程度上限制了它的发展,比如,在摩擦过程中难以避免的会有一些灰尘或者静电电荷的进入,并且当显示的图像变大时,摩擦痕迹就会变得更加明显等等。为了突破摩擦法的局限性,学者们提出并发展了光控取向技术,这种取向技术可以在不损坏基材,避免灰尘以及一些静电电荷的情况下创建高质量的液晶显示器(Liquid crystal display,LCD)。随着
随着汽车工业和通信技术的发展,车联网技术的研究受到越来越多的关注。终端直通(Device-to-Device,D2D)通信技术作为5G的重要组成部分,允许近距离的终端设备复用现有蜂窝网络资源进行直连通信,具有高吞吐量、低时延的优点。因此在车辆通信中引入D2D技术不仅能够满足用户对通信质量的高要求,还可以有效提升频谱资源利用率。然而在车辆D2D通信系统中,由于资源的复用,通信过程中会产生大量的同频干
随着数字化产品需求增加以及智能化技术的普及,半导体产品的重要程度日益增强。晶圆良率作为衡量晶圆制造水平质量的关键指标,如何有效控制其水平是晶圆制造企业核心问题。晶圆允收测试参数(Wafer Acceptance Test,WAT)是晶圆制造完成以后,对晶圆片围绕物理与电学性能进行的测试,用以检验制造过程中的晶圆产品质量情况。由于各WAT参数分别反应各阶段的制造工艺水平,以WAT参数为调控对象,为晶