基于自监督深度学习的肿瘤全数字切片多分类算法设计

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:g2gstock
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
恶性肿瘤(癌症)是一种可发生在身体任意部位的重大疾病,严重危害人类的生命健康。组织病理学诊断是影响癌症治疗和预后的关键因素。随着全数字切片扫描技术的成熟,病理诊断从镜下诊断逐渐转变为人工阅片诊断。由于病理图像的复杂性以及病理医生诊断的主观性,人工诊断全数字切片十分耗时且容易出错。依靠人工智能技术实现全数字切片的自动化辅助诊断对于减轻病理专家的工作量、提高诊断效率和一致性具有重大的现实意义。近年来,深度学习技术的不断突破大大推动了计算病理学的发展。但是由于病理数据标注专业性极强且耗时长,导致了大规模标注数据的匮乏,这一因素制约了深度学习技术在计算病理学更深层次的应用。立足于此,本文首先以全数字切片二分类算法研究为切入点,尝试引入弱标注学习策略以减轻算法对大规模标注数据的依赖。之后,本文从自监督学习的角度进一步探索标注数据匮乏场景下的更为复杂的全数字切片多分类算法。本文以常见的宫颈上皮病变作为应用场景,主要内容如下:面向全数字切片二分类任务,本文提出了一种基于弱标注的融合传统机器学习和深度学习方法的两阶段算法,并对算法的实用性进行了分析。算法包括病变区域检测和全数字切片分类两个阶段。在病变区域检测阶段,我们首先将全数字切片划分为若干个组织分块图像,然后基于分块数据训练一个深度学习分类网络,最后通过合并这些分块图像的预测结果生成表示病变区域检测结果的热力图。在全数字切片分类阶段,我们首先从热力图中提取形态特征信息,然后使用传统机器学习方法完成全数字切片的分类任务。此外,本文还提出了:1)一种弱标注策略来降低对大规模数据标注的依赖;2)一种基于掩码图像的分块重叠采样策略,以提高病变区域检测的准确性;3)一种全卷积分类网络,以提高预测速度。我们的算法获得了较好的分类结果,但是其实用性有限:1)弱标注策略可以在一定程度上降低模型对大规模标注数据的依赖,但是这种有监督算法的性能仍受限于标注数据的规模和质量,故该算法并不能很好地适用于标注数据匮乏场景下的病变区域检测任务;2)基于传统机器学习的全数字切片分类算法依赖于复杂繁琐的特征工程,不利于方法的拓展。为了更好地应对标注数据匮乏的场景并避免繁琐的热力图特征工程,本文针对全数字切片多分类任务提出了一种基于自监督学习的两阶段分类算法。为了充分利用大量无标注数据所包含的信息,在第一阶段,我们面向病理切片分析任务构建了一个基于自监督学习的预训练视觉Transformer(ViT)模型。首先,我们从大量无任何标注的全数字切片中采集大规模的分块数据,然后基于掩码自编码器的生成式自监督学习架构,利用这些无标注分块数据预训练ViT模型,最后在下游任务中使用少量有标注的分块数据微调预训练模型以实现分块数据的分类。在第二阶段,我们提出了一种深度学习方法完成全数字切片分类任务。我们首先使用基于掩码图像的分块数据重叠采样策略生成病变区域热力图,之后在空间维度对热力图进行压缩并在通道维度实现热力图的信息融合,最后基于自定义的融合空间注意力和通道注意力的深度学习网络SCANet实现全数字切片的分类。我们的SCANet模型可以避免繁琐的特征提取过程且有效提升分类任务的性能。我们提出的基于自监督深度学习的两阶段算法在宫颈上皮病变分块数据分类任务上实现了87.14%的准确率,并在全数字切片多分类任务中达到了86.21%的准确率和95.56%的自定义性能度量。这展现了自监督学习方法在标注数据匮乏场景下的巨大的应用潜力,以及两阶段均为深度学习方法的全数字切片多分类算法的优越性。
其他文献
语言能力作为英语学科核心素养之一,是形成文化意识、思维品质和学习能力这三种英语学科要培养的核心素养的基础。英语阅读是英语的接受能力之一,对于英语语言能力的形成至关重要。然而中国的高中生大多只在课堂上进行英语阅读,阅读的内容多为课本内容,且进行阅读主要是为了学习阅读技巧。学生可能很难达到课程标准所要求的阅读量和阅读频率,而且缺乏在进行阅读理解时运用课堂上所学的阅读技巧的实践。根据新课程标准的要求增加
学位
随着天地一体化网络的不断发展,低轨(Lower Earth Orbiting,LEO)卫星通信系统以传播延迟小、覆盖范围广和建设成本低等特点,在空间通信和应急通信等领域有着广泛的应用前景。然而,LEO卫星的业务需求迅速增加,导致通信容量不足。此外,LEO卫星的业务需求在时间和空间分布高度不均,LEO卫星采用固定资源分配方式容易造成卫星提供通信容量与业务需求不匹配,从而降低了系统的资源利用率。针对上
学位
随着我国经济长期向好发展态势的不断延续和人们生活水平的持续提高,重体验、个性化、多样化渐成旅游消费的主流,加速“旅游+”新业态发展已成为破解旅游业供给侧改革困局的“金钥匙”;与此同时,我国素质教育领域深改的重磅炸弹——“双减”政策,开启了协同育人的新征程,研学旅游将迎来重大利好,无疑将成为“旅游+教育”的理想选项。自2013年以来,我国政府不断出台规范和促进研学旅游发展的政策文件和标准。2016年
学位
随着内河船舶大型化发展及数量不断增加,船舶靠离泊高桩码头期间碰撞码头的事故不时发生,船舶和高桩码头的碰撞会造成橡胶护舷的接触、挤压乃至脱离,从而对船舶与高桩码头的结构造成损伤,甚至造成人员伤亡。因此,加强船舶靠泊高桩码头风险防控是一个亟待研究的课题。目前对于船舶靠泊高桩码头的研究主要集中于船舶撞击力及其影响因素的研究,而对船舶靠泊高桩码头风险源辨识系统研究成果较少。本文主要研究船舶靠泊高桩码头的风
学位
随着我国双航母时代的到来,航母的训练及战斗力形成也在不断推进,大批量航空弹药上舰的任务很快会提上日程。在弹库环境复杂、弹药规格型号多样且贮存条件严格的情况下,如何提高航母弹药库的贮存空间利用率进而提升总贮存量;如何提高弹药保障可靠性及出库保障效率从而提高航母战斗力,都是我们所必需考虑和解决的问题。本文针对航母等大型舰船贮运系统的货物贮存规划问题,采用引入变邻域搜索的混合遗传算法进行求解,对问题解决
学位
随着现代化进程的推进,我国社会主要矛盾转变为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾,而我国发展最大的不平衡是城乡发展的不平衡,最大的不充分是农村发展的不充分;提升农村支持政策效能,进一步发挥农村创业活力是促进要素城乡双向流动实现乡村振兴的重要途径。为此,国家出台了一系列返乡创业扶持政策以支持和鼓励农民工、返乡能人、中高等院校毕业生、退役士兵返乡创业:如2020年发改委等十九部门联
学位
随着新媒体技术的发展,使用微博、微信、论坛等社交媒体的网民迅速增长。网民作为信息生产与传播的密切参与者是社交媒体使用的主力军,社交媒体平台成为“大型民间舆论场”。民间舆论与官方舆论的信息传播差异而形成矛盾冲突,政治谣言的诞生及传播率也大幅度增长。政府辟谣成为日常,辟谣失灵现象是政府面临的难题。因此,研究网民社交媒体使用对政治谣言可信度的影响,探索造成政府辟谣失灵现象的成因,是当下亟需研讨的话题,也
学位
传统无级变速箱主要分为液体传动、电力传动、机械传动。其中,液压式功率有限,效率低且只适用于降速传动;机械式润滑要求较高,承载能力低,抗过载及耐冲击性差,且在功率与效率方面难以平衡;液体传动和电力传动可以有蓄能和辅助动力功能,但蓄能和辅助动力功能较弱的现状。本文在分析调查国内外无级变速器发展现状,提出一种新型液电混动多功能无级变速器,本设计方案能够在不改变液路和转动条件下,实现扭矩的连续调节和泵-马
学位
近年来我国奶类产量持续稳定增长,我国作为一个乳业生产大国,乳业已经形成了一个系统的产业链,涉及到产业链上游、中游、下游各个环节。我国政府对乳业安全的强制性规制力度很大,但依然不能避免乳业安全事件发生。单独依靠强制性规制已经难以保障我国乳业的健康发展,因此需要政府激励性规制协同治理保障乳业安全。由于2006年实施的《中华人民共和国畜牧法》首次明确提出,鼓励和扶持发展规模化养殖以及支持畜牧业进行良种补
学位
口述档案作为重要的信息资源,具有凭证作用和参考作用。开发利用口述档案资源,能够补充历史研究中的信息不足,再现历史和挽救文化遗产,进一步满足社会对档案信息资源的需要,实现口述档案文献信息价值。本文从数字人文视角对口述档案开发利用及价值实现进行研究,一方面有利于挖掘口述档案资源丰富的内容和信息量,反映历史全貌,另一方面,及时开发利用口述档案资源能够把握档案信息的时效性,促使口述档案摆脱封闭,走向社会。
学位