论文部分内容阅读
随着医学工作研究者对于医学多媒体资源的需求越来越大、要求越来越高,图像资源的有效检索、利用成为近年来研究的重点和热点。医学图像模态的自动标注是一个多分类问题,它是医学图像检索的关键和基础问题,是建立医学工作者查询和医学图像间语义关联的重要环节。在医学这一专业要求高、资源获取困难的领域,医学文献内的图像资源由于被视作“解释现象的图例”、“证明观点的证据”,具有更加严谨、科学、专业的特点,是临床医生和医学研究人员重点关注的信息资源。然而现有的面向医学图像资源挖掘的研究普遍是利用web资源或者医院少量的标注数据,专业性、科学性不足;同时医学工作者的实际检索需求是面向图像的高层语义展开,而医学图像的高层语义往往是多方面信息的综合体现,但是大部分研究都只利用了表征底层语义的视觉信息,因此导致了和实际检索需求之间的“语义鸿沟”;而由于医学图像标注一般为多标签分类任务,因此常常面临数据类别分布不均衡问题。为了提升医学图像挖掘的专业性,本文针对医学文献内的图像资源进行有关其模态的标注;为了进一步满足医学工作研究者的实际检索需求,本文利用文本信息和视觉信息的互补性提升图像标注的高层语义表示;为了解决医学领域标注样本量少的问题,本文采用从通用领域到医学领域的迁移学习降低深度学习模型过拟合的问题;为解决单标签及多标签分类的数据类别不均衡问题,本文分别采用数据上采样方法和从单标签数据迁移到多标签数据的方法对数据进行均衡化。首先,采用基于替代文本的文本上采样方法和基于GAN的图像上采样方法对数据进行均衡化;然后采用近年来在图像任务上表现优异的Res Net模型以及2018年10月诞生的NLP领域新秀——BERT模型分别对图像数据和文本数据进行从通用领域到医学领域单标签分类、从医学领域单标签分类到医学领域多标签分类的两阶段迁移学习;之后通过融合两个模型的输出对样本进行类别标定。最后通过对比实验并结合实验结果分析、证明本文提出的创新点——均衡化模型优于未均衡化模型,迁移学习模型优于未迁移学习模型,文本BERT模型优于文本CNN模型。本文提出的方法——文本BERT迁移学习模型结合图像Res Net迁移学习模型的实验最终取得了0.0143的汉明损失,0.4932的宏平均1值(在最佳成绩基础上提升了54.13%),0.9501的微平均AUC值以及0.9024的宏平均AUC。