医疗场景中训练样本不足情况的机器学习方法研究与应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:daney_he
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着机器学习技术的兴起尤其是深度学习技术的蓬勃发展,人类社会迎来了人工智能的黄金时代。在新时代背景下,大量卫生保健数据加速创建,传统医疗正逐渐向智能模式转变。如何从海量电子病历中获得有价值的医学信息,是智慧医疗发展的需求,也是目前构建智慧医疗体系所面临的重大挑战。相关实验研究表明,大量的准确标注的训练样本是使用机器学习方法获得准确率高、泛化性能好的模型的基础。然而,在医疗领域,对于某些发病率较低的疾病,往往没有足够的病例数据。如何从少量的病例样本中泛化罕见的类别,是智能医疗领域的难点问题,同时,也是机器学习领域的热点问题,具有重要的现实意义。在实际医疗场景下,有两类典型的训练样本数据不足的情况:一类是高度非平衡的病例数据。以产前筛查数据为例,这类数据一般是结构化文本,由于疾病发病率低,阳性样本少,且特征之间具有未知关联性,学习难度很大。另一类是小样本医疗影像数据。由于某些疾病的亚型种类很多,某一类亚型的样本数量相对较少,使用数据饥饿的深度学习框架学习这类图像的时候往往会发生过拟合现象,从而致使该类亚型疾病的识别准确率极低。本文主要针对以上两种情况开展相关的研究工作。对于高度非平衡数据的学习方法研究,本文针对单一的有监督学习和无监督学习方法不能兼顾检出结果的假阳性率和检出率的现象,提出有监督和无监督学习相结合的级联学习方法 CVIFLR(Cascaded Framework of Voting Isolation Forests and Logistic Regression)。该方法通过级联的模式,将无监督学习的泛化性和有监督学习的精准性相结合。摆脱了传统的基于重采样技术的非平衡学习方法的模式与弊端,全面提升分类性能。本文使用吉林省产前筛查数据作为实验数据集,在该数据集上对比分析常用的非平衡学习方法,利用CVIFLR框架筛选最优的输入特征组合,训练具有地方特色的产前筛查模型。对于小样本图像的识别方法研究,本文在对比分析基于度量(Metric-based)的小样本学习方法的基础上,针对其特征提取网络深度较浅,特征提取能力不足的问题,引入Dense Layer结构。在加深网络深度的同时,提高网络的特征和梯度的传递效率,克服网络加深而产生的过拟合现象。并通过对抗学习的方法来训练模型,进一步提高网络的泛化能力和小样本图像识别的准确率。实验结果表明,本文提出的CVIFLR级联算法,对高度非平衡的文本病例数据有很好的分类效果。在类别比例为阴性:阳性=10244:108的吉林省唐氏综合征产前筛查数据集上的分类性能优于现有的非平衡学习方法,通过参数调整,AUROC可达到0.99。而本文提出的两种原型网络改进算法(Dense P-net,GAN-DPN),能从少量的样本图像中提取具有泛化能力的类别特征,在小样本学习常用的miniImageNet数据集上做5-way 1-shot和5-way 5-shot分类任务,识别准确率均高于原始的原型网络算法。本文的三个算法为不均衡数据异常发现和小样本图像识别提供了有效方法,在医学、军事、工业等领域都具有一定的应用价值。
其他文献
目的观察服用芪叶保肝饮治疗有效的酒精性肝病患者的远期预后情况。方法招募100例酒精性肝病患者,服用芪叶保肝饮,每日一剂,分早晚两次服用,3个月为1个疗程,连续服用2个疗程,
本文在Lorenz环流分解基础上比较了全球低层平流层(150~10hPa)ECMWF和NCEP/NCAR两种再分析资料月平均温度场的差异。ECMWF和NCEP资料时间跨度均为1958年1月至2001年12月,它们分
目的:探讨分析引起门诊输液室发生医院感染的危险因素,并提出预防措施,降低门诊输液室的医院感染发生率,确保患者的就诊安全。方法:回顾性分析2014年2月~2015年10月在浙江省
太阳能是一种清洁能源,具有可再生、分布广、无污染等特点,存在巨大的市场开发潜力。光伏发电作为太阳能最主要的使用应用方式,因其核心部件结构简单,性能稳定且发电过程无污
在经济高速发展的今天,“快捷”是当今社会的主流生活节奏。然而,在国家开放二孩政策及其他一系列辅助政策,改善人口增长率逐步下降、人口老龄化等问题的背景下,育婴时的不便