基于呼出气分析和机器学习构建肺癌诊断模型的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:xybcn960
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景:肺癌是目前死亡率第一的恶性肿瘤,其5年生存率仅为17%。如果能在早期阶段被发现,I期非小细胞肺癌的5年生存率约为70-90%。目前大多数肺癌在确诊时已是晚期,早期诊断对改善患者预后至关重要。传统肺癌早诊手段存在辐射暴露、高假阳性率等问题,目前急需简单、快速、灵敏、无创的早诊方式。呼出气分析用于辅助疾病诊断在临床上已有一些应用,是目前最具潜力的无创性早诊手段之一。其原理是挥发性有机化合物(Volatile Organic Compound,VOC)由机体代谢产生,通过血液循环和肺部的气体交换将其带出体内,呈现在呼出气中,从而反应人体的疾病状态,然而,呼出气分析在肺癌诊断的应用尚处于初级阶段。目前尚无大规模的诊断及验证研究。目的:(1)通过招募受试者分析其呼出气成分以及收集他们的临床特征,建立大样本量的肺癌、肺良性疾病和健康人的呼出气-临床特征数据库;(2)通过对比肺癌和健康人以及肺癌和肺良性疾病中的呼出气VOCs成分差异,构建肺癌诊断模型,并筛选潜在的肺癌特异性标志物,为呼出气分析用于肺癌诊断的临床应用提供基础。研究方法:采用固相微萃取(SPME)结合气相色谱质谱法(GC-MS)的方法,分析招募的拟诊为肺癌的受试者(肺癌+肺良性疾病)1191例受试者、804例健康受试者的呼出气成分。从质谱数据中定性VOCs,收集受试者的临床特征上传至Res Man临床公共管理平台建立大样本量的呼出气-临床特征管理平台,再根据不同的应用场景,使用机器学习中遗传算法(Genetic Algorithm,GA)结合支持向量机(Support Vector Machine,SVM)建立肺癌筛查模型(肺癌对比健康人)和肺占位性病变良恶性概率模型(肺癌对比肺良性疾病),为进一步优化肺占位性病变良恶性概率模型的预测能力,将结合临床特征数据,构建整合模型。绘制上述模型的ROC曲线,比较模型性能。研究结果:最终成功分析了629例肺癌患者、606例健康受试者以及139例肺良性疾病患者的呼出气成分,并从质谱数据中识别了64种VOCs,建立了共1374例受试者的大样本呼出气-临床特征数据库,临床特征包括了临床基线特征,比如年龄、性别等,以及影像学特征和病理特征。从数据库中纳入肺癌患者和健康人,基于GA-SVM算法建立了肺癌筛查模型,模型由四氯乙烯、壬醛、C10H16、甲苯、萘、a-蒎烯、琥珀酸二甲酯、N,N-二甲基乙酰胺8种肺癌特异性标志物组成,模型的AUC达到0.98,敏感性达到96.8%,特异性达到93.4%,模型整体准确率达94.8%。进一步从数据库中纳入肺癌和肺良性疾病患者,使用同样的方法建立了呼出气肺占位性病变良恶性概率模型,模型由环己烷、丁酸、丙酮等30种VOCs组成,模型的AUC为0.65,该模型的准确率仅54.15%,敏感性、特异性分别为51.06%,68.29%,在结合筛选出的临床特征变量建立整合模型后,模型预测能力提升,AUC达0.776,模型整体准确率为75.56%。敏感性、特异性分别为78.7%和68.3%。研究结论:(1)通过SPME-GCMS分析受试者的呼出气成分,识别了其中的64种VOCs,发现肺癌患者、肺良性疾病患者及健康受试者的呼出气中VOCs的种类无明显差异,只在含量上存在差异。(2)基于机器学习算法中的GA-SVM对肺癌和健康人的呼出气数据进行分析,建立的肺癌筛查模型具有很好的预测能力,有望用于肺癌早筛,筛选出的VOCs可作为潜在的肺癌标志物。(3)基于GA-SVM对肺癌和肺良性疾病患者呼出气数据进行分析,建立的肺占位性病变良恶性概率模型预测能力不理想,但结合临床特征后,模型的预测能力得到明显提升。
其他文献
背景:肺癌(lung cancer)是危及人类健康的最主要因素之一,根据世界卫生组织最新统计数据显示,在所有人群中肺癌在恶性肿瘤中的发病率和死亡率分别在第二位和第一位,2020年有220万肺癌新发病例和179万人死亡,占癌症死亡人数的近五分之一(18%)。传统治疗(手术、放射治疗和化疗)仍是肺癌治疗的标准方案。提高患者肿瘤的控制率和生存期,降低治疗的毒副作用是科研学者共同追求的目标。目的:本研究利
大脑皮层最显著的形态学特征之一是皮层高度褶皱形成凸起的脑“回”和凹陷的脑“沟”。在过去几十年里,大量研究揭示了脑回和脑沟在遗传学、解剖学、形态学、轴突纤维连接和功能方面具有显著差异,充分反映了大脑解剖结构与功能之间的密切联系。随着近年来磁共振成像(magnetic resonance imaging,MRI)技术的飞速发展,采用非侵入式活体功能磁共振成像(functional MRI,fMRI)技
随着无线通讯系统的不断发展,系统正朝着小型化、高功率的方向演变,多功能融合的无源器件因其高集成、多功能、结构紧凑的特点被广泛应用于无线射频系统前端。自双工天线可以将双工器与天线的功能融合到一起,在减小系统尺寸的同时使天线具有双工功能;介质天线也因其体积小、宽带的特点被广泛应用于天线设计中。本文中的自双工介质谐振器天线的研究主要以介质谐振器天线的模式为基础,利用天线模式分析理论并结合加载技术,完成了
全面性强直阵挛发作(Generalized tonic-clonic seizures,GTCS)作为一种特发性全面性癫痫,主要症状有两种:波及全身的强直阵挛发作以及全导联的脑电活动异常,常规的MRI和CT检查均未发现明显的结构异常,发病原因尚未可知。这种突发的癫痫发作对病人及其家人的生活都造成了极其沉重的负担。越来越多的研究人员致力于探讨GTCS病人的病理机制及其致病因素,并且随着目前技术的高速
研究背景:房颤是临床上最为常见的心律失常之一。可增加缺血性脑卒中及体循环动脉栓塞的风险,对于患有器质性心脏的患者发生房颤后会加重心脏损伤,与此同时,房颤还会导致患者认知功能障碍。有研究发现健康人群进入高海拔环境后心律失常的风险增加,这源于其机体在急性或慢性缺氧下出现代偿改变,一旦突破代偿适应极限便会导致器质性损伤。目前关于世代居住在高海拔地区人群的房颤发生率研究不足。本研究通过对不同海拔高度的大样
肝癌是世界上最常见的恶性肿瘤之一,在原发性肝癌中,70%-90%都属于肝细胞癌(HCC)。肝癌死亡率高,预后较差,且其发病率有着十分明显的性别差异。肝癌发生与多种因素有关,如肝炎病毒感染、致癌物质暴露、非酒精性脂肪肝病等,其中非酒精性脂肪肝病在成年人中的发病率约为20%-30%,且逐年上升。非酒精性脂肪肝病是肝脏代谢综合征的表现,也是肝癌发生的重要驱动因素。早有研究证明,脂质代谢在肝癌发生、发展过
牙周病是口腔疾病中的常见病和多发病,严重的牙周病导致的牙周缺损是成人牙齿缺失的最主要原因。现有的临床治疗手段无法实现牙周组织的生理性再生。在牙发育的过程中,上皮根鞘细胞(Hertwig’s Epithelial Root Sheath,HERS)在牙周及牙根的发育过程中起核心诱导作用,其通过上皮-间充质相互作用募集牙间充质干细胞向其周围迁移,并诱导间充质干细胞分化形成牙髓组织和牙周组织。外泌体(E
高级认知过程一直是研究者们致力探索的重要研究领域,它在生物医学工程、心理学、脑-机接口(Brain-computer interface,BCI)和疾病诊断等方面具有潜在应用价值。但是,目前对高级认知过程仍缺乏深入的了解。隐马尔可夫模型(Hidden Markov model,HMM)作为一种机器学习模型能在全脑和组水平上识别出大脑活动的内部模式。因此,基于前人的认知研究基础,本文采用HMM从新的
商用磁共振成像(Magnetic Resonance Imaging,MRI)设备是在上世纪八十年代被推出,因其软组织对比度高、可任意方向断层成像、无电离辐射等优点广泛用于临床诊断和生命科学研究中。MRI系统包括主计算机、谱仪、放大器、主磁体、线圈等主要部分,其中谱仪是MRI系统核心部件,负责序列运行、信号产生和接收等工作,其性能好坏影响着MRI设备成像质量。本文在课题组原有的研究基础上,对MRI
大脑是一个复杂的网络,信息的高效传输和处理依赖于不同脑区之间的信息交互。复杂脑网络分析法则可以定量评估脑区间的相互作用关系,目前被广泛用于大脑认知、精神性或神经性疾病研究中。然而,某些脑区的缺陷会干扰大脑对即将到来的信息的处理,从而导致网络功能失调。研究表明,许多脑疾病都被视为脑网络障碍,且表现出异常的网络模式,包括癫痫和注意力缺陷多动症(Attention deficit hyperactivi