基于临床病理因素构建子宫内膜癌卵巢转移的预测模型

来源 :山东大学 | 被引量 : 0次 | 上传用户:Waaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景
  子宫内膜癌(endometrial cancer,EC),作为女性中发病率排名第六,女性生殖系统发病率排名第二的恶性肿瘤,在世界范围内其发病率逐年升高[1]。高于80%的患者发病时诊断年龄在50岁以上。EC中位发病年龄为63岁[2]。近年来,生活水平日益提高,特别是肥胖人群的增加,越来越多年轻人发生EC[3]。如何在治疗疾病的同时兼顾年轻患者对于生活质量的要求显得至关重要。目前EC的初始治疗是以手术为基础的综合治疗,包括全子宫切除(total hysterectomy,TH)加双附件(bilateral salpingo-oophorectomy,BSO)切除,和(或)淋巴结评估,术后根据高危因素决定是否给予放化疗等辅助治疗[4]。然而,卵巢切除导致手术绝经,使得妇女提前进入更年期,并出现一系列围绝经期综合征症状,如潮热、骨质疏松等,并且极大增加了心血管疾病全因死亡率[5,6]。因此,可以考虑在年轻的早期EC患者中施行保留双侧卵巢的分期手术。既往文献报道,深肌层浸润、淋巴脉管间隙浸润(lymph vascular space invasion,LVSI)、非子宫内膜样腺癌、淋巴结转移、组织学分级等是卵巢转移的高危因素。目前,尚无研究定量地评估各因素和卵巢转移的相关性。建立EC卵巢转移预测模型,明确每种危险因素的权重,精准计算每位EC患者发生卵巢转移的概率,指导手术方式,具有较高的临床应用价值。
  研究目的
  1.探讨EC卵巢转移的发病率及发生卵巢转移的高危因素;
  2.构建EC卵巢转移的广义线性模型,并实现模型可视化,指导临床决策;
  2.构建EC卵巢转移的支持向量机模型,实现模型内、外比较,提升模型的预测能力。
  研究方法
  一、病人及研究资料
  1.确定研究对象:本研究是一项回顾性病例对照研究。研究纳入自2010年1月至2018年12月于山东大学齐鲁医院妇科因EC而接受手术治疗的病人。纳入标准:(1)术前经诊断性刮宫术或宫腔镜手术病理确诊为EC:(2)手术范围至少包括全子宫加双侧卵巢-输卵管切除。排除(1)术后经病理证实为其他类型的恶性肿瘤;(2)患者既往接受过新辅助放化疗;(3)因合并严重内外科疾病、精神疾病未能行手术治疗的患者。将所有的研究对象按照7:3的比例随机分为两组:建模组和验证组。
  2.研究变量的选择:研究因素主要包括三方面。患者临床基本信息:年龄;月经史,如初潮早、晚绝经;孕产史,如未生育、生育年龄晚;既往史,包括糖尿病史(高胰岛素血症)、高血压;家族史,如子宫内膜癌家族史[7];其他恶性肿瘤个人史[8];免疫组化因素:雌激素受体(estrogen receptor,ER)、孕激素受体(progesterone receptor,PR)染色比例分数及强度分数,Ki67增殖分数;术后病理信息:肌层浸润深度(≥50%,<50%),LVSI,累及宫颈间质,组织学分型(子宫内膜样腺癌;非子宫内膜样癌),组织学分级(G1、G2、G3),肿瘤直径大小,宫旁浸润,累及阴道,累及输卵管,存在淋巴结转移。
  3.术后随访:患者术后2-3年内每3-6个月复查一次;3年以后每半年复查一次;5年后每一年复查一次。复查内容包括病史采集、全身及专科查体、实验室检验、影像学检查。
  二、探究EC患者卵巢转移的风险因素
  1.EC患者的临床病理特征;连续性数据以最小值、最大值和中位数描述;利用计数和百分比描述分类数据。通过卡方检验比较两组间分类变量有无差异。通过Shapiro检验实现连续性数据的正态性检验。单因素方差分析实现正态分布数据组间比较;Wilcox非参数检验实现非正态分布数据的组间比较。P小于0.05被认为具有统计学意义。
  2.单因素分析:利用单因素Logistic分析,探讨临床基本信息、免疫组化因素、术后病理信息这三方面研究变量与卵巢转移之间的关系。
  三、广义线性模型(generalized linear model,GLM)
  1.变量筛选:Lasso(Least absolute shrinkage and selection operator)回归用于进一步筛选单因素Logistic分析有意义的研究因素,进入后续模型构建[9]。
  2.模型构建及可视化:Lasso回归筛选出的变量被纳入构建多因素Logistic回归模型,并绘制列线图(nomogram)[10]完成模型可视化。对模型中的危险因素定量赋分,加和得到每一个EC患者发生卵巢转移的概率。并且,通过Youdensindex计算模型的风险阈值。
  3.模型评价及验证:利用建模组和验证组数据,基于交叉验证[11]、Bootstrap法[12],从模型的三个方面,包括区分度,即模型能否正确区分结局变量的能力,采用AUC(area under the curve),绘制受试者工作(receiver operator curve,ROC)曲线[13]进行评价;一致性,即模型的预测值与真实值之间的重合程度,通过绘制一致性曲线[14]、Hosmer-Lemeshow检验进行评价;临床实用性,通过决策分析曲线(decision curve analysis,DCA)[15]来分析,从而实现模型的内外部验证和评价。
  4.亚组分析
  从总的研究队列中排除临床分期Ⅰ期、组织学类型为子宫内膜样腺癌、高分化的EC患者,评价nomogram预测模型在本组中的表现。
  四、支持向量机(support vector machine, SVM)模型
  1.数据预处理:调用R语言“model.matrix”函数,将因子型自变量,转化成多个二元属性,便于后续的数据分析。
  2.模型训练及调参:模型纳入单因素Logistic回归中有统计学意义的变量。本研究训练了4类具有不同核函数SVM模型:(1)线性核函数,其惩罚系数cost设置为0.001、0.01、0.1、1、5、10;(2)多项式核函数,参数degree设置为3、4、5,参数coef0设置为0.1、0.5、1、2、3、4;(3)径向核函数,参数gamma设置为0.1、0.5、1、2、3、4,参数cost设置为0.1、0.5、5。(4)sigmoid核函数,参数gamma设置为0.1、0.5、1、2、3、4,参数coef0设置为0.1、0.5、1、2、3、4[16]。通过十折交叉验证完成模型训练及调参。
  3.模型评价:利用pROC包绘制ROC曲线,计算AUC,实现模型的内、外比较。
  5.统计分析方法:本研究采用Rstudio4.0.3版本完成数据的处理及模型训练和验证。研究所用到的R包如下:glmnet,pROC,Hmisc,rms,caret,e1071,kernlab,rmda。P值小于0.05被认为有统计学意义。
  研究结果
  一、EC患者的临床与病理特征
  1.患者纳入与排除标准:共收集2013例2010.01至2018.12于我院妇产科行手术治疗的EC患者的病例资料,其中32名患者接受术前辅助放化疗,190名患者未行完整的手术治疗,10名患者术后病理不符,1078名患者缺乏完整的临床病理资料,剩余703名患者进入后续研究。按照7:3的比例,将703例患者随机划分为建模组(N=493)和验证组(N=210)。
  2.建模组
  2.1基本特征:年龄:小于60岁的患者有348(70.6%)例;初潮年龄:中位值15(范围:9-20)岁;绝经年龄:中位值50(范围:27-64)岁;患高血压、糖尿病者91(18.5%)例;同时合并其他类型恶性肿瘤者有23(4.7%)例;子宫内膜癌家族史有70(14.2%)例。
  2.2病理特征:深肌层浸润有114(23.1%)例;LVSI阳性有42(8.5%)例;累及宫颈有68(13.8%)例;宫旁浸润者有7(1.4%)例;累及单侧或双侧输卵管者有17(3.4%)例;卵巢转移者有14(2.8%)例;Ⅰ、Ⅱ、Ⅲ、Ⅳ期者分别有405(82.2%)、35(7.1%)、50(10.1%)、3(0.6%)例;肿瘤直径:中位值3.2(范围:0.3-20.0)cm。
  2.3免疫组化特征:ER染色比例分数:中位值4(范围:0-5)分;ER染色强度:中位值2(范围:0-3)分;PR染色比例分数:中位值4(范围:0-5)分;PR染色强度:中位值2(范围:0-5)分;Ki67染色比例分数:中位值1(范围:0-3)分。
  3.验证组
  3.1基本特征:年龄:小于60岁的患者有157(74.8%)例;初潮年龄:中位值15(范围:11-20)岁;绝经年龄:中位值为50(范围:28-56)岁;患高血压、糖尿病者有39(18.6%)例;同时合并其他类型恶性肿瘤者有5(2.4%)例;子宫内膜癌家族史有25(11.9%)例。
  3.2病理特征:深肌层浸润者有41(19.5%)例;LVSI阳性有26(12.4%)例;累及宫颈有30(14.3%)例;宫旁浸润者有2(1.0%)例;累及单侧或双侧输卵管者分别有9(4.3%)例;卵巢转移者有6(2.9%)例;Ⅰ、Ⅱ、Ⅲ、V期者分别有171(81.4%)、19(9.0%)、17(8.1%)、3(1.4%)例;肿瘤直径:中位值3.0(范围:0.2-13.0)cm。
  3.3免疫组化特征:ER染色比例分数:中位值4(范围:0-5)分;ER染色强度:中位值2(范围:0-3)分;PR染色比例分数:中位值4(范围:0-5)分;PR染色强度:中位值:2(范围:0-3)分;Ki67染色比例分数:中位值1(范围:0-3)分。
  建模组与验证组之间临床病理特征不存在统计学差异(P>0.05)。
  二、单因素分析
  单因素Logistic回归结果示合并其他类型恶性肿瘤(OR:9.68,95%CI:2.48-30.01,P<0.001),子宫内膜癌家族史(OR:3.54,95%CI:1.06-10.58,P=0.028),肿瘤直径(OR:1.37,95%CI:1.19-1.60,P<0.001),深肌层浸润(OR:3.48,95%CI:1.17-10.37,P<0.022),LVSI(OR:3.08,95%CI:0.68-10.35,P=0.095),累及宫颈间质(OR:3.67,95%CI:1.10-10.98,P=0.024),累及输卵管(OR:31.91,95%CI:9.20-108.85,P<0.001),ER染色比例分数(OR:0.76,95%CI:0.56-1.04,P=0.081),PR染色比例分数(OR:0.77,95%CI:0.57-1.05,P=0.086)与EC患者发生卵巢转移密切相关。
  三、广义线性模型构建
  1.变量筛选:通过Lasso回归,共计5个变量:子宫内膜癌家族史、合并其他类型恶性肿瘤、肿瘤直径大小、累及输卵管、ER染色比例分数,被选中用于构建GLM模型。
  2.模型构建及可视化:多因素Logistic分析结果提示子宫内膜癌家族史(OR:5.13,95%CI:1.29-20.29,P<0.001)、合并其他部位的恶性肿瘤(OR:8.61,95%CI:1.80-37.04,P<0.001)、肿瘤直径大小(OR:1.25,95%CI:1.07-1.50,P<0.001)、累及输卵管(OR:16.95,95%CI:3.73-76.25,P<0.001)均促进卵巢转移的发生;ER染色比例分数(OR:0.81,95%CI:0.57-1.15,P=0.228)与卵巢转移呈负相关。上述变量纳入构建GLM模型并以nomogram的形式进行可视化。
  3.模型验证及评价
  3.1内部验证:Nomogram模型的AUC为0.86(95%CI:0.72-1.00)。校准曲线示nomogram模型的校准能力一般,U指数为-0.004,Brier分数为0.018。Hosmer-Lemeshow检验示P=0.34,不能拒绝原假设,说明模型具有较好的拟合能力。
  3.2外部验证:Nomogram模型的AUC为0.84(95%CI:0.60-1.00)。校准曲线显示U指数为-0.005,Brier分数为0.027;Hosmer-Lemeshow检验示P=0.21,不能拒绝原假设。结果提示,模型在外部验证组的表现劣于在建模组中的表现。
  3.3临床效益评估:基于模型绘制建模组和验证组的DCA曲线,结果显示相较于不给予任何临床干预措施,根据预测模型结果给予干预,可获得较大临床受益,并且,模型在建模组中的获益大于在验证组中的获益。
  3.4GLM模型的预测阈值:根据Youdensindex,预测模型的阈值设定为0.037,按照此标准,可将患者划分为高风险和低风险人群。建模组中,判断为高风险的人有58例,低风险人群有435例,预测的卵巢转移发生率为11.8%。GLM阈值模型在建模组中的AUC为0.81。验证组中,判定为高风险人群为22例,低风险人群为188例,预测的卵巢转移发生率为10.5%。GLM阈值模型在验证组中的AUC为0.88。
  4.亚组分析:GLM模型在本组人群中的AUC为0.88(95%CI:0.78-0.98)。校准曲线示模型U指数为-0.003,Brier分数为0.029;Hosmer-Lemeshow检验示P=0.14,不能拒绝原假设,表明模型具有较好的校准能力。同时,DCA曲线示GLM模型在本组人群中可以实现较大的临床获益。当GLM模型的阈值设置为0.037时,其AUC为0.82。此时,该组人群中发生卵巢转移高风险人群有71例,低风险人群有329例,预测卵巢转移概率为16.1%。
  四、支持向量机模型
  1.线性SVM模型:模型最佳参数cost选择为0.001,支持向量个数是37。建模组:AUC为0.79(95%CI:0.62-0.95);验证组AUC为0.75(95%CI:0.50-1.00)。
  2.多项式核函数SVM模型:模型最佳参数degree为3,coef0为2,cost为1,支持向量个数为94。建模组:AUC为0.92(95%CI:0.82-1.00);验证组AUC为0.72(95%CI:0.42-1.00)。
  3.径向核函数SVM模型:模型最佳参数gamma为0.5,cost为2.1,支持向量个数为178。建模组:AUC为1.00(95%CI:1.00-1.00);验证组AUC为0.85(95%CI:0.72-0.98)。
  4.Sigmoid核函数SVM模型:模型最佳参数gamma为0.1,coef0为4,cost为1,支持向量个数为28。建模组:AUC为0.59(95%CI:0.46-0.71);验证组AUC为0.60(95%CI:0.47-0.73)。
  研究结论
  1.单因素分析示:合并其他类型恶性肿瘤,子宫内膜癌家族史,肿瘤直径,深肌层浸润,淋巴脉管间隙浸润,累及宫颈间质,累及输卵管与EC发生卵巢转移正相关。ER、PR染色比例分数与EC卵巢转移负相关。
  2.Nomogram模型证实具有子宫内膜癌家族史、合并其他类型恶性肿瘤、肿瘤直径、累及输卵管增加EC患者卵巢转移的概率,ER染色比例分数降低EC患者卵巢转移的几率。
  3.Nomogram卵巢转移预测模型,经内、外部验证,具有良好的区分度、一致度和临床效益。
  4.径向核函数较线性、多项式、Sigmoid核函数SVM预测模型具有更高的预测能力;模型间比较显示径向核函数SVM模型较GLM模型AUC更高,通过机器学习算法可以优化模型,提升预测能力。
其他文献
期刊
学位
期刊
期刊
学位
目的:青少年抑郁障碍患者非自杀性自伤(Nonsuicidal self-injury,NSSI)行为的发生率正处于增高的趋势。而当患者同时具有抑郁障碍史和NSSI行为史时,将可能有更大的自杀风险。目前抑郁障碍的发生机制尚处于研究探索中,表观遗传学机制及成长经历、家庭环境、养育方式等因素均可参与其中。阿黑皮素原(Proopiomelanocortin,POMC)作为β-内啡肽、促肾上腺皮质激素(Ad
学位
报纸
期刊
研究背景和目的:过敏性疾病是世界卫生组织所列21世纪应当重点研究和预防的三大慢性疾病之一。近年来,随着环境、生活方式等多种因素的改变,过敏性疾病患病率在全球范围出现增长。过敏性鼻炎是由特定过敏原刺激、特异性IgE介导的Ⅰ型变态反应性疾病,在机体对特定过敏原致敏后因再次接触相同过敏原而发作,因此早期过敏原的诊断和治疗可以有效地降低发病率和疾病发展,从而减轻患者的身心痛苦。皮肤点刺实验(Skin pr
学位