【摘 要】
:
目的:本研究借鉴深度森林(Deep Forest)的思想,提出一种基于树的集成学习方法新思路,应用于中国健康与养老追踪调查数据库,筛选与消化系统疾病有关的变量,通过“人工地”建立多层随机森林模型,对人群进行分类,再分别建立模型筛选变量,以期用更优的模型解释与消化系统疾病相关的变量,为以后相关的研究提供分析策略和思路。方法:1.本研究使用2015年中国健康与养老追踪调查数据,调查对象为中国45岁及以
论文部分内容阅读
目的:本研究借鉴深度森林(Deep Forest)的思想,提出一种基于树的集成学习方法新思路,应用于中国健康与养老追踪调查数据库,筛选与消化系统疾病有关的变量,通过“人工地”建立多层随机森林模型,对人群进行分类,再分别建立模型筛选变量,以期用更优的模型解释与消化系统疾病相关的变量,为以后相关的研究提供分析策略和思路。方法:1.本研究使用2015年中国健康与养老追踪调查数据,调查对象为中国45岁及以上人群。我们将问卷中“是否有医生曾经告诉过您有以下这些慢性病?”中的“胃部疾病或其他消化系统疾病(不包括肿瘤或癌)”的问题回答为“是”的定为有消化系统疾病。2.对选入的样本采用欠采样方法对人群抽样得到平衡数据,构建500次随机森林模型,每次建立模型前都会随机选取训练集和测试集,按照预测结果与实际不一致的情况,得到预测错分率,然后选取不同的错分率作为分界值将样本分为两部分人群,计算评价指标寻找最佳分类节点,以最佳分类节点将人群分为两部分人群,分别定义为“T类人群”和“F类人群”。3.分别对两部分人群建立随机森林模型,并计算模型的评价指标,与对欠采样得到的数据建立的模型比较,选择最优的模型来筛选与消化系统疾病的影响因素模型。4.本研究使用python3.7软件中Random Forest Classifier和R3.6软件中glm软件包进行分析。结果:1.数据库中共21095人样本,4349个变量,相关10个单独文件合并后剩余13420人,4349个变量,经过清洗和整理,共得到12378例有效样本、389个变量,其中患有消化系统疾病的样本有3044例,未患有消化系统疾病的样本有9334例,两组样本不平衡,本研究采取了欠采样方法,从未患消化系统疾病的样本中抽取3267例,与全部患有消化系统疾病的3044例组成平衡数据。2.建立500次随机森林模型进行分类,选取错分率为5%,10%,15%……95%作为分界,将研究人群分为两类,再对两类人群分别建立随机森林模型后,综合考虑准确率、精确率、特异度、灵敏度、约登指数、F1,选取两个模型结果的各指标整体效果最好的错分率为最佳分类点,此时错分率为60%。错分率大于等于60%的一部分人群定义为“F类人群”,错分率小于60%的人群定义为“T类人群”。T类人群有4176人,其中患有消化系统疾病的样本有1739例,患病率41.6%;F类人群有2135人,其中患有消化系统疾病的样本有1305例,患病率61.1%。3.对T类人群和F类人群分别建立的两个随机森林模型,与人群分类前的数据也就是欠采样后得到的数据直接建立的随机森林模型相比,准确率由0.6432提高到0.9339(T类)和0.9082(F类),精确率由0.6589提高到0.9665(T类)和0.8898(F类),特异度由0.7284提高到0.9788(T类)和0.8134(F类),灵敏度由0.5534提高到0.8701(T类)和0.9692(F类),约登指数由0.2818提高到0.8489(T类)和0.7826(F类),F1由0.6432提高到0.9158(T类)和0.9278(F类),都有大幅度提升。4.两类人群分别构建随机森林模型后,根据变量重要性评分筛选出的对消化系统疾病相关的重要变量,然后建立logistic模型,结果显示,两部分人群的消化系统疾病的影响因素大部分一致,但作用相反,并且同一变量对T类人群的危害性越大,对F类人群的保护性越大,这些变量包括心理因素、身体疼痛指标、其他相关疾病。5.筛选出区分两类人群的因素有体质指数、自评健康满意度、是否患有肾脏疾病、是否头颈部疼、手臂沿着肩向上伸展是否有困难、过去一年是否有医生告知应该住院而没有住院的情况、过去一个月是否进行了自我治疗。结论:1.面对跨学科、多维度的数据时首先需要进行数据清洗整理,如考虑被研究对象可能包含不同类型的人群,或者疾病的致病因素复杂,可通过对人群细分,再分别进行分析。2.本研究提出的基于树的集成学习算法,通过叠加多层随机森林模型,可用于以上数据中进行人群分类,使模型更优。3.本文最终将人群分为两类,与消化系统疾病相关的因素有心理因素、身体疼痛、和其他疾病相关,但相同因素对不同类人群的疾病影响不同,对一类人群为危险因素,对另一类人群则为保护性因素。
其他文献
目的:探讨血糖波动与冠状动脉粥样硬化性心脏病(coronary heart disease,CHD)合并2型糖尿病患者行经皮冠状动脉介入术(percutaneous coronary intervention,PCI)后支架内再狭窄(in-stent restenosis,ISR)的相关性。方法:连续选取2017年9月至2021年3月期间就诊于我院行首次PCI治疗且术后10-12个月复查冠状动脉造
世界范围内肥胖的发生率在逐年升高并趋于年轻化,与肥胖相关的睡眠呼吸障碍也日益成为危害公共健康的问题。肥胖相关的呼吸障碍不仅和肥胖病人呼吸的机械性负荷增加有关,还和中枢呼吸驱动力减弱,以及瘦素(leptin)信号通路障碍或瘦素抵抗密切相关,但其作用靶点和分子机制仍需进一步研究。leptin是一种主要由白色脂肪分泌的小分子激素,其主要通过b亚型受体(leptin receptor-b,Lep Rb)激
目的:明确2型糖尿病患者血清25羟维生素D的水平及分布差异,讨论血清25羟维生素D与2型糖尿病大血管病变的关系,并分析影响糖尿病大血管病变的危险因素。方法:选取2019年2月至2020年2月期间在我院确诊的100例2型糖尿病患者,按照有无糖尿病大血管病变,分为2型糖尿病未合并大血管病变组(T2DM组,n=50)和2型糖尿病合并大血管病变组(T2DM+MVD组,n=50)。收集上述患者的一般资料,并
目的:近年来中国人群中糖尿病及代谢综合征等代谢性疾病发病率显著增高,其主要临床后果是发生心血管疾病的风险增加。代谢综合征的核心是胰岛素抵抗以及高胰岛素血症。尽管有多项研究证实高血糖对血管内皮功能存在损害,但是对于高胰岛素血症是否损害内皮功能,目前尚未明确。本研究目的在于分析高胰岛素血症对冠心病患者血管内皮功能的影响,并对其相关机制进行初步探讨。方法:第一部分临床研究:采用前瞻性观察性研究方法、选择
目的:探讨患者血浆omentin-1水平与2型糖尿病(T2DM)合并周围动脉疾病(PAD)的关系。方法:选取河北医科大学第三医院2020年6月-2020年10月收治的2型糖尿病患者共58例,依据超声及踝肱指数(ABI)结果将患者分为糖尿病无PAD患者(T2DM,n=20例),以及糖尿病合并PAD患者(T2DM+PAD,n=38例)。收集患者年龄、性别、BMI、糖化血红蛋白、总胆固醇、甘油三酯、高密
目的:1.探讨3.0 T磁共振常规平扫(T1WI、T2WI和DWI)及3D-LAVA动态对比增强检查对于肝脏局灶性病变的定性诊断性能。2.定量评估局灶性肝脏良、恶性病灶DWI和IVIM成像的参数。3.分析肝脏局灶性病灶的相对增强比与DWI和IVIM成像的参数间的相关性。方法:回顾性分析河北省人民医院2017年1月至2020年12月期间75例肝脏局灶性病变患者(共96个病灶)的影像资料(包括恶性病变
目的:卟啉病是血红素合成过程中酶活性异常导致的代谢性疾病,多由遗传突变引起。急性间歇性卟啉病(acute intermittent porphyria AIP)是其中一种,由于编码胆色素原脱氨酶(Porphobilinogen deaminase PBGD),或称羟甲基胆素合成酶(Hydroxymethylbilance synthase HMBS)的基因发生突变,酶活性降低乃至缺失引起的一种常染
脂肪性肝病(Fatty liver disease,FLD)作为如今全球第一大肝脏疾病,对人类的健康与生命造成了极大的挑战,然而目前国内外尚无针对FLD的有效治疗药物或手段。近年来,生物活性肽由于其来源广泛、种类众多以及营养调节作用良好等特点在食品、医疗等领域备受关注,其中玉米肽所具有的保肝作用已被越来越多的研究所证实,为改善FLD的发生和发展提供了可能。本研究以高脂饮食的方式建立FLD大鼠模型,
目的:研究急性胰腺炎患者血清中G蛋白偶联胆汁酸受体1(G protein-coupled bile acid receptor 1,GPBAR1)的水平,探讨GPBAR1水平与急性胰腺炎严重程度之间的关系,为早期评估急性胰腺炎的严重程度提供新的思路。方法:选取自2019年3月至2021年1月期间就诊于河北省人民医院医院消化内科的56例急性胰腺炎患者作为研究对象,选取健康体检人群28例作为对照组。收
背景:慢性便秘作为一种影响人类健康的常见病,目前在全球的患病率约为12%~17%[1],调查显示,我国便秘人群的患病率不容小觑,达3%~11%[2]。便秘患者中老年人较普通人群比例更高,达15%~20%[3]。慢性便秘困扰着人类的生命健康,近年来难治性便秘临床及机制研究方面的研究虽取得一些新进展,但造成难治性便秘的影响因素颇多、病理机制繁杂,治疗更为困难。至今,医学界关于难治性便秘的流调乃至诊治方