不同机器学习方法在抑郁症诊断和预后预测中的应用比较

来源 :东南大学 | 被引量 : 0次 | 上传用户:WPF0731
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:抑郁症是当前社会广泛存在且日益严峻的心理疾病,其不仅严重影响患者的身心健康,也给患者的家庭和整个社会造成沉重负担。迄今为止,抑郁症的发病机制尚不清楚,但已有许多研究发现其与复杂的遗传因素、表观遗传因素和环境相互作用有关,例如TPH2基因相关位点的甲基化水平与抑郁症等心理疾病的发生、发展存在不同程度的关联。本文结合实例数据,围绕抑郁症患者的识别与抑郁症的预后情况预测问题,构建了基于logistic回归、BP神经网络和支持向量机的三种分类模型,初步实现对抑郁症患者的识别和预后情况的预测,为临床工作者对抑郁症患者的病情诊断和预后评估提供一定的模型选择参考。方法:根据纳入和排除标准,在南京中大医院收集了共计291位确诊抑郁症的住院病人和共计100位同期参加体检的健康对照的相关资料,主要收集信息包括研究对象的个体基本信息、生活事件得分、儿童期创伤问卷得分和根据外周血样本测得的TPH2基因的38个位点的甲基化水平。对收集数据进行清洗、核查,对缺失数据进行分组中位数填补。利用卡方检验、t检验和基于秩的非参数检验对可能影响抑郁症发病和预后的因素进行单因素筛选,用多因素逐步logistic回归进行多变量筛选,综合两者结果并结合临床专业人员的建议,从上述资料中筛选出可能的影响因素。将上述筛选出的变量作为输入变量,分别将是否为抑郁症患者和治疗2周后汉密尔顿抑郁量表得分下降是否超过50%为因变量,建立logistic回归、BP神经网络和支持向量机三种分类模型,通过经验法结合试凑法求得各模型的最佳参数组合,采用10折交叉验证对各模型的泛化性能进行评估,以约登指数最大时的概率作为界值进行分类,通过灵敏度、特异度、阳性预测值、准确度、G-mean、F-measure和受试者特征曲线及受试者特征曲线下面积来评价和比较三种模型的综合性能。本研究采用R 3.6.2对数据进行处理及分析。结果:根据研究目的,本研究结果主要分为以下两部分:(1)对抑郁症患者的识别筛选了16个可能与抑郁症相关的变量:性别、负性生活事件得分、儿童期创伤问卷得分和13个位点的甲基化水平(TPH2_11_86、TPH2_11_121、TPH2_11_154、TPH2_3_92、TPH2_4_156、TPH2_5_203、TPH2_7_54、TPH2_7_184、TPH2_8_106、TPH2_9_117、TPH2_9_142、TPH2_9_160、TPH2_9_178);将16个变量作为模型的输入变量,分别用来训练基于不同变量筛选标准的logistic回归模型(全部进入和逐步回归)、BP神经网络模型和基于四种核函数(线性核函数、径向基核函数、多项式核函数和sigmoid核函数)的支持向量机模型。对于模型各参数,均采用经验法结合试凑法进行确定,选择10折交叉验证测试集误判率最小时的参数组合。结果发现,以约登指数最大时的概率为界值,全部进入的logistic回归10折交叉验证的灵敏度为0.653,特异度为0.840,阳性预测值为0.922,准确度为0.701,G-mean为0.741,F-measure为0.765,AUC为0.802;BP神经网络的最佳隐层神经元个数为2,因此构建16-2-1的神经网络模型,其10折交叉验证的灵敏度为0.900,特异度为0.800,阳性预测值为0.929,准确度为0.875,G-mean为0.849,F-measure为0.914,AUC为0.875;对于支持向量机,径向基核函数表现最好。其最优参数组合为cost=5,gamma=0.5,10折交叉验证的灵敏度为0.900,特异度为0.920,阳性预测值为0.970,准确度为0.905,G-mean为0.910,F-measure为0.934,AUC为0.956。(2)对抑郁症患者预后情况的预测筛选了15个可能与抑郁症的预后相关的变量:性别、年龄、负性生活事件得分、儿童期创伤问卷得分、8个位点的甲基化水平(TPH2_1_154、TPH2_2_139、TPH2_2_217、TPH2_5_203、TPH2_7_142、TPH2_7_170、TPH2_8_237、TPH2_9_134)、有无伴侣、首次发病年龄和发病次数;将15个变量作为模型的输入变量,分别用来训练基于不同变量筛选标准的logistic回归模型(全部进入和逐步回归)、BP神经网络模型和基于四种核函数的支持向量机模型。对于模型各参数,均采用经验法结合试凑法进行确定,选择10折交叉验证测试集误判率最小时的参数组合。结果发现,以约登指数最大时的概率为界值,全部进入的logistic回归10折交叉验证的灵敏度为0.661,特异度为0.586,阳性预测值为0.721,准确度为0.632,G-mean为0.622,F-measure为0.690,AUC为0.619;BP神经网络的最佳隐层神经元个数为2,因此构建15-2-1的神经网络模型,其10折交叉验证的灵敏度为0.417,特异度为0.838,阳性预测值为0.806,准确度为0.577,G-mean为0.591,F-measure为0.549,AUC为0.638;对于支持向量机,径向基核函数和多项式核函数结果较另两种核函数结果更好,径向基核函数的最优参数组合为cost=1,gamma=3.5,10折交叉验证的灵敏度为0.906,特异度为0.946,阳性预测值为0.964,准确度为0.921,G-mean为0.926,F-measure为0.934,AUC为0.970。结论:在对抑郁症患者的识别与对抑郁症患者预后情况的预测中,三种模型的性能排序次序相同,由差到好均依次是logistic回归、BP神经网络、支持向量机。其中,基于径向基核函数的支持向量机模型的综合性能最佳且显著优于其他。可认为基于径向基核函数的支持向量机较其余方法更擅长处理本文的分类问题,也提示了综合个体基本信息、环境应激水平和TPH2甲基化水平对抑郁症患者进行识别与预后预测的可能性,可为今后类似的研究提供一定的思路借鉴和模型选择参考。对于抑郁症患者的识别,筛选出了13个甲基化位点;对于抑郁症患者预后情况的预测,筛选出了8个甲基化位点。提示将这些位点的甲基化水平作为特异性生物标志物对抑郁症患者进行识别和预后预测的可能性,可为今后类似研究中对位点的选择提供经验和参考。
其他文献
目的缺血性脑卒中的发病率逐年增加,目前已是全球范围内第二致死原因。房颤使缺血性脑卒中的发生率增加3至5倍,且合并房颤的缺血性脑卒中者比无房颤者功能障碍更为严重,致残率、致死率更高。而房颤与左心房的大小、心室率的控制密切相关,近些年关于心脏相关参数与脑卒中相关性的研究存在争议。由于房颤伴发的脑卒中常常梗死面积大、病情重,因此前循环非腔隙性梗死依据牛津郡社区卒中计划(OCSP)分型可分为完全前循环梗死
学位
学位
对城市公共交通系统的性能进行评价具有重要意义,它影响着如何优化分配宝贵的资本、人力物力、时间和精力,是进行有效及有利决策的重要依据。首先,本文通过建设性的讨论,建立了对服务系统的效率及效益的概念,以及二者相互关系的理解。其次,通过对历史文献的综述,可知多准则决策评价方法(The Multi Criteria Decision Making,MCDM)是一种合理的方法,比原始性能衡量方法(primi
研究背景:近年来,妊娠期糖尿病(gestational diabetes mellitus,GDM)在世界范围内的流行对全球公共卫生构成巨大挑战。目前公认的GDM的危险因素,如产妇年龄≥35岁、肥胖、糖尿病家族史和既往GDM史,在近一半GDM患者中并不存在。妊娠使孕妇处于较高程度的应激状态,形成孕妇特有并且复杂的心理特点、心理问题。心理应激可能通过下丘脑-垂体-肾上腺轴提高血液中抑制胰岛素分泌和升
招标工程量清单作为招标文件的组成部分,是工程量清单计价的基础,按照我国现行《计价规范》规定,工程量清单的准确性和完整性由招标人负责。依据招标人提供的招标工程量清单,投标人进行报价,形成已标价工程量清单,一经中标签订合同,即成为合同文件的组成部分。工程量清单在工程签约和履约过程中起着十分重要的作用,必须十分重视招标工程量清单的编制及其质量。招标工程量清单应当项目开列齐全完整,项目特征描述全面,估算工
路由器作为子网与子网、异种网络与子网之间相互联系的灵活纽带,承担着数据转发、路由选择、网络与流量控制等重要任务。作为路由器核心功能之一的路由查找,开始成为数据传输时延的一大瓶颈。改善路由查找算法的效率,可以大幅提高网络数据传输速率和网络数据吞吐量。在IPv4网络为主体,IPv6网络飞速发展的背景下,无类别域间路由CIDR(Classless InterDomain Routing)在提供更加灵活的
随着国家能源需求不断增长以及能源结构的优化,火力发电朝着高效、环保的超(超)临界机组发展。二次再热超超临界汽轮发电机组技术是进一步提高火力发电厂热效率的有效途径。随着机组参数的增高,轴系结构越来越复杂,部分型号的超超临界二次再热机组采用了连续三支撑结构,虽然有效缩短的轴系长度,但带来了部分轴瓦振动情况不稳定、存在低频成分、振动情况与瓦安装工艺较为敏感等问题,成为机组安全稳定运行的隐患。本文以某型1
建筑科学的发展使得建筑结构对住户体验和环境更加友好。能源效率、建筑设计、热舒适性、结构完整性、建筑材料、机械组件等事项的重要程度不言而喻。然而,现在出现了一种新的思路来同时满足建筑使用者的期望和现代标准结构。如今,建筑物将信息技术和通信网络集成在基础设施中使其正常运行,该技术对预期控制功能的实现至关重要。本论文主要包括以下几个方面的内容:(1)智能建筑趋于经济环保的设计和建造理念需要我们论证如何有
背景和目的众所周知,注射教育对使用胰岛素治疗的糖尿病患者十分必要。但研究表明注射教育成果难以长期维持,需要重复教育,而合理的注射教育间隔时长有待明确。本研究调查中国大陆地区糖尿病患者接受注射教育的情况,分析注射教育间隔时长对运用胰岛素糖尿病患者注射技术、注射并发症及血糖管理的影响,为明确注射教育的最佳周期提供证据。方法本研究为多中心横断面研究,依托于《中国糖尿病患者胰岛素注射相关的脂肪增生患病率及