基于人工神经网络技术的老年龋预测模型的构建及预测方法学比较的泛化能力验证研究

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:wangyizhinihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:本研究立足我国老年龋病常见且多发的现状,且大量文献提示老年龋病引起的疼痛、咀嚼障碍往往会降低老年人的生活质量,还可以导致其他全身慢性系统疾病的患病几率增高,成为困扰其生活的主要问题。我国最近一次的全国口腔健康流行病学抽样调查报告指出,我国老年患龋率为98.0%,由此可见,我国老年龋病的防控和治疗工作迫在眉睫。因此,寻找老年龋病患病的相关危险因素和构建其有效的预测模型,以及在外推人群中进行其泛化能力的验证研究是十分必要的。本研究通过辽宁省城、乡老年龋数据库筛选出影响老年龋发生及发展的相关危险因素,构建基于人工神经网络技术的老年龋预测模型,并对新模型的预测性能进行比较与评估;再利用不同于前面部分的独立数据集,将基于人工神经网络技术构建的新预测模型分别带入东北三个省份地区老年人群数据库进行方法学比较的泛化能力验证,从而为老年龋病的早期诊断、早期筛查和防治提供科学的支撑依据。研究方法:1)收集辽宁省2015年5月-12月的老年龋现场抽样数据,根据纳入排除标准,随机抽取辽宁省城市地区和农村地区65-74岁的老年人各584例(男女各半)作为调查对象。对每位受检者进行口腔健康检查,并完成面对面口腔问卷调查。实际完成的总样本量为1168例,符合要求且回收有效问卷,最终计入结果为1144例。采用SPSS22.0软件包进行资料的统计分析。应用χ2检验进行患龋情况中的计数资料的按照城、乡分层做描述性分析。在影响龋病发生的因素分析中,先进行单因素分析(χ2检验)筛选出P<0.05的自变量,再将这些统计学上有意义的自变量全部纳入多因素Logistic回归模型。然后分别就容忍度和方差膨胀因子对多因素Logistic模型筛选出来的有统计学意义的变量进行多重共线性的诊断。2)将收集到的1144例老年龋观测数据随机抽取80%(共915例)作为训练总集,剩余20%(共229例)作为测试集用于建立非条件Logistic回归模型、GRNN广义回归神经网络预测模型和BPNN反向传播神经网络预测模型。采用前向法对纳入非条件多因素Logistic回归模型的训练总集中的老年龋样本进行逐步回归;其中,因变量为结局变量,即受检者是否患老年龋,自变量为单因素卡方检验结果中有统计学意义的筛选变量。采用Matlab 2012软件中的神经网络工具箱编程建立GRNN广义回归神经网络预警模型,将训练集中卡方检验有统计学意义的变量作为输入,结局变量作为输出。使用SPSS 22.0绘制模型预测结果的ROC曲线。将训练集中的约登指数最大值时对应的预测模型预测概率值作为最佳诊断值作为模型预测概率的判别标准,统计学显著性水平设置为0.05。BPNN反向传播神经网络的建立使用R软件RSNNS包完成。BPNN反向传播神经网络的隐含层选择为1层。本研究从3个隐含层神经元开始,每次增加1个,到20个神经元为止,以找到合适的隐含层神经元数量。将学习率设置为0.01;隐含层和输出层的激活函数选择sigmoid函数。最大迭代次数设置为1000次,当验证集的均方误差达到最小时为训练停止条件。使用标准误差反向传播算法进行模型的训练。将GRNN广义回归神经网络预警模型、BPNN反向传播神经网络模型,与非条件Logisitic回归预测模型的预测效果进行比较,在分类一致率、灵敏度、及特异度方面比较人工神经网络预测模型的应用优势,并进行ROC曲线下面积分析。3)利用不同于前面部分的独立数据集,运用已构建好的预测模型对中国东北地区辽宁省、吉林省、黑龙江省三个省份口腔健康抽样调查数据库中的老年龋的发生进行预测,研究申请获得了中国东北地区辽宁省、吉林省、黑龙江省三个省份口腔健康抽样调查数据库中的老年龋数据的使用权限(数据来自吉林大学口腔医院、中国医科大学口腔医学院及黑龙江省口腔病防治院),包含每位老年受检者的口腔健康检查资料及口腔问卷调查资料,最终计入结果为1236例。分别利用论文第二部分由软件Matlab2012中的神经网络工具箱已建立好的GRNN广义回归神经网络模型,及R软件RSNNS包已建立完成的BPNN反向传播神经网络模型对三个省份的老年龋数据库进行预测,将两种人工神经网络模型的预测结果,分别就分类一致率、特异度和灵敏度方面与非条件Logistic回归模型的预测结果相比较,并进行ROC曲线下面积分析,以验证多场景下的人工神经网络老年龋预测模型的泛化能力。结果:1)1144例老年人的患龋率达68.5﹪,患龋均数为2.43。危险因素分析中,Logistic回归结果显示在老年人群中,过去一年有牙痛史(OR=1.550,95%CI:1.164-2.063)、上颌义齿修复(OR=4.320,95%CI:2.647-7.051)、下颌义齿修复(OR=4.420,95%CI:2.477-7.885)、吸烟(OR=1.469,95%CI:1.084-1.992)、喝酒(OR=1.591,95%CI:1.130-2.240)是老年人易患龋的危险因素;而农村户口(OR=0.676,95%CI:0.503-0.908)、自我口腔卫生评价良好(OR=0.606,95%CI:0.423-0.868)是老年人患龋的保护因素。对多因素Logistic Regression模型筛选出来的有统计学意义的七个变量进行了多重共线性的诊断,所有变量的方差膨胀因子都小于2,可以认为该多因素Logistic Regression模型中不存在多重共线性的问题。2)采用Matlab2012软件编程建立GRNN广义回归神经网络预测模型。为了确定广义回归网络模型的最优光滑因子,从训练总集(共915例)中随机选取20%(183例)作为检验集。按照Sprecht提出的光滑因子法寻找光滑因子,最终确定为0.7。BPNN反向传播神经网络的建立使用R软件RSNNS包完成。以单因素卡方检验筛选出有统计学意义的15个变量作为BPNN反向传播神经网络的输入,输入神经元个数为15。以结局变量作为BPNN反向传播神经网络的输出,输出神经元个数为1(即是否患龋)。从3个隐含层神经元开始,每次增加1个,到20个神经元为止,当BPNN反向传播神经网络的隐含层神经元数为14时,验证集的均方误差达到最小值,因此本研究中隐含层神经元数设置为14。选择训练集中的约登指数最大值时所对应的模型预测概率值作为本研究的最佳诊断值。训练集中GRNN广义回归神经网络模型和Logistic回归模型的预测概率的ROC曲线下面积分别为0.896和0.733,对应基线的P值均<0.001。两个模型的AUC比较的统计学检验P值<0.001;训练集中BP模型和Logistic回归模型的预测概率的ROC曲线下面积分别为0.819和0.733,对应基线的P值均<0.001。两个模型的AUC比较的统计学检验P值为0.001。最终,Logistic回归模型预测概率的最佳诊断值为0.606,对应的约登指数为0.370;GRNN广义回归神经网络模型预测概率的最佳诊断值为0.680,对应的约登指数为0.638。BPNN反向传播神经网络模型预测概率的最佳诊断值为0.703,对应的约登指数为0.591。当选择最佳诊断值时,Logistic回归模型和GRNN广义回归神经网络模型ROC曲线下面积分别为0.578和0.777,对应的P值为0.056和<0.001。两个模型ROC曲线下面积比较的统计学检验P值为0.000;当选择最佳诊断值时,Logistic回归模型和BPNN反向传播神经网络模型ROC曲线下面积分别为0.578和0.721,和基线相比,对应的P值为0.056和<0.001。两个模型ROC曲线下面积比较的统计学检验P值为0.012。3)当用已经建立好的GRNN广义回归神经网络模型,及BPNN反向传播神经网络模型对东北三个省份老年龋数据库进行风险预测的外推验证研究时,结果显示,非条件多因素Logistic回归模型预测结果的特异度、分类一致率均低于两种人工神经网络预测模型。而GRNN广义回归神经网络和BPNN反向传播神经模型预测的的灵敏度结果在三省份间略有差异。吉林地区验证结果显示,其非条件多因素Logistic回归预测模型的ROC曲线下面积为0.608,95%可信区间为(0.544,0.673),P值为0.001;而BPNN反向传播神经网络模型的ROC曲线下面积为0.734,95%可信区间为(0.675,0.793),P值<0.001;GRNN广义回归神经网络模型的ROC曲线下面积为0.776,95%可信区间为(0.719,0.832),P值<0.001。辽宁省的非条件多因素Logistic回归模型的ROC曲线下面积为0.672,95%可信区间为(0.612,0.731),P值<0.001;而BPNN反向传播神经网络模型的ROC曲线下面积为0.816,95%可信区间为(0.767,0.864),P值<0.001;GRNN广义回归神经网络模型的ROC曲线下面积为0.855,95%可信区间为(0.809,0.900),P值<0.001。而黑龙江省的非条件多因素Logistic回归模型的ROC曲线下面积为0.665,95%可信区间为(0.607,0.722),P值<0.001;而BPNN反向传播神经网络模型的ROC曲线下面积为0.782,95%可信区间为(0.731,0.832),P值<0.001;GRNN广义回归神经网络模型的ROC曲线下面积为0.817,95%可信区间为(0.769,0.864),P值<0.001。和BPNN反向传播神经网络预测模型相比,GRNN广义回归神经网络具有较强的非线性映射能力和较高的预测精度。结论:辽宁省老年人(65-74岁)龋齿的患病率较高。居住城市、有上颌或下颌义齿修复、过去12个月内有牙痛史、有吸烟习惯、有饮酒习惯、自我口腔卫生评价不佳的老年居民更容易患上老年龋这种慢性疾病。GRNN广义回归神经网络和BPNN反向传播神经网络预测模型是准确和有意义的老年龋预测工具,可用于老年龋病的筛查、早期诊断和治疗计划,为老年龋病的预测及防控提供科学的支撑依据。
其他文献
目的:由于血管内介入治疗的迅猛发展,越来越多的患者接受血管内介入治疗。在大多数的临床中心,80%的介入手术中都使用了血管支架。支架植入术后的再狭窄(In Stent Restenosis,ISR)目前仍是动脉介入治疗术后最严重的问题。前期研究结果表明基质金属蛋白酶(matrix metalloproteinases,MMPs)在支架植入后再狭窄过程中发挥了重要作用,并且外源性基质金属蛋白酶抑制剂可
目的:子宫内膜癌是女性生殖系统常见的三大恶性肿瘤之一,占女性生殖道恶性肿瘤的20%-30%。世界范围内,子宫内膜癌的发病率呈逐渐上升趋势。在美国,子宫内膜癌的发病率由2013年的49,560人上升至2018年的63,230人。手术是治疗早期内膜癌的主要手段,并且预后较好。但是对于处于晚期,复发或是存在转移病变的患者,治疗手段则有限,而且生存期在过去的几十年中亦没有提高。同时,最新研究已经认识到由于
目的:近年来,甲状腺癌的发病率逐年增高,在未来20年内甲状腺癌的发病数和死亡数均会呈现上升的趋势。甲状腺乳头状癌是甲状腺癌最常见的病理类型,大部分预后良好。为了避免过度诊断及过度治疗,对甲状腺结节鉴别诊断以及预后评估对临床进一步制定治疗方案至关重要。超声造影(contrast-enhanced ultrasound,CEUS)可以更好的探测肿瘤的微循环情况,现在已广泛应用于甲状腺疾病的诊断和治疗中
目的:真菌广泛存在于空气、土壤等人类赖以生存的环境中,吸入真菌污染的有机粉尘可能会导致过敏性肺炎。重复暴露真菌污染的有机粉尘可导致慢性炎症、肉芽肿甚至是不可逆的肺纤维化,为社会经济和医疗带来巨大的负担。然而,过敏性肺炎具体发病机制尚不明确。1,3-β-葡聚糖作为真菌细胞壁的重要成分,是公认的真菌暴露标志物,常用于真菌所致的过敏性肺炎的深入机制研究。上皮细胞是肺部第一道天然防线的重要组成细胞,其损伤
研究目的:小儿白血病是儿童时期最常见的恶性肿瘤,我国每年新增儿童白血病病例约15000例。小儿急性淋巴细胞白血病95%以上可达到完全缓解。随着缓解率和生存率的提高,父母在患儿病程的不同阶段会面对不同的应激源,从而产生相应的心理、躯体症状,影响其生活和工作,同时,这种不良的情绪体验反过来还会影响患儿的治疗及情绪和行为的发展。整合临床、心理、社会资源,促进患儿和父母的身心康复和行为方式的积极转变,是社
目的:精神分裂症是一种以情绪损害、认知缺陷和社交功能障碍为特征的慢性、致残性精神疾病。精神分裂在全世界影响已经超过2000万人,给家庭和社会带来了沉重的负担。此外,精神分裂症也是法医精神病领域鉴定的重要内容,但目前其鉴定缺乏客观的指标。因此精神分裂症病因及发病机制的研究受到越来越多的关注。精神分裂症受到遗传因素和环境因素的共同影响,其病因复杂,研究显示遗传因素在精神分裂症的易感性以及病程发展过程中
目的:随着信息技术的不断发展,人类社会产生的数据量成爆炸式的增长,大量来自各领域的数据,反映了人类群体生活习惯、社会运行规律、自然发展规律等客观规律,数据正在演变成为与自然资源和人力资源同样重要的战略资源。近年来,随着信息技术在医疗领域的广泛应用,医疗行业积累了海量的数据,医疗领域迎来了医疗大数据时代。如何获取、分析、运用医疗大数据得到了广泛的关注。当前“以病人为中心”的医疗理念下,医疗安全问题越
目的:卵巢是雌性哺乳动物重要的生殖器官,卵泡作为卵巢发育的基本结构与功能的单位,由卵母细胞及围绕在卵母细胞周围的颗粒细胞组成。卵泡发育起始于原始卵泡,在出生前后于卵巢皮质汇聚成原始卵泡池,原始卵泡经募集与激活发育为初级卵泡,初级卵泡再经次级卵泡、有腔卵泡阶段最终发育成熟并排卵,或在卵泡发育过程中走向闭锁。卵泡池中的原始卵泡作为卵巢中的卵泡储备决定了雌性动物生育年龄的长短,卵巢中的卵泡储备主要受初始
目的:糖尿病(diabetes mellitus,DM)是以胰岛素抵抗和(或)胰岛β细胞功能受损为特点的全身慢性代谢性疾病。糖尿病的患病率在全世界范围内呈现逐年增高的趋势。我国糖尿病以2型糖尿病(type 2 diabetes mellitus,T2DM)为主,患者知晓率、治疗率、控制率低,随着病情的发展,可出现心血管病变、视网膜病变、糖尿病肾病、神经系统病变、糖尿病足等多种威胁生命的并发症。T2
目的:脑胶质瘤是原发恶性脑肿瘤中最常见和最致命的类型。根据世界卫生组织(World Health Organization,WHO)的分级标准分类,胶质瘤的病理级别分为低级别胶质瘤(I级-II级)和高级别胶质瘤(III级-IV级)。高级别胶质瘤极易浸润至人脑细胞外基质中,这种特性使手术切除和放化疗等传统治疗方法难以根治脑胶质瘤,脑胶质瘤复发率高、患者预后差,两年生存率仅为15%-26%。因此,寻找