基于复杂数据集的乳腺癌发病风险模型研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:waterhunter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究目的(1)使用贝叶斯网络方法构建乳腺癌病因网络模型,研究饮食、肥胖、遗传变异以及它们之间的交互作用与乳腺癌风险的关联,评价遗传背景与环境暴露在乳腺癌发生中的作用。(2)基于贝叶斯网络方法与其它机器学习方法构建乳腺癌风险预测模型,筛选出最优方法用于指导乳腺癌的干预与风险防控设计工作。(3)比较构建饮食模式的方法,研究饮食模式与乳腺癌风险的关联,认知与挖掘饮食模式在乳腺癌病因关系路径中的特征与作用。研究方法(1)采用以社区人群为基础的病例-对照研究设计,收集参与者饮食摄入,体重变化以及其它与乳腺癌风险相关的人口特征学信息(包括人口结构,生活方式,月经和生殖事件,疾病史以及与体育锻炼相关信息),同期按照标准方案完成人体学指标的测量与血液样本采集,使用Taqman分析法鉴定基因分型,分型的基因位点涉及17个肥胖表型相关基因的22个SNP位点,维生素D受体代谢关键酶CYP24A1上的8个SNP位点以及叶酸介导的一碳代谢通路上9个基因18个位点。(2)基于贝叶斯网络(BNs)构建乳腺癌危险因素的病因网络,参与构建网络节点包括环境暴露因素(体重变化,饮食模式),遗传因素(SNP及多基因风险评分)、协变量(已知的其它乳腺癌风险因素),以及结局变量(乳腺癌)。在BNs结构的学习过程中,使用了四种算法:增长-收缩(GS)、增量关联马尔科夫毯(IAMB)、爬山(HC)和最大-最小爬山(MMHC)算法;基础结构的参数学习采用无先验信息的狄利克雷(Dirichlet)分布,风险评估结构的参数学习基于先验信息与数据驱动。基于BNs识别出可充当工具变量的遗传变异,通过孟德尔随机化法(MR)进行表型-结局的因果推断。广义线性模型(GLM)将验证BNs中所有感兴趣的关键结构与效应大小。BNs、MR、GLM分析通过R软件实现。(3)使用参与构建乳腺癌病因网络的节点因素作为特征变量,构建乳腺癌风险预测模型,预测模型分别基于贝叶斯网络与8种机器学习监督方法(逻辑回归(Logistic Regression,LR),决策树(Decision Tree,DT),随机森林(Random Forest,RF),支持向量机(Support Vector Machine,SVM),朴素贝叶斯(Na?ve Bayes,NB),K最近邻(K-nearest neighbor,KNN),人工神经网络(Artificial Neural Network,ANN),梯度提升机(Gradient Boosting Machine,GBM)),数据以8∶2的比例随机划分为训练集和测试集,利用训练集的数据构建预测模型,测试集的数据评估预测性能,建模过程采用10折交叉验证。机器学习方法基于Python软件实现。(4)饮食模式基于“先验”方法与“后验”方法进行推导,“先验”方法通过饮食质量指数(DQI)评估地中海饮食模式的依从性;“后验”方法包括以“以人为中心”的潜在类别分析方法(LCA)与“以变量为中心”因子分析方法(FA),比较了不同方法推导的饮食模式特征,以及其与血浆脂质生物标志物、乳腺癌风险的关联。LCA与FA分析通过Mplus软件实现。研究结果(1)本次研究共纳入818例乳腺癌新发病例与935名健康对照,病例组的教育程度低于对照组,超重率,乳腺癌家族史和乳腺良性疾病史高于对照组(P<0.05),其余人口学特征与生殖特征(年龄,居住地,吸烟,体力活动,曾口服避孕药,曾雌激素替代治疗,初潮年龄,分娩数,首次月经年龄,母乳喂养,身高)在两组间分布没有显著统计学差异(P>0.05)。(2)成年期体重增加与绝经后乳腺癌风险显著相关(时期:18岁至诊断或面访前一年,体重每增加5kg,OR=1.23,95%CI=1.10,1.37),体重增加的时期对乳腺癌风险有不同影响,成年后期体重增加的风险(时期:绝经后至诊断或面访前一年,体重每增加5kg,OR=1.65,95%CI=1.28,2.14)高于成年早期(时期:18岁至绝经,每增加5kg,OR=1.14,95%CI=1.02,1.28)。成年期体重增加与中心性肥胖(腰围表征)显著相关(P<0.01),在中心性肥胖显著(腰围≥88cm)的女性中成年期体重增加与绝经后乳腺癌的风险关联显著(每增加5kg,OR=1.14,95%CI=1.00,1.31),未在中心性肥胖程度低(腰围<8 cm)的女性中发现显著关联(每增加5kg,OR=1.11,95%CI=0.88,1.39)。(3)地中海饮食模式的高依从性降低了绝经后乳腺癌的风险(地中海饮食模式评分最高四分位数vs.最低四分位数,OR=0.54,95%CI=0.38,0.78,P-趋势<0.01)。大豆类食品是唯一可以单独降低乳腺癌风险的食品成分(大豆类食品摄入量最高四分位数vs.最低四分位数,OR=0.52,95%CI=0.39,0.69;P-趋势<0.05),但地中海饮食模式对绝经后乳腺癌风险的保护作用不能用大豆类食品的单一效应来解释,在排除了大豆类食品的影响后,保护作用的估计值仅出现了有限的衰减(修订的地中海饮食评分最高四分位数vs.最低四分位数,OR=0.64,95%CI=0.43,0.93,P-趋势<0.05)。(4)一碳代谢通路相关基因的遗传变异与乳腺癌风险改变有直接关联,基于一碳代谢通路中8个关键基因的13个SNPs位点(MTHFD1(rs11627387,rs2281603,rs8003567),TYMS(rs10502289,rs2298582,rs11664283),MTRR(rs16879334,rs2287780),MAT2B(rs4869087),CDO1(rs34869),FOLR1(rs10501409),UNG2(rs231622),ADA(rs244072))计算出的遗传风险评分(PRS)表明,具有高累积遗传变异评分的女性罹患乳腺癌的风险更高(PRS最高四分位数vs.最低四分位数,OR=2.09,95%CI=1.54,2.85,P-趋势<0.01)。遗传风险变异与绝经前乳腺癌风险的关联(PRS最高四分位数vs.最低四分位数,OR=2.30,95%CI=1.31,4.03,P-趋势<0.01)强于绝经后乳腺癌(PRS最高四分位数vs.最低四分位数,OR=1.95,95%CI=1.32,2.87,P-趋势<0.01)。(5)地中海饮食模式与一碳代谢通路相关的遗传风险具有显著的交互作用(P<0.01),当地中海饮食模式依从性较低(地中海饮食模式评分<5)时,一碳代谢通路的遗传变异与绝经后乳腺癌风险显著关联(PRS最高四分位数vs.最低四分位数,OR=2.80,95%CI=1.36,4.13);当地中海饮食模式依从性较高(地中海饮食模式评分≥5)时,关联消失(PRS最高四分位数vs.最低四分位数,OR=1.57,95%CI=0.92,2.66)。尺度分析表明地中海饮食模式作为效应修饰因子,在乘法尺度上影响了一碳代谢遗传变异对绝经后乳腺癌风险的影响(OR主效应地中海饮食*OR主效应_一碳代谢遗传风险=OR联合效应)。(6)基因变异可作为肥胖风险表型BMI的工具变量,孟德尔随机化设计下,基于17个肥胖相关基因21个SNP位点(PPARG(rs4684847,rs1801282,rs709158,rs1175543),C9orf93(rs4740619),LPL(rs316),STXBP6(rs10132280),KCNK3(rs11126666),SBK1(rs2650492),PRKD1(rs12885454),KAT8(rs9925964),AGBL4(rs657452),LEPR(rs7602,rs1137101),HIP1(rs1167827),PON1(rs662,rs12026),HIF1AN(rs17094222),CADM1(rs12286929),TLR4(rs1928295),RASA2(rs16851483))的荟萃分析结果表明BMI每增加1kg/m~2,绝经后乳腺癌风险增加5%(OR=1.05,95%CI=1.01,1.15)。(7)基于暴露因素(成年期体重增加,地中海饮食模式),遗传因素(一碳代谢基因遗传风险评分,肥胖基因遗传风险评分),协变量(其他已知的乳腺癌15个风险因素)构建了绝经后乳腺癌病因关系网络,网络包含20个节点,66条弧,平均马尔科夫毯规模17.20,平均节点邻居6.60,平均分支系数3.30。敏感性分析表明与乳腺癌最相关的直接危险因素是乳腺癌家族史。地域,年龄以及教育程度是乳腺癌病因网络中的大多数节点的父节点。病因关系紧密的节点包括,“地域”→“受教育程度”;“年龄”→(“乳腺良性疾病”,“分娩数”);“受教育程度”→(“地中海饮食模式”,“初潮年龄”,“曾激素替代疗法”,“首次足月分娩年龄”,“分娩数”);“分娩数”→“母乳喂养”;“成年期体重增加”→“身体质量指数”。基于条件概率参数计算的暴露因素与结局的优势比与广义线性模型一致。(8)利用8种监督机器学习方法与贝叶斯网络方法构分别构建了绝经后乳腺癌风险预测模型,模型特征变量来自结果(7)的乳绝经后腺癌病因关系网络节点。在8种机器学习方法中,预测精度最优的为梯度提升机(GBM)模型,准确度为0.64(±0.05),ROC下的AUC面积为0.71,贝叶斯网络(BNs)模型的预测准确度为0.73(±0.02),ROC下的AUC面积为0.76。BNs在预测准确度与稳定性上均高于GBM,AUC值置换检验分析表明两个模型预测价值的差异存在显著统计学意义(Z=0.03,P<0.01)。(9)因子分析(FA)依据食物摄入之间的相关性总结出5种饮食组合,(“谨慎”,“西方”,“中国传统”,“挑食”,“糖”),潜在类别分析(LCA)根据受试者饮食消费的条件概率将将人群划分为4种不同饮食结构(“谨慎”,“西方”,“中国传统”,“挑食”),相同命名的饮食模式在因子载荷(FA)或条件概率(LCA)上具有相似特征。在研究饮食模式与血浆脂质生物标志物关联时,FA衍生的饮食模式在预测HDL胆固醇(P=0.04),三酰甘油(P=0.03),血糖(P=0.04),载脂蛋白A1(P=0.02),高敏感性C反应蛋白(P=0.02)时优于LCA。在研究饮食模式与乳腺癌风险关联时,LCA优于FA(P=0.03),LCA将人群划分为不同饮食结构的互斥亚组,以“审慎”饮食模式作为参照组(其饮食特征与地中海饮食模式最为接近),“挑食”饮食模式潜在类别人群的乳腺癌风险增高42%(OR=1.42,95%CI=1.06,1.90)。(10)使用LCA衍生的饮食模式替代了结果(7)中单一地中海饮食模式构建的乳腺癌病因关系网络,基于路径父子节点的条件概率,推断出“农村地域→“挑食”饮食模式→初潮年龄过早→绝经后乳腺癌风险”的潜在病因关系路径,通过更改整个网络的潜在基础分布完成反事实模拟,预测了潜在病因关系路径节点不同组合下发病风险概率,发现同时满足地域=“农村”,饮食模式=“挑食”,初潮年龄=“10-14”的条件下绝经后乳腺癌发病风险概率73%。最后将病因关系网络转化为预测模型后,预测精度提升1.8%(AUC面积)。研究结论(1)饮食、肥胖与乳腺癌风险的关联研究中,成年期的体重增加与绝经后乳腺癌风险相关,体重增加的时机与中心性肥胖对绝经后乳腺癌的作用更为显著;坚持地中海饮食模式可降低绝经后妇女罹患乳腺癌的风险,大豆类食品的典型消费可能是降低乳腺癌风险的潜在有益因子。(2)环境-基因的相互作用与乳腺癌风险的关联研究中,坚持地中海饮食模式会减弱一碳代谢通路累积遗传变异对绝经后乳腺癌风险的有害影响。孟德尔随机化研究推断出肥胖暴露表型BMI水平增加与绝经后乳腺癌风险存在因果关联。(3)乳腺癌风险预测模型研究中,梯度提升机(GBM)方法在8种监督机器学习方法中预测效果最优。贝叶斯网络方法在预测准确度与稳定性上优于GBM,同时可以清晰的识别风险因素和结局之间的因果关联,使预测结果具有可解释的流行病学意义。(4)“后验”方法推导的饮食模式研究中,因子分析(FA)方法适用于分析食物效应在生物标志物上的协同作用;潜在类别分析(LCA)方法适用于比较具有不同饮食结构人群之间的疾病风险;贝叶斯网络方法与LCA方法联合分析发现了农村地域、“挑食”潜在类别人群、初潮年龄过早等因素与绝经后乳腺癌风险之间的因果关联通路,可为复杂疾病系统的潜在病因通路研究提供方法借鉴。本次研究的创新点:(1)在乳腺癌病因网络研究中,应用贝叶斯网络与因果图(DAG)理论理清了饮食、肥胖、遗传变异以及它们的交互作用在乳腺癌发生中的作用,并通过广义线性模型与孟德尔随机化法进行了验证,评价了遗传背景与环境暴露在中国女性乳腺癌发病机制中的相对贡献,为复杂疾病系统中基因-环境交互作用的深入研究提供了新的思路与实践经验。(2)在乳腺癌风险预测模型研究中,利用贝叶斯网络与DAG图构建了路径清晰的风险预测模型,填补了机器学习方法在因果推断中的路径缺失,同时通过与多种机器学习方法的比较,确立了贝叶斯网络模型作为风险预测工具的可靠性与应用前景,为乳腺癌的风险预测和早期干预研究提供了依据与思路。(3)在饮食效应与乳腺癌风险的关联研究中,分别通过“先验”与“后验”方法将复杂的多维营养数据简化为有意义的饮食模式,并评价了不同方法推导的饮食模式特征,结合贝叶斯网络方法的联合使用发现了乳腺癌新的潜在病因路径,为乳腺癌相关病因路径及病因网络的分析提供了新的研究方向。
其他文献
为解决农村年轻劳动力迁移减少和人口老年化所导致的对粮食作物生产积极性大幅度降低的问题,探究投入劳动力更少的水稻种植方式和与之相配套的高产品种的种植模式已迫在眉睫。通过2017—2019年的大田试验比较了当前常见且易于推广的2种种植方式,以及筛选了便于购买的早稻品种14个和晚稻品种12个,其种植方式为模拟机插秧和机直播,研究不同种植方式对不同早晚稻品种的生育期、产量、干物质积累量的影响。结果表明,直
<正> 一般资料男27例,女4例;年龄30~60岁;病人均有腹水、脾大、肝功能损害,其中巨脾5例,脾切除4例;病程最长者6年,最短者三月;治疗血吸虫病1次者23例,2~4次者8例。治疗方法基本方:丹皮、赤白芍各12克,泽兰、桃仁、莪术、三棱,青皮各10克,当归、云苓、泽泻各15克,丹参30克.每日一剂,水煎,分二次内服.加减:偏阳虚者加附片、白术,偏阴虚者加沙参、麦冬、黄精,郁热发黄者加茵陈、栀子
期刊
肩周炎在我们日常生活中是常见疾病,很多人受其侵扰。肩周炎三个分期病程的表现不同:急性期患者疼痛最为剧烈,早期发作时还会伴有长时间的阵痛;慢性期患者疼痛逐渐减弱,单肩关节活动度开始降低;恢复期患者疼痛基本消失,肩关节活动度逐渐恢复正常。文章运用实验法,观察了温针灸结合悬吊训练疗法治疗急性肩周炎的疗效,以期为相关人员提供参考。
<正>智慧体检建设背景随着经济的快速发展,保险已成为国民经济的一个重要产业,持续发挥着经济减震器和社会稳定器的作用。尤其受近年来疫情影响,人们的风险防范和保险保障意识进一步增强,购买保险的意愿持续增加,对保险公司风险控制能力和客户服务水平提出较高要求。核保作为保险公司承保阶段风险控制的重要手段,其标准化、专业化水平对公司稳健经营起到至关重要作用,目前主要存在以下三点亟待解决的问题。
期刊
目的:通过量化分析系统地评价锻炼对情绪调节能力的影响,探讨锻炼的物理要素与情绪调节能力之间的关系,进而为情绪调节困难人群提供合理的运动方案,为今后基于情绪效益的运动处方的制定提供理论参考。方法:计算机检索国内外数据库,搜索所有体育锻炼与情绪调节的相关文献,由两位研究人员按照纳入和排除标准独立筛选文献、提取资料和评价文献质量,二者出现分歧时由第三方进行判定,保证所得结果的客观有效性。利用元分析软件R
期刊
家用空调通常会使用海绵、阻尼块、橡胶块等零件进行密封、防振或防异响。此类材料耐候性欠佳,而且操作上难以实现自动化,因此研究其它的替代材料。本文针对各类型热熔胶的材料特性,研究其在家用空调密封、防振、防异响等方面的应用。热熔胶具有操作简单、热可塑性强、耐好性强且易于实现自动化生产等许多优良的特性。文章针对热熔胶的选型、可靠性等方面进行研究,同时列举应用案例。
在教育高质量发展的大背景下,提升中等职业教育质量的根本要落在课堂教学上。生本教育理念以学生为出发点,充分尊重学生。把生本教育引入中职学校很有必要,探索中职基础课、专业实践课生本课堂教学模式,将生本教育理念运用于教学实践活动中,以生为本、先学后教,刺激个体潜能,激发学生的内在驱动力,在课堂教学中取得了较好的教学成效,为中职提高课堂教学质量做出了实践研究。
随着互联网的不断普及,虚拟商品在生活中扮演着越来越重要的角色。尤其是疫情期间,利用游戏娱乐、利用直播学习、利用平台观看视频等成了生活中的重要部分。虚拟商品企业作为一个新领域,目前在国内尚无披露出的舞弊案例,但是国外的做空机构频频对我国爱奇艺、YY直播等虚拟商品企业进行做空,说明这些虚拟商品企业可能存在一些隐含的问题还没有被发现,存在研究的必要性。再加上2020年即将全面实施新收入准则,给本来就复杂
油茶产业的健康发展有利于保障我国粮油安全,相较于快速扩张的供给端,发展落后的需求端正越来越成为制约该产业健康发展的短板,亟待促进茶油市场需求端的发展。文章基于福州茶油消费群体的调查数据,通过构建二元离散选择模型和引入实验研究的方法实证研究消费者的茶油价值认知状况对购买行为的影响。研究发现:(1)消费者每增加1种茶油用途的具体价值认知,其购买茶油的可能性就会提高114%,促进消费者对茶油的具体价值认