基于基因表达数据的化合物肝毒性SVM预测模型研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:ggg042001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
药物肝毒性是导致新药研究失败和临床药物撤市的一个重要的因素。据统计在新药研发过程中因候选药物肝毒性而导致失败的比例为37%,在临床应用中因药物肝毒性而导致药物撤市的比例为18%,因此,在药物研发早期以及临床使用中对药物肝毒性进行预测对于提高研发成功率和合理用药具有重要意义。由于药物肝毒性发生机制复杂,如何提高药物肝毒性预测的准确性以及适用性特别对迟发性药物肝毒性的预测依然面临重大挑战。在此,本研究尝试结合基因表达数据和机器学习技术构建药物肝毒性预测模型,以期在提高预测准确性的同时,提高肝毒性预测模型适用性以及实现迟发性药物肝毒性的早期预测。1.综述本章回顾了药物肝毒性及其预测现状。首先介绍了药物肝毒性的概念,并阐明了对化合物肝毒性的预测在药物的研发和应用中的重要性。其次,对药物肝毒性预测的方法,包括体内外生物实验法、专家系统、基于化合物预测方法、机器学习预测方法和基于基因表达数据的预测方法进行了综述,为本研究提供了理论支撑。2.肝毒性预测模型建模数据的搜集及处理本章旨在搜集建模所需的药物(或化合物)肝毒性的基因表达数据,并在预处理基础上进行分组和特征基因的筛选。通过对TG-GATE数据库和Array Express数据库收集获得87个化合物不同时间点和不同剂量下的基因表达数据样本988个(其中492个为对照组样本,496个为用药组样本)。为使模型能有效预测不同来源(条件)的基因表达数据以及能早期预测迟发性肝毒性,本研究根据基因表达数据样本所对应生物效果(肝毒性作用)的程度将出现中度以上肝毒性作用的化合物所对应的所有时间点、所有剂量下的所有基因表达数据样本作为阳性样本,非用药的对照组及肝毒性程度为轻微的化合物所对应的基因表达数据作为阴性样本。随机选择了123个阳性样本和121个阴性样本作为训练集,26个阳性样本和24个阴性样本作为测试集,剩余样本和训练集用于特征基因筛选。针对基因芯片中的空值和无效值进行最邻近法填充,并进行标准化,在此基础上,通过结合差异表达分析和Boruta算法对特征基因进行筛选。首先,用R中的Bioconductor包对用作特征筛选的阳性样本进行差异表达分析,筛选出差异表达基因375个;其次,用随机森林周围的包装算法Boruta算法对差异表达基因进一步筛选特征以最大限度降低维度,共筛选得78个特征基因用于预测模型构建。3.肝毒性SVM预测模型的构建、优化及性能测试在使用libsvm和训练集构建初始模型的基础上,以交叉验证准确率为指标,采用唯一变量原则筛选模型构建的基础参数,结果表明,当交叉验证模式为7折交叉验证、模型类型为nu-SVC、核函数为RBF核函数,其余参数设置为默认参数时,所构建预测模型取得最佳预测性能,其对训练集的交叉验证准确率为90.8163%,对测试集的预测结果为:敏感度SE为57.6923%,专一性SP为100%,准确度ACC为78.00%,马修斯相关系数MCC为62.8971%。在此参数基础上,通过构建基于GA(遗传算法)、GS(网格搜索算法)和PSO(粒子群算法)的三种优化模型,进一步优化模型的惩罚参数c和核函数参数g,通过比较在三种模型优化获得的最佳参数时模型对训练集的交叉验证准确率和对测试集预测的各项性能指标,结果显示:采用PSO算法时,在其最佳适应度(最优惩罚参数c为0.88064,核函数参数g为0.1)时,模型的预测性能最佳,对训练集的交叉验证准确率为89.7959%,对测试集的预测的性能评价指标SP为100%,SE为73.0769%,ACC为86.00%,马修斯相关系数为75.2168%。因此,确定最佳肝毒性SVM预测模型为交叉验证模式为7折交叉验证、模型类型为nu-SVC、核函数为RBF核函数,惩罚参数c设置为0.88064,核函数参数g设置为0.1。4.最优肝毒性SVM预测模型的文献和实验验证为进一步考察最佳肝毒性SVM预测模型的预测性能,本研究分别采用2组与模型构建时所使用数据不同来源的已报道的基因表达数据作为外部测试集对最佳SVM预测模型进行了验证。一组由已知肝毒性的7种化合物对应的46个基因表达数据样本组成;另一组由肝毒性尚不明确的化合物长春碱连续给药5天所对应的6个基因表达数据样本组成。预测结果显示:已知肝毒性化合物对应的46个样本均被预测为肝毒性阳性,与文献报道一致。而长春碱的6个样本也全部预测为阳性。为验证预测结果是否准确,本研究通过长春碱连续给药SD大鼠是否存在肝毒性进行了考察。在与预测基因表达数据相同的给药和饲养条件下测血清酶指标ALT、AST和H-E病理切片诊断结果显示:1-5天时大鼠未出现肝毒性,而在给药9天时,出现了肝毒性。上述结果证明了该预测模型能够适用于不同来源基因表达数据,且能早期预测迟发性肝毒性,具有较高预测性能。综上所述,本研究成功构建了基于基因表达数据和机器学习的肝毒性预测模型,该模型能够有效预测不同来源的基因表达数据,具有较好的适用性并且能够提前预测迟发性的肝毒性,具有较高的预测性能,为药物肝毒性的预测提供参考。
其他文献
HD-Zip是植物转录因子家族中的重要成员,广泛参与植物生.长发育、非生.物胁迫和激素信号转导等过程。为了探究/HD-Zip家族成员之一PtrHoxll如何在毛果杨中行使功能,本研究对P
目的:在体外实验中探明二甲双胍对顺铂耳毒性的保护作用,并从SIRT3-自噬信号的角度初步探明其可能的产生机制。方法:1、首先在HEI-OC1细胞中建立顺铂耳毒性的细胞模型。分组为对照组(C组)、顺铂组(CP组)、二甲双胍组(M组)、顺铂+二甲双胍组(CPM组)这四组。CP组给予顺铂处理24小时,CPM组在给予顺铂处理前给予二甲双胍预处理24h,M组仅给予二甲双胍作用24小时,C组不做处理,于造模终
抚育间伐是目前主要的森林采伐方式之一,抚育间伐可以改善森林生态系统和林分结构,加速林木生长,提高林分质量,增加林木抵抗自然灾害和病虫害的能力,获得较高的环境生态效益
飞蝗(Locusta migratoria)为世界性农业害虫,蝗灾发生面积广,致灾严重。飞蝗除了具有群集性、迁飞性外,还具有极强的繁殖能力,这是造成种群数量大,危害严重的原因。节间膜(Intersegmental membrane)在昆虫运动、交配、产卵等行为中具有重要作用。飞蝗腹部伸入土下产卵依赖于节间膜的延展性,雌性飞蝗在成虫期腹部长度约为2-3 cm,而当它在产卵时腹部可以延伸至8-10 c
胶质瘤是一种常见的恶性脑肿瘤,其死亡率和患病率极高,严重危害着人类生命健康。随着现代成像技术的快速发展,特别是核磁共振成像(Magnetic Resonance Imaging,MRI)技术,医生可以根据多模态MRI图像来诊断和评估脑肿瘤的情况,从而制定有效的治疗方法。因此,及时和精确的脑肿瘤分割在医生为患者制定治疗计划、进行手术和预后随访等多个过程中是非常重要的。然而,人工分割脑肿瘤是一项费时费
本研究利用两期(2005、2010年)黑龙江省落叶松人工林固定样地检测数据,以林分生长和收获模型为基础,构建了黑龙江省落叶松人工林碳储量预测系统,对林分中的各项林分因子以及
[目的]研究MicroRNA200a(miR-200a)对TGF-β诱导人肝星状细胞(LX-2)活化与增殖的作用,探讨miR-200a抑制TGF-β改善血吸虫病肝纤维化的机制。[方法]细胞实验选用LX-2,将细胞培养至对数生长期,采用不同浓度(0、5、10、15ng/mL)的TGF-β1在不同时间点(0、24、48、72小时)刺激LX-2,用试剂盒提取细胞总RNA及蛋白,荧光定量PCR方法检测LX
近年来,肾脏疾病及其并发症的种类逐渐增多,成为威胁人类健康不容忽视的一类疾病。肾脏疾病的发生发展受多种因素影响,其中环境因子就是一类重要的影响因素。研究建立体外肾小管细胞在环境因子作用下发生的形态学及生理生化等变化的检测评价手段,对于研究肾脏疾病尤为重要。本论文以大鼠肾小管上皮细胞NRK-52E为模式研究对象,分别用不同浓度的葡萄糖和结缔组织生长因子(CTGF)与NRK-52E细胞进行共培养,检测
2018年4月13日,习近平在庆祝海南建省办经济特区30周年大会上郑重宣布,党中央决定支持海南全岛建设自由贸易试验区。这一举措会使得海南的经济、文化和技术发展得到了提升。因此有必要不断加强海南的信息建设,为自贸区的成功建立做贡献。随着我国的经济的不断增长,使得海外贸易也进一步的发展。但是为了使得海外贸易能够稳定的增长,贸易人员的安全问题则要得到保证。同时,我国的海洋面积很广阔,为守护好我国的海域面
癌症,是全球范围内严重的疾病。其发病机制和易转移特性,使得癌症治疗异常困难,效果不佳。放射治疗作为癌症治疗和预后的重要手段,在手术辅助治疗和预防癌症复发、转移中扮演