论文部分内容阅读
肿瘤是严重威胁人类生命健康的重大疾病,其致病因素多样,发展过程复杂,受到众多因素的调控,而单一药物的治疗易使肿瘤对特定药物产生耐药表型,最终导致肿瘤治疗的失败。因此,目前肿瘤的药物治疗已从最初的单一用药向联合用药方向转变,在机制的互补、作用的协同、不良反应的减轻等方面发挥更好的作用。然而,目前临床上仅经美国FDA认证的癌症化疗药物已超过200种,这些药物之间的随机配对组合高达19900种,依靠传统实验方法进行协同抗肿瘤药物组合的筛选无论在时间、效率及成本方面都具有很大的挑战性。本研究将深度神经网络与大规模生物医学数据(包括不同肿瘤细胞的基因表达特征、抗肿瘤化学药物、抗肿瘤中药成分、相关的靶点信息以及药物敏感性数据)有效结合,构建一种高效、快速、准确且不受药物数量限制的协同抗肿瘤多药组合深度学习预测模型,能够在分子水平上为特定的肿瘤细胞系筛选出最优的协同抗肿瘤药物组合。1.综述本章回顾了肿瘤耐药的主要发生机制、肿瘤联合治疗策略以及机器学习等人工智能算法在生物医药特别是协同抗肿瘤药物组合预测中的研究进展。首先从肿瘤异质性、肿瘤微环境、肿瘤干细胞、抗肿瘤药物失活、药物外排机制、药物摄取的减少、药物代谢的改变、药物靶点基因突变、miRNA在肿瘤耐药中的作用、肿瘤免疫系统的改变等方面介绍了肿瘤耐药的主要发生机制,其次从P-gp抑制剂联合抗肿瘤药、凋亡增敏剂联合抗肿瘤药、靶向MDR的siRNA/miRNA联合抗肿瘤药物、中药单体与化疗药联用、中药提取物和中药复方与化疗药联用、中药与化疗药联用逆转肿瘤多药耐药性等方面叙述了肿瘤联合治疗策略的研究进展,进一步对机器学习等人工智能算法在生物医药特别是协同抗肿瘤药物组合预测中的研究进展进行了系统回顾,从而为本工作的研究提供理论和数据基础。2.建模数据的收集与处理本章阐述了肿瘤细胞基因、抗肿瘤化合物及其靶点信息、药物敏感性数据的收集以及建模样本数据的构建。首先,从ArrayExpress数据库中收集来自29种不同生理组织的1000种肿瘤细胞的基因表达数据,使用R语言及Bioconductor包对其进行一系列统计学数据清洗,从中进一步选取cBioPortal中涉及肿瘤信号通路上的基因集作为肿瘤细胞的特征基因,最终选取215个肿瘤细胞特征基因的表达数据作为样本数据的基因特征。其次,从GDSC数据库收集得到265种抗肿瘤化合物,从NPACT数据库收集得到1574种具有抗肿瘤活性的天然产物,合并得到1839个化合物;将这些化合物的靶点经去重整理得到1093个化合物靶点信息作为样本数据的靶点特征。同时,通过GDSC和NPACT数据库收集了1839种化合物对不同肿瘤细胞的药物敏感性数据(IC50)。将处理后的1000种肿瘤细胞特征基因表达数据、抗肿瘤化合物及其靶点信息以及药物敏感性数据进行有效整合,共构建了201405个1308维的大规模样本数据(肿瘤细胞基因特征-化合物靶点信息-药物敏感性数据),将其按照80%:20%的比例随机分为训练集和测试集,用于构建协同抗肿瘤多药组合分类、回归预测模型。3.协同抗肿瘤多药组合预测模型的构建本研究首先基于深度学习框架Keras,以Anaconda5.1的Python 3.6为平台分别搭建了基于深度学习算法的分类、回归预测模型,模型的输入为肿瘤细胞的特征基因表达数据及化合物靶点信息,其中每一个样本数据的特征都作为输入层的一个节点,分类模型输出为二分类结果,阳性代表具有协同抗肿瘤效果,阴性代表不具有协同抗肿瘤作用;回归预测模型的输出为IC50值,用来衡量协同抗肿瘤作用的强弱,结合两种模型结果从而预测及评估协同抗肿瘤多药组合的效果。同时,为了更好的考察深度学习模型的性能,基于相同的建模数据,以及另外四种传统机器学习算法,构建四种不同的预测模型。其中包括:基于KNeighborsClassifier和KNeighborsRegressor函数分别构建了K近邻法(K-Nearest Neighbor,KNN)分类、回归预测模型。基于RandomForestClassifier和RandomForestRegression函数分别构建了随机森林(Random Forest,RF)分类、回归预测模型。利用svm.SVC和svm.SVR函数分别构建了支持向量机(Support Vector Machine,SVM)分类、回归预测模型。利用GradientBoostingClassifier和GradientBoostingRegressor函数分别构建了梯度提升树(Gradient Boosting Machine,GBM)分类、回归预测模型。通过使用161124个训练集样本分别对各模型进行训练学习,获得初始模型。4.预测模型的参数优化及性能考察为进一步提高初始预测模型的性能,本研究通过网格搜索算法与十折交叉验证模式对所构建的五种预测模型的关键参数进行优化,并通过一系列性能评价指标对五种算法构建的分类、回归预测模型进行评价。优化后的模型评价的结果表明,相比基于其他传统机器学习算法构建的预测模型,基于深度学习算法构建的预测模型(DeepMDS)在分类、回归预测任务中均表现出显著的性能优势。深度学习最优回归模型的参数设定为隐藏层为2层,其中第一层为200个节点,第二层为100个节点,dropout rate为0.5,learning rate为10-5,batch size为128,epoch number为300,其预测性能:均方误差为2.50,平方根均方误差位1.58,R2系数为0.86;最优分类模型设定为隐藏层为2层,其中第一层为200个节点,第二层为100个节点,dropout rate为0.5,learning rate为10-3,batch size为32,epoch number为500,其预测性能:敏感度为95%,特异性为93%,准确性为94%,马修斯相关系数为0.88,ROC曲线下面积为0.97。因此,优化后的DeepMDS用于后续的研究。5.预测模型性能的文献验证本章旨在通过文献数据验证DeepMDS模型的预测性能和适用性。通过对17种药物组合的协同抗肿瘤药效的预测结果和文献实验结果进行比较,显示该模型预测得到的最佳的前五个化合物组合,与文献数据一致,都具有协同抗肿瘤效果,并且其中三个组合表现出较强的协同效果:分别为吉非替尼和他莫昔芬,索拉非尼和他莫昔芬,厄洛替尼和索拉非尼;另外两个具有协同效果的组合分别为索拉非尼和达沙替尼,吉非替尼和托瑞米芬。另一方面,模型预测的协同效果较差的六个组合,其分别为他莫昔芬和夫拉平度,吉非替尼和厄洛替尼,吉非替尼和索拉非尼,依维莫司和BIBW-2992,索拉非尼和依维莫司,厄洛替尼和夫拉平度,文献数据表明均为累加甚至拮抗作用。由此可见,本研究中所构建的DeepMDS模型具有很好的预测准确性和适用性。6.多药化学药物或中药成分组合协同抗肿瘤作用的预测本章利用DeepMDS模型预测针对特定细胞系的最佳药物组合,针对MCF-7、MDA-MB-468及MDA-MB-231三种不同表型的乳腺癌细胞,分别筛选其最优协同抗肿瘤化学药物及中药成分组合。对于化学药物组合,MCF-7的IC50预测值最小的三个药物组合分别为Ⅲ12(多柔比星、多烯紫杉醇和吉西他滨)、Ⅲ7(多柔比星、5-氟尿嘧啶和多烯紫杉醇)和Ⅲ18(多柔比星、吉西他滨和紫杉醇);MDA-MB-468的IC50预测值最小的三个组合为Ⅲ12(多柔比星、多烯紫杉醇和吉西他滨)、Ⅱ3(多柔比星、多烯紫杉醇)和Ⅲ7(多柔比星、5-氟尿嘧啶和多烯紫杉醇);MDA-MB-231的IC50预测值最小的三个组合为Ⅳ33(多柔比星、吉西他滨、甲氨蝶呤和紫杉醇)、Ⅴ32(多柔比星、多烯紫杉醇、吉西他滨、甲氨蝶呤和紫杉醇)和Ⅳ59(5-氟尿嘧啶、多烯紫杉醇、甲氨蝶呤和表柔比星)。对于中药成分,MCF-7的IC50预测值最小的三个组合为D2(熊果酸和齐墩果酸)、D4(熊果酸和山奈酚)和F4(熊果酸、木犀草素、槲皮素和山奈酚);MDA-MB-468的IC50预测值最小的三个组合分别为D11(齐墩果酸和山奈酚)、D7(木犀草素和槲皮素)和T11(木犀草素、齐墩果酸和槲皮素),MDA-MB-231的IC50预测值最小的三个组合为D4(熊果酸和山奈酚)、D11(齐墩果酸和山奈酚)和D2(熊果酸和齐墩果酸)。7.模型预测结果的实验验证本章旨在通过体外细胞实验针对三种不同乳腺癌细胞MCF-7、MDA-MB-468和MDA-MB-231预测的化药组合及中药成分组合结果进行协同抗肿瘤作用的验证。对于MCF-7细胞,本研究首先对模型预测结果中协同作用排序靠前、中、后的9个组合进行实验验证,预测结果排序靠前的三个组合Ⅲ12、Ⅲ7和Ⅲ18,经实验测定的IC50分别为30.88 nM、56.52 nM和88.62 nM;预测结果排序中间的三个组合Ⅲ40、Ⅲ43和Ⅲ47,其相应的IC50分别为308.97 nM、598.10 nM和827.17 nM;预测结果排序靠后的三个组合Ⅲ9、Ⅲ44和Ⅲ41相应的IC50分别为2121.31 nM、1499.70 nM和6022.00 nM。该模型的预测结果与实验验证结果基本一致,即模型预测协同效果较好的组合经实验验证具有较低的IC50,模型预测协同效果较差的组合经实验验证其IC50同样较大。其中,MCF-7的最优组合Ⅲ12(多柔比星、多烯紫杉醇和吉西他滨,30.88 nM)相比于目前临床使用的Ⅱ3(多柔比星和多烯紫杉醇,377.18 nM)和Ⅲ55(吉西他滨、表柔比星和紫杉醇,814.10 nM),确实表现出更好的协同抗肿瘤效果。对于MDA-MB-468三阴性乳腺癌细胞,预测结果中最优的三个组合经实验验证均表现出显著协同抗肿瘤效果,即Ⅲ12(多柔比星、多烯紫杉醇和吉西他滨,115.50nM)、Ⅱ3(多柔比星、多烯紫杉醇,207.60 nM)和Ⅲ7(多柔比星、5-氟尿嘧啶和多烯紫杉醇,522.90 nM),且其效果强弱与模型预测结果相一致。其中,最优组合Ⅲ12(115.50 nM)相比于目前临床使用的Ⅱ3(207.60 nM)和Ⅲ55(774.20 nM)也表现出显著提升的协同抗肿瘤效果。对于MDA-MB-231三阴性乳腺癌细胞,其预测结果最优的三个组合经实验验证同样表现出显著协同抗肿瘤效果,即Ⅳ33(多柔比星、吉西他滨、甲氨蝶呤和紫杉醇,52 nM)、Ⅴ32(多柔比星、多烯紫杉醇、吉西他滨、甲氨蝶呤和紫杉醇,219 nM)和Ⅳ59(5-氟尿嘧啶、多烯紫杉醇、甲氨蝶呤和表柔比星,244 nM),且其效果强弱与模型预测结果相一致。其中,最优组合Ⅳ33(52 nM)相比于目前临床使用的Ⅱ3(4567 nM)和Ⅲ55(1506 nM)也表现出显著提升的协同抗肿瘤效果。为考察模型预测结果的肿瘤特异性,三种不同乳腺癌细胞的最优组合Ⅲ12(MCF-7、MDA-MB-468)和Ⅳ33(MDA-MB-231)对其它肿瘤细胞系的协同效果也进行了交叉验证,结果证明DeepMDS预测模型可以根据不同肿瘤细胞的特征基因信息筛选出针对该种细胞的特异性协同药物组合。进一步通过细胞实验,分别考察了模型对三种细胞系预测的最优中药成分组合的协同抗肿瘤效果,即D2(熊果酸和齐墩果酸)对MCF-7的IC50为50.95μM;D11(齐墩果酸和山奈酚)对MDA-MB-468的IC50为21.51μM;D4(熊果酸和山奈酚)对MDA-MB-231的IC50为58.04μM,该实验结果与模型预测结果相一致,且再次证明了模型预测结果具有肿瘤特异性,从而从多个角度验证了DeepMDS的准确性和适用性。8.药物组合协同抗肿瘤作用机制的初步研究本章主要针对筛选和实验验证的最优化药组合及中药成分组合,考察相应的协同抗肿瘤作用机制。通过对药物组合靶点和肿瘤特征基因进行KEGG Pathway和生物过程的富集分析,结果表明:Ⅲ12化药组合通过特异性调控TGF-beta signaling pathway和Progesterone-mediated oocyte maturation信号通路,作用于positive regulation of fibroblast proliferation、transmembrane receptor protein tyrosine kinase signaling pathway、negative regulation of cell differentiation等生物过程,对MCF-7细胞产生协同抗肿瘤效果。Ⅲ12化学药组合通过特异性调控Thyroid hormone signaling pathway、Transcriptional misregulation in cancer和GnRH signaling pathway等信号通路,作用于leukocyte differentiation和gliogenesis的生物过程,对MDA-MB-468细胞产生协同抗肿瘤效果。Ⅳ33化学药组合通过调控EGFR tyrosine kinase inhibtor resistance和RIG-I-like receptor signaling pathway这两种信号通路,作用于phosphatidylinositol-mediated signaling和positive regulation of transcription of Notch receptor target等过程,对MDA-MB-231细胞产生协同抗肿瘤效果。D2夏枯草组合通过特异性调控TGF-beta signaling pathwa信号通路,作用regulation of protein serine/threonine kinase activity生物过程,对MCF-7细胞产生协同抗肿瘤效果。D11夏枯草组合通过特异性调控Progesterone-mediated oocyte maturation、HIF-1 signaling pathway和Endocrine resistance等信号通路,作用apoptotic signaling pathway、positive regulation of cell death和cytokine-mediated signaling pathway生物过程,对MDA-MB-468细胞产生协同抗肿瘤效果。D4夏枯草组合通过调控Endocrine resistance、Viral carcinogenesis和VEGF signaling pathway等信号通路,作用negative regulation of cell proliferation生物过程,对MDA-MB-231细胞产生协同抗肿瘤效果。表明针对不同的肿瘤,不同药物组合可能通过不同的协同机制发挥抗肿瘤作用,也为个体化抗肿瘤治疗提供了依据。综上所述,本研究成功构建了基于深度学习的协同抗肿瘤多药组合预测模型,能够突破传统模型对组合中的药物数量的限制,系统高效地为特定的肿瘤细胞系预测筛选特异性的协同抗肿瘤药物(或中药成分)组合。有望为肿瘤患者的临床治疗提供更有效的个体化治疗方案和合理的用药指导。同时,本研究也可为中药协同抗肿瘤药效物质研究及质量控制提供技术支撑及理论依据。