论文部分内容阅读
识别与疾病相关的microRNA(miRNA)有助于我们了解疾病的病因以及发病机理。研究发现miRNA是通过调控靶基因(mRNA)的表达,进而行使其生物学功能。然而,经生物实验验证的靶基因数量较少。因此,很多基于靶基因来预测疾病相关的miRNA方法很难达到理想的预测效果。目前,大多数预测与疾病相关的miRNA的方法都基于这样一个生物前提,miRNA功能越相似其所关联的疾病就越相似,反之亦然。这些方法利用miRNA和疾病相关信息构建miRNA-疾病双层异构网络,通过整合网络中多种信息来预测疾病潜在关联的miRNA。但是这些方法在计算miRNA相似性过程中,并没有考虑miRNA家族信息对相似性的影响。因为源于同一个家族的miRNA通常协同参与到疾病的发生发展过程中,所以,将家族信息融入miRNA相似性计算中是很有必要的。此外这些预测方法都是基于浅层模型提出的,很难挖掘出miRNA与疾病之间隐含的、复杂的、非线性的深层特征。这将在一定程度上影响这些方法预测性能的提升。针对以上提及的不足,我们提出了两类预测方法:第一类,基于有重启的随机游走关联预测方法,第二类,基于双路卷积神经网络的关联预测方法。基于有重启的随机游走关联预测方法:根据疾病的语义和表型信息计算疾病相似性,构建疾病网络。功能相似的miRNA往往参与调控相似的疾病,反之亦然。根据miRNA关联的疾病以及家族信息计算miRNA功能相似性,构建miRNA网络。根据miRNA和疾病的关联信息,构建miRNA-疾病关联网络。通过整合这3个网络得到miRNA-疾病双层异构网络,我们在此基础上提出了一种基于有重启的随机游走预测方法。我们将网络中已知的miRNA-疾病关联节点称为‘有标记节点’,目前尚未确认的miRNA-疾病关联称为‘未标记节点’,并对这两类节点构建概率转移矩阵。我们为不同类型的节点分配不同的转移概率权重。此外,我们通过重启概率来控制游走者的游走范围,这样有助于减少噪声数据对实验结果的影响。在预测过程中,基于有重启的随机游走方法充分利用了miRNA相似性、已知的miRNA-疾病关联、疾病相似性以及异构网络的拓扑信息,同时,我们还考虑了不同网络层信息的重要性。我们的方法在15个人类疾病的ROC-AUC以及PR-AUC指标上取得了优异的效果,此外,乳腺癌、结直肠癌以及肺癌的案例分析结果进一步佐证了该方法发现疾病潜在关联miRNA的能力。基于双路卷积神经网络的关联预测方法:传统关联预测方法都是基于miRNA和疾病初始特征信息(相似性和关联特征)提出的,并没有对miRNA和疾病的初始特征信息进行表征学习进而挖掘出初始信息中隐含的非线性数据特征。鉴于基于浅层模型的预测方法很难充分挖掘miRNA和疾病特征中蕴涵的非线性关系,我们提出了一种深度学习的预测框架,基于双路卷积神经网络的关联预测方法。该方法不仅整合了miRNA和疾病的初始特征信息,还捕获了miRNA和疾病网络的拓扑特征。通过结合miRNA和疾病的生物学前提,我们根据初始特征以及网络拓扑特征构建了特征嵌入层,通过卷积神经网络对特征嵌入层的数据信息进行深度特征表示。该预测框架分为左右两个模块,左侧模块侧重于miRNA和疾病的初始特征信息,并对这些特征信息进行表征学习获取更加深层次的特征表示。右侧模块侧重于miRNA和疾病的网络拓扑信息,并通过预测框架进行特征表示,学习拓扑信息中隐含的非线性关系。最后,按照一定的策略将左右两个模块的预测结果结合在一起得到miRNA-疾病关联评分。该方法同时与其它4类方法进行了比较,在ROC-AUC、PR-AUC以及前k个候选结果的召回率等评估指标上都远优于其它方法,此外,乳腺癌、结直肠癌以及肺癌的案例分析结果进一步验证了该方法的预测性能。