论文部分内容阅读
随着基因测序技术的发展,基因数据呈现出迅猛增长的趋势,在这种情况下,通过生物学实验方法发现相似基因效率比较低,而基于异质网络结构研究基因相似性搜索算法已经成为生物信息学研究的热点。在基因-疾病-表型形成的异质网中,挖掘疾病、表型间潜在的关联信息、合理量化节点间链接权重对基于pathSim算法探究基因相似性起到了至关重要的作用。然而,现有研究在基于pathSim算法探究基因相似性时很少考虑以上两个因素,导致链接稀疏性问题,使得基因相似性计算结果的准确率比较低。为解决以上不足,本文提出一种改进的加权元路径基因相似性搜索算法gSim-Search。本文的研究内容包括:(1)针对目前研究存在对疾病、表型自身潜在的关联信息考虑不够全面的问题,本文从语义关联和拓扑关联两个方面去研究疾病、表型的自身相关性。对于疾病、表型的语义关联计算,采用一种语义贡献图的方法,在疾病、表型各自形成的有向无环图中,分别通过计算不同疾病或者表型祖先节点对某一具体疾病或者表型的最大语义贡献值来衡量疾病、表型的语义关联性。对于疾病、表型的拓扑关联计算,分别基于基因-疾病网络、疾病-表型网络,采用高斯核相似性进行疾病与疾病、表型与表型相似性的计算。然后,将语义关联矩阵和拓扑相似性矩阵进行融合获得疾病和表型各自的关联矩阵。(2)针对基因-疾病-表型异质网中链路稀疏并且没有合理量化链路关联程度的问题,本文采用二部图算法探究链路之间的关联程度。首先,将融合后的疾病、表型的关联网络通过构建资源扩散矩阵的方式融入基因-疾病-表型异质网中。然后,基于资源扩散矩阵,采用二部图的方法实现资源的非均等扩散,为了保证原有的基因-疾病、疾病-表型的拓扑关联关系不被破坏,本文在不削弱已有链接关联程度的情况下,合理量化潜在链接的关联程度。(3)通过以上工作,构建了一个蕴含丰富生物信息的加权异质网络,在此基础上,利用pathSim算法基于路径实例权重计算基因的相似性。为了验证gSim-Search算法的有效性,本文选择直接邻居法作为算法评价标准。通过对比实验证明,本文算法在乳腺癌和肥胖症两种基因相似度计算和排名时大幅度提高了预测致病基因相似性的准确率。比如,在top20排名时,乳腺癌致病基因相似性的准确率提高了10%,肥胖症致病基因的准确率提高了20%。并且,在预测致病基因相似性的准确率方面,本文算法计算结果普遍高于其他算法的计算结果,充分验证了算法的有效性。