论文部分内容阅读
复杂疾病致病基因挖掘对于了解疾病的发病机理和提高医学临床水平具有重要的意义。生物信息学作为当今生命科学研究的重要途径,通过揭示人类基因组及遗传语言的规律,挖掘威胁人类健康的各种疾病的致病基因,提高人类对疾病的认识及治疗水平。随着许多高通量实验技术手段的不断发展和完善,多种类型的隐含着生命本质规律与疾病信息的生物数据正迅猛增长,如何利用生物信息学方法从这些海量数据中获得有用的信息,挖掘出与复杂疾病相关的基因已成为具有挑战意义的新课题。基因芯片表达谱检测技术是基因组学研究方法的重要突破,大规模的基因表达数据为基因功能研究提供了新的机遇,促进了复杂疾病致病基因挖掘、致病基因网络关系及疾病亚型分析的研究进展。各种功能强大的致病基因预测软件也为致病基因研究提供了便捷的途径。本文研究目的是用生物信息学方法对基因表达数据分析处理,挖掘出隐含在基因表达数据中的与疾病相关的基因,并运用各种致病基因预测软件对潜在的致病基因进行排序,得到疾病基因的相关信息,提高人类对疾病机理的认识。本文的主要工作及创新性成果如下:1.提出了基于奇异值分解的致病基因挖掘算法LRSVD。针对奇异值分解(SVD)方法中用奇异值方差评估特征模式的不足,提出用Logistic回归系数代替方差评估每一个特征模式对分类的作用大小。进一步提出了基因内积的定义,建立了特征模式与原始基因表达数据之间的线性映射关系,基因内积可用来评估每一条基因的分类能力,根据基因内积的大小对基因排序,选择对样本分类能力高的基因。将LRSVD算法应用于基因表达数据,得到了一组分类准确率高的基因子集,这些基因与疾病相关。2.提出了基于改进的混沌变异离散粒子群的特征基因选择算法CMDPSO。基本离散粒子群算法由于粒子在运动过程中产生惰性而发生早熟收敛,CMDPSO算法引入了混沌机制和遗传算法的变异机制,混沌作为一种优化机制可用来产生初始粒子,其遍历性使初始粒子将新的模式不断引入到搜索空间,并对适应度低的粒子进行初始化,利用遗传算法的变异机制避免粒子陷入局部极值,从而快速得到最优解。CMDPSO算法应用于基因表达数据,得到了优化的基因子集。3.提出了基于互信息和最大团的差异共表达致病基因挖掘方法MIClique。互信息作为相似性度量函数评估基因之间的共表达关系,得到基因在不同样本中的互信息值矩阵,选取阈值将互信息矩阵二值化,将不同样本中的二值化矩阵的元素进行‘与’操作,将得到的矩阵转化为图的邻接矩阵;提出了用最大团方法从图的邻接矩阵中挖掘具有差异共表达模式的基因模块,最大团中的顶点代表基因,线代表基因之间的相互作用关系。MIClique算法避免了穷举式的基因搜索,能快速挖掘出差异共表达致病基因模块。对MIClique方法挖掘出的基因模块,不仅研究单个基因的生物功能,并研究基因共同参与的生物通路及产生共表达模式的生物机制。4.介绍了目前常用的致病基因预测软件,提出了用ENDEAVOUR软件来预测基因GAD2是否为肥胖症致病基因,讨论了训练基因和数据类型的选择,并从各生物数据库和生物文献中挖掘基因GAD2与肥胖症的相关性,预测结果有利于对其它研究者得出的相互矛盾的结论作出新的解释。最后,对整个论文的工作、研究成果及创新点进行了总结,提出了进一步的研究方向和目标。