论文部分内容阅读
随着高通量测序技术的进步和发展,生物信息数据呈现爆炸式增长。从海量的基因组数据和遗传变异数据中找到有用信息成为巨大挑战。传统的数据分析方法已经远远不能满足实际需要,稀疏矩阵分解理论作为数据挖掘技术能够很好地处理大规模数据,进一步从基因组数据中识别出关键特征基因,为生命科学更好地认识生命以及疾病治疗提供了有效的方法。本文通过分析国内外研究学者对稀疏矩阵分解理论和特征基因识别算法方面的综合研究成果,发现现有的理论成果存在部分学术研究上的缺乏。因此,在以往研究成果的基础上,通过对稀疏矩阵分解算法和非负矩阵分解(Non-negative Matrix Factorization,NMF)进行深入研究,将差异特征提取作为重点研究方向,分别提出了三种新的差异特征识别算法。主要包括基于L2,1范数的非负矩阵分解算法,基于流形学习的非负矩阵分解算法和分块稀疏约束的非负矩阵分解算法。基于L2,1范数的非负矩阵分解方法根据数据含有异常值和噪声等特点,将L2,1范数约束分别施加在误差函数以及正则项上,产生鲁棒性和稀疏性结果。基于鲁棒性图正则的非负矩阵分解算法通过构建图正则来保存原始矩阵中的数据点的分布结构,可以有效地识别特征基因。分块稀疏约束的非负矩阵分解算法则是根据处理癌症数据和肿瘤基因图谱(The Cancer Genome Atlas,TCGA)的特点,将不同性质的数据采用不同的稀疏约束强度,使结果更容易理解和解释。为了验证这三种算法的性能,本文在基因表达数据集和整合数据集上进行实验,并同现有的方法相比较。实验结果证明了本文中所提出的算法在处理数据上是切实可行的。本文的创新点之一在于通过L2,1范数来产生稀疏以及鲁棒性结果,提出一种新的鲁棒性且稀疏性的非负矩阵分解算法(NMFL2,1)来识别特征基因。同时将NMFL2,1成功应用在基因表达数据分析中;创新点之二是基于L2,1范数和流形学习算法,提出鲁棒性图正则算法(RGNMF)来识别特征基因;创新点三是提出一种分块稀疏约束的非负矩阵分解算法(BSNMFL2,1),并成功应用在整合数据集上。