面向差异特征识别的稀疏矩阵分解方法的研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:jyk1987525
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的进步和发展,生物信息数据呈现爆炸式增长。从海量的基因组数据和遗传变异数据中找到有用信息成为巨大挑战。传统的数据分析方法已经远远不能满足实际需要,稀疏矩阵分解理论作为数据挖掘技术能够很好地处理大规模数据,进一步从基因组数据中识别出关键特征基因,为生命科学更好地认识生命以及疾病治疗提供了有效的方法。本文通过分析国内外研究学者对稀疏矩阵分解理论和特征基因识别算法方面的综合研究成果,发现现有的理论成果存在部分学术研究上的缺乏。因此,在以往研究成果的基础上,通过对稀疏矩阵分解算法和非负矩阵分解(Non-negative Matrix Factorization,NMF)进行深入研究,将差异特征提取作为重点研究方向,分别提出了三种新的差异特征识别算法。主要包括基于L2,1范数的非负矩阵分解算法,基于流形学习的非负矩阵分解算法和分块稀疏约束的非负矩阵分解算法。基于L2,1范数的非负矩阵分解方法根据数据含有异常值和噪声等特点,将L2,1范数约束分别施加在误差函数以及正则项上,产生鲁棒性和稀疏性结果。基于鲁棒性图正则的非负矩阵分解算法通过构建图正则来保存原始矩阵中的数据点的分布结构,可以有效地识别特征基因。分块稀疏约束的非负矩阵分解算法则是根据处理癌症数据和肿瘤基因图谱(The Cancer Genome Atlas,TCGA)的特点,将不同性质的数据采用不同的稀疏约束强度,使结果更容易理解和解释。为了验证这三种算法的性能,本文在基因表达数据集和整合数据集上进行实验,并同现有的方法相比较。实验结果证明了本文中所提出的算法在处理数据上是切实可行的。本文的创新点之一在于通过L2,1范数来产生稀疏以及鲁棒性结果,提出一种新的鲁棒性且稀疏性的非负矩阵分解算法(NMFL2,1)来识别特征基因。同时将NMFL2,1成功应用在基因表达数据分析中;创新点之二是基于L2,1范数和流形学习算法,提出鲁棒性图正则算法(RGNMF)来识别特征基因;创新点三是提出一种分块稀疏约束的非负矩阵分解算法(BSNMFL2,1),并成功应用在整合数据集上。
其他文献
亚纯函数的唯一性是值分布论的重要且活跃的研究课题之一.近些年来,唯一性的研究已经推广到差分领域.本文主要研究亚纯函数关于位移、q-位移及差分分担常数(或小函数)的问题.
近年来,随着在生物、物理、机械等领域的应用,差分方程逐渐引起研究学者们的关注.特别是计算机技术的飞速发展,离散数据拟合性的完善更促进了差分方程理论和应用的研究.本文
本文主要利用对偶极小化原理和扰动技巧,研究了一类二阶非线性差分方程边值问题解的存在性和一类带有p-Laplace算子的差分方程边值问题解的存在性.第一章首先介绍了变分法和
本文研究对象限于简单有限图,对于图G的一个正常顶点k-染色,指的是从G的顶点集合V(G)到颜色集合{1,2,…,k}的一个映射c.使得距离为1的点染的颜色也不同,我们用X(G)来表示满足
随着科学技术的不断发展进步,网络逐渐成为人们生产和生活的一部分。对网络的可靠性研究也成为一个热点问题。在众多网络可靠性分析方法中,基于二元决策图(binary decision d
巴斯德毕赤酵母(Pichia pastoris,P.pastoris)是目前应用最广泛的外源蛋白真核表达系统之一,该系统基于一个高效的醇氧化酶1(alcohol oxidase 1,AOX1)启动子(AOX1promoter,PA
在谱理论中,临界谱是一个新的概念.临界谱的提出完善了谱映射定理.本文运用0C半群的性质以及0C半群的谱理论,讨论了0C半群的临界谱以及它的计算;在0C半群的临界谱理论的基础
随着计算机技术的快速发展,结构优化理论也在不断地完善,且由于工业制造手段的不断创新(如增材制造方法等),结构拓扑优化技术得到了越来越广泛的应用。在实际问题中,结构可能
本文利用常规观测资料、探空资料、多普勒雷达组网资料、NCEP再分析资料,及中尺度数值模式WRFV3.4输出的高分辨率资料,对2013年5月15日-16日发生在广西广东地区一次强飑线过
在科学哲学领域,贝叶斯方法正被普遍运用于科学推理以及科学解释。其中贝叶斯概率作为主观概率形式能够很好的解决归纳推理中的问题,贝叶斯网络作为形象化的图形结构能够帮助