基因表达数据分析和处理关键技术

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sms888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因表达水平是衡量基因功能活动的重要指标。基因表达的信息是理解基因功能和基因调控的潜在机制的一个重要线索。基因芯片(微阵列)具有在单一的实验中并行地检测任何细胞或组织类型中成千上万个基因的表达水平的能力,已经成为生物学和医学研究领域中常用的技术。随着微阵列的成熟和大量使用,产生了大量的基因表达数据。基因表达数据不同于常见的科研数据,有其独特的特点:小样本、超高维、高噪音、变异性、基因间高冗余和高度关联、基因的知识不精确和不完全。这些特点使得对基因表达数据的分析和处理成为生物信息学领域中的一个重要挑战之一。本文针对基因表达数据的分析和处理技术进行了研究,主要研究成果如下:  由于多种原因,基因表达数据(微阵列数据)中经常出现缺失值,对缺失数据的处理是基因表达数据处理和分析中的一个重要的步骤。本文提出一个基于偏最小二乘方法的缺失数据估计方法,并且针对应用偏最小二乘方法是为了预测缺失数据这唯一目的,提出了一个快速的缺失数据估计算法。由于偏最小二乘方法有两个显著的优点:一对变量和样本的数目没有限制,二可以有效地减少相似基因间的多重相关性对预测能力的负面影响,本文所提出的方法适合处理微阵列数据。实验结果表明所提出的方法是一个有效的稳健的缺失数据估计方法。  在基因表达数据分析中,鉴别基因是后续研究中非常重要的信息基因,有很多研究致力于从基因表达数据中选出信息基因这一挑战性工作。然而这些方法都没有考虑不同样本类别中样本大小的不平衡性问题。考虑样本不平衡性和基因选择方法的稳定性,提出两个全新的与数据分布模型无关的基因选择方法。在类内变化小和类间差别大的策略下,选择敏感的度量函数提高方法的鉴别能力;同时,利用类内变化和类间差别的一致性来增加方法的稳定性和适用性。这一方法不但可以应用于两个类别的情况,也可以应用于多个类别的情况。最后,使用两组真实的基因表达数据对所提出的方法进行了验证。实验结果表明,这一方法比其他方法具有更高的有效性和稳健性。  精确可靠的样本分类是基因表达数据分析中的一个重要问题。利用支持向量机方法在解决小样本、非线性、高维模式识别问题中的优势,同时利用树型结构的层次关系克服支持向量机方法本身没有生物学意义的缺陷,本文提出了基于类别树和支持向量机的多类分类算法,完全不同于单独考虑每个类的方法。这一方法考虑类别样本间的相互关系,充分利用类别标签这一先验知识构建一棵样本类别树,然后沿着树进行基因选择。最后由类别树和选出的基因训练基于支持向量机的分类器。我们的算法要处理的样本少,时间复杂性低,分类精度更高,选出的基因子集具有更好的针对性,结合树的层次关系,提供了更强的生物学意义。本文提出的算法用一个公共可得到的真实数据集进行了测试,结果表明分类能力优于先前证实表现最好的OVA方法。  识别差异表达基因是基因表达数据分析中的一个核心问题,很多研究人员提出了多个差异表达基因的识别方法,然而没有一个方法考虑了样本不平衡问题,也没有研究和数量化的方法来调查样本不平衡对差异表达基因检测的影响。事实上,样本不平衡经常出现在基因表达数据中。本文提出一个新颖的问题,即样本不平衡对识别差异表达基因的影响。本文给出两个基于统计抽样的评价模型来研究这一问题,并且在真实数据和模拟数据上比较六个典型的方法性能。研究结果表明,随着不平衡程度的增加,差异表达基因的识别效果越来越差,并且不同的方法受样本不平衡的影响的差异程度很大,差异表达基因的研究中有必要考虑样本不平衡问题。所提出的评价模型和研究结果可以用来帮助设计微阵列实验,也可以用来选择合适的方法来处理样本不平衡的数据。  样本个体中生物学和遗传学的变异性会影响基因的表达水平,进而导致这个基因在样本中不稳定的表达。这种表达不稳定的基因是探索潜在的生物学奥秘和癌症起因的重要线索。本文提出一个新颖的问题,即通过集成分析来自相同研究问题的不同数据集来识别表达不稳定的基因。我们把这一问题形式化为一个非线性整数(0-1)规划问题,优化目标是最大化所构造的多维目标函数,其优化解是一个多维二元向量,其中每个维度对应于一个特定的基因。三个近似的算法被提出来求解这一非线性整数优化问题,进一步地我们设计了一个统计量来度量和排列所识别的基因的不稳定表达的程度。本文提出的方法应用于不同研究小组产生的两个真实数据,实验的结果显示:所识别的不稳定基因在两个数据中的表达的确不一致,并且可以用来提高差异表达基因的筛选结果,利用(排除)所识别的表达不稳定基因可以有效地提高一个数据对另一个数据的预测精度。
其他文献
随着并行计算技术的发展,以众核加速器作为协处理器的异构集群逐渐成为并行计算机的发展方向,在其基础上混合并行计算模型成为主要并行算法设计模型。地球物理大地电磁研究技术
关注点分离和建立模型是软件工程中降低软件系统复杂度的两个重要手段。面向对象技术在关注点分离与面向对象建模领域取得了重大的进展,但仍然存在不足,尤其是在横切关注点的
随着信息技术和计算机网络的飞速发展,数字式多媒体信息的存储、复制和传播变得越来越方便,由此引发的盗版问题和版权纷争日益严重,对版权的要求也日益迫切,数字水印技术就是
近年来煤矿安全事故频繁发生,诱发事故的众多原因中,难以预测的井下供电系统事故是导致瓦斯灾害发生的重大因素,采用可靠的自动化智能综合保护装置对于提高配电网的供电质量
随着Web Service、移动计算、无线传感网络等新兴技术的不断发展和成熟,现如今软件系统的运行环境已变得日趋复杂和多变;同时人们对于软件系统高可靠性、高适应性的需求也在
随着无线技术的快速发展和日益成熟,无线传感器网络的应用已经从军事领域步入了人们的日常生活,给我们的生活带来了翻天覆地的变化。与有线网络相比,无线网络共享信道的特性
综合办公系统已经成为企业最基础的应用和整合平台,也是企业进行信息交流的最直接的手段。企业结合自己的实际情况,建设一套及办公和生产管理的“综合管理系统”已经成为衡量
正如XML正在对Web信息的组织和传输性能产生深远影响一样,作为基于XML的空间信息编码标准的GML,也正在GIS领域掀起一场针对空间数据处理的革命。GML的一个重要优势就是它能够
中医是中国古人同疾病抗争的经验和理论知识的承载体,经过长期医疗实践才逐步形成并发展为理论体系的。然而,在传统中医的诊疗过程中,由于学术观点、经验在地域、时间、医家个体
为了应对信息爆炸带来的挑战,人们迫切需要一些自动化的工具在海量信息源中迅速定位到真正需要的信息。在这样的情况下,信息抽取技术应运而生。目前大部分的Web信息抽取方法