蛋白质推断及其统计检验算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:jiangur2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
鸟枪法蛋白质组学目前已经成为全面绘制生物蛋白质组的最有力武器。其中,从原始质谱数据中鉴定出样本中存在的蛋白质是鸟枪法蛋白质组学流程的基石。蛋白质鉴定主要包括肽段鉴定和蛋白质推断两个步骤。肽段鉴定是从原始质谱数据中鉴定出肽段序列而蛋白质推断问题的目标是从这些鉴定得到的肽段中还原出原始的蛋白质序列。由于质谱数据固有的不确定性和蛋白质组的复杂性,解决蛋白质推断问题变得很难。同时,鉴于样本中存在的蛋白质集合是未知的,如何判断鉴定得到的蛋白质是正确的,即蛋白质推断结果统计性验证问题,也是目前研究人员关注的焦点。本文首先提出了一个基于线性规划的新模型来解决蛋白质推断问题。该模型引入联合概率(每个肽段和它的双亲蛋白质同时存在于样本的概率),并用此概率的简单数学转换作为模型的变量。蛋白质和肽段的存在概率都可以用此变量的线性组合表示。最后,模型把蛋白质推断问题表述为一个优化问题:在计算得到的肽段概率和已知的肽段概率之差小于某个阂值的约束下,最小化概率不为0的蛋白质数量。实验结果表明该模型具有很好的推断表现并优于已有方法。针对蛋白质推断结果验证问题,本文提出了一个不使用诱饵蛋白质的模型来估计目标蛋白质推断算法产生的鉴定结果的错误发现率。模型首先提出一个零假设:每个候选蛋白质完全随机地匹配上鉴定得到的肽段。在此假设基础上,该模型使用置换P值评估蛋白质鉴定结果的统计显著性,并通过置换P值计算最终的错误发现率。模型主要包括三个步骤:首先,产生和原始输入二分图同结构的随机二分图;其次,在随机二分图上多次运行目标蛋白质推断算法;最后,计算置换P值和最终的错误发现率。其中,步骤2需要多次调用目标蛋白质推断算法,因此,时间消耗过高。为了解决此问题,该模型利用原始输入数据训练一个线性回归模型来模拟目标蛋白质推断算法的输出,然后用此回归模型替代目标推断算法预测在随机图上的蛋白质鉴定分数。实验结果表明,该模型在评估准确性上的表现能够与已有的使用诱饵蛋白质的方法相媲美。
其他文献
天然水体中藻类爆发形成水华时,会大量消耗水中的无机碳,使外源溶解无机碳(Dissolved inorganic carbon, DIC)浓度降低,同时导致pH值升高。低DIC、高pH值的环境不利于藻类生
目的:通过观察督灸治疗寒湿痹阻型类风湿关节炎(RA)的临床疗效,深入探讨督灸治疗RA的作用机理,以期进一步指导临床应用。方法:本研究选取RA患者64例,随机分为督灸+西药组(观察组)和西药组(对照组)各32例,观察一个疗程治疗前后患者的观察症状、体征、炎性指标(CRP、ESR)等各项指标,密切监测安全性评价指标(心率、血压、肝功能、肾功能等),经统计学分析,比较两种方法对RA患者临床疗效的差异。结
图的标号问题是图论学中的一个经典的问题,在图论中占有重要地位。图标号就是在图的顶点集与整数集(也可以是一交换群)之间建立一个映射,从而导出一个关于图的边集到整数集的映射
脱硫废水具有高悬浮物、高含盐量、水质不稳定、呈酸性和含微量的重金属等特征,脱硫废水的零排放处理技术一直是环保领域的研究热点之一。本文在分析脱硫废水现有的处理技术的基础上,提出了一种既利用废热又浓缩脱硫废水的工艺方法,即设置旁路气液接触塔烟道气直接接触蒸发浓缩脱硫废水的工艺方法并进行了相关的实验研究。本文针对气液直接接触传热传质过程建立传热传质模型。利用热空气和氯化钠溶液直接接触传热传质过程,探究气
社交网络(Social Networks)是一种由容迟网络(Delay Tolerant Networks, DTN)发展而来的新兴多媒体分享网络。在网络中用户通过特定的关系进行连接,例如工作地点,兴趣和朋友
大气CO2浓度增加会对全球气候产生极大影响,近而带来一系列难以预料的后果,因此,碳循环问题一直是各国研究重点。在碳循环领域一直存在一个困扰科学界多年的问题—碳失汇。多
现有关于社会网络以及复杂网络理论的研究表明,基于描述社会网络中幂律分布和小世界效应的网络理论能够定量分析社会行为的规律。通过概率方法分析随机网络得到的普适性质为进
近年来,整个中国住宅房地产市场发展已经进入了业界所说的“白银时代”,投资收益以及风险较以往相比,收益不断降低,风险显著提高,并且各个城市之间市场情况分化严重。住宅不
随着国家经济高速发展,科技水平的提高,食品行业的发展和消费者日益增加的调味品需求,为调味品产业的发展提供了机遇。调味品行业的巨大市场和良好发展前景,吸引了越来越多的优势资本,从而使这个行业变得越来越激烈,竞争也日益加剧。海天调味品较早的进驻了邢台市场,但销售成果一般,如何通过营销战略调整,重新使该品牌在邢台市场继续快速发展,是本文研究的意义所在。本文充分借鉴和运用战略管理与市场营销的主要思想和方法
温室气体排放是引起全球气候变化的重要原因之一,其环境生态效应已经得到世界的广泛关注。城市工业化程度高,人口多、车流大、建筑密、绿地少,虽面积小但能耗大,对全球碳排放