DNA微阵列数据分析及蛋白质相互作用网络研究

来源 :中国科学技术大学 | 被引量 : 5次 | 上传用户:cq823285326
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA微阵列技术是功能基因组研究的有力工具,已广泛用于癌症等重大遗传性疾病的病理、相关基因的识别和临床诊断与分类研究。识别肿瘤相关基因对于研究疾病的致病机制具有重要意义。但由于微阵列数据具有数据维数高,样本数少的特点,在肿瘤分类应用中可能导致过拟合和维数灾难,在癌生物标记基因的识别上容易产生假阳性问题。解决这些问题的关键就是基因选择。利用基因选择的方法来选出与肿瘤分类相关的最优基因子集,在最大程度上删除冗余和噪声基因,然后在这个基因子集上构建分类器,不仅可以提高肿瘤分类的准确率,而且还降低了肿瘤诊断的临床应用成本,仍然是肿瘤分类领域的一大挑战。在本课题中,我们提出了一个新的基于邻域粗糙集的基因排序方法并用于肿瘤分类。通过文献检索和蛋白质相互作用网络分析所选基因的功能,看所选的基因是否与肿瘤的发生有关,基因之间是否有某种调控关系。结果证明所选基因与肿瘤的发生密切相关,同时发现在所选基因编码的蛋白质中,一些核心蛋白有数十甚至数百个相互作用的蛋白质,由于蛋白质分子表面的面积有限,单个蛋白在同一时间不可能与这么多蛋白发生作用,那么:在这些蛋白质中,哪些蛋白可以同时和核心蛋白发生作用,哪些蛋白相互排斥?与许多不同亲和力的蛋白质如何发生相互作用?这是基因调控及蛋白质相互作用网络的一个新的挑战。因此,我们希望通过整合多数据源如蛋白质相互作用网络和基因表达谱来构建一个有时间维的蛋白质相互作用网络来进一步探讨肿瘤基因调控、肿瘤发生机制、肿瘤药物靶点等系统生物学问题,这是目前也是今后工作的一个研究重点。目前已对蛋白质亲和力预测做了部分工作。全文的主要工作概况如下:1.提出了一种基于邻域粗糙集的启发式宽度优先搜索算法来选择基因子集。先前的研究表明,在正常样本和肿瘤样本或肿瘤亚型之间有强分类能力的基因可能在肿瘤的发生中起着重要作用。我们假设在最后选定的基因子集中基因出现的概率可能在某种程度上反映基因的肿瘤的分类能力和基因的重要性。重要的基因作为特征输入用于肿瘤分类。与其它方法如PAM, ClaNc, KRWRST和Relief-F相比较,我们的方法很少的基因就可以获得比较高的准确率。此外,通过文献搜索和蛋白质相互作用网络分析发现,虽然所选的基因并不是已知的致病基因,但它们在肿瘤的发生过程中起着非常重要的作用。2.建立了一个简单的在残基水平上基于知识的统计能量函数来定量预测蛋白质相互作用亲和力的模型,它需要一个参考状态。尽管在构建能量函数时并未使用蛋白质或肽的亲和力和结构信息,该模型在测试集82个蛋白质复合物中取得了满意的预测结果,预测值和实验值之间的相关系数达到了0.74。与以往体积校正的原子水平势函数相比,基于残基水平统计势能的能量函数相对比较简单并取得了与原子水平上平均势相当的结果。
其他文献
中国移动IT云是中国移动内部私有云,承载着中国移动集团内各单位业务系统,是中国移动智慧中台的底座,目前已形成"一云多中心"格局,已建设十几万台服务器规模。中国移动IT云数据中心数智化运维是通过集成三维可视化、3D建模和视频监控等技术,将数据中心机房的三维高精度模型、设备属性、设备实时数据和生产运维数据融合,结合AI图像识别、机器人巡检和AR智能运维能力,实现数据中心机房的远程控制管理,提高数据中心
在蛋白质翻译的过程中,能量产生于GTP水解成GDP并释放无机Pi的过程。核糖体上存在一个GTPase-associated center( GAC)区域。GAC主要负责激活参与蛋白质翻译的GTP酶(translational GTPase,trGTPase)的GTP水解活性。GAC由三个重要的组件组成:23S rRNA上的sarcin-ricin loop (SRL),L10和L7/L12蛋白组成
本篇硕士学位论文的主要内容包含两部分.第一部分研究了带有相依结构的齐次与非齐次样本的次序统计量在通常随机序意义下的比较,将Ma(1997)中关于独立样本的结果推广到相依样本情形.第二部分给出均匀分布随机变量线性组合的分散序结论的一个简化证明.该结论表明当均匀分布随机变量的刻度参数在某种超优序下越大,对应的线性组合在分散序意义下越大.其最早的证明是由Korwar (2002)和Khaledi & K
在胚胎的发育过程中,ClassⅡa家族组蛋白去乙酰化酶(HDAC)与肌肉增强因子(Myocyte Enhancer Factor 2 ,MEF2)之间的相互作用为组织编排特化提供了一个信号模式。这里我们介绍了在外源基因诱导的体细胞重编程过程中该信号通路调控细胞命运的惊人作用。ClassⅡa HDACs和MEF2因子在成体细胞中的表达量比较低,然而随着重编程的进行它们的表达量却以不同程度地稳步上升。
芽胞杆菌为能够产生芽胞的革兰氏阳性菌,且具有分泌蛋白能力强、发酵基础良好等特性,在生物合成酶制剂、维生素、氨基酸、核苷及抗病毒类药物中具有广泛的应用。近年来,随着分子生物学的快速发展,芽胞杆菌的遗传操作方法日臻成熟。但是实验操作步骤繁琐和引入抗性标记等问题在一定程度上制约了芽胞杆菌菌种的定向改造和基因工程菌的构建。因此,建立高效、快速的新型芽胞杆菌遗传操作系统具有重要的意义。本研究以芽胞杆菌模式菌
[db:内容简介]
[db:内容简介]
[db:内容简介]
本文采用位于武汉物理与数学研究所(31 N,114 E)的瑞利-钠荧光双波长激光雷达的2002–2010年的探测资料,从107个夜晚的Rayleigh雷达观测数据中,筛选出了32个具有典型重力波扰动特性的观测资料,求出大气温度的相对扰动以及重力波势能密度,并对其进行功率谱分析。利用得到的分析结果可以描述武汉地区甚至中低纬度上空中层大气30–55km高度范围内重力波传播的重力波谱特征及随季节变化特征
蛋白质间相互作用以及蛋白质构象和功能等问题已是后基因组时代的重要课题。伴随着高通量的实验手段的出现,生物学数据在量上急速增长。海量的生物学数据迫切需要我们发展计算学方法来研究蛋白质间相互作用以及蛋白质构象和功能。本文正是从计算学的角度来研究蛋白质相互作用和蛋白质的超二级结构预测。本文的工作主要包括以下几个方面:(1)我们提出了一种仅基于蛋白质序列信息的蛋白质相互作用预测方法。我们从蛋白质序列出发,