单核苷酸多态性与癌症的关联性算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:amoyzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
核苷酸多态性(Nucleotide Polymorphisms)是人类基因变异中常见的变异形式,包括单核苷酸多态性(Single nucleotide Polymorphisms,SNPs)和多核苷酸多态性。其中,单核苷酸多态性出现的最多。这些变异最终可能影响到基因的表型。目前已知很多人类疾病都与SNPs有关。由于其分布广,密度高,在诸如癌症、糖尿病、高血压和哮喘等复杂疾病的研究中得到了重视。大量SNPs的分析结果表明,由SNPs导致的等位基因变异分布在基因的各个区域,特别是基因的编码区。存在于编码区的SNPs可能改变基因表达产物--蛋白质的氨基酸残基的种类,使蛋白质的结构和功能发生变化,从而导致人类对某些疾病,尤其是癌症的易感性。研究表明,与人类疾病相关的基因变化大约有一半是由SNPs引起的。因此,对SNPs与疾病关系的预测研究具有重要意义。   目前已经有许多SNPs与疾病关系的预测方法出现,大部分都是利用蛋白质序列的进化信息或结构信息。研究表明,与蛋白序列中的非保守位点相比,导致疾病的突变更多的发生在序列的保守位点,这表明预测可以基于序列的同源性,即进化信息可以作为预测因子。另外,致病性氨基酸突变与中性突变相比,它们所在的蛋白质具有不同的结构特征,这表明结构信息也可以用作预测因子。因此,许多研究者提出根据同源性或者结构信息的预测方法,比如Ng和Henikoffti提出SIFT(Sorting Intolerant from Tolerant)分类方法,Clifford等人提出the Pfam-basedLogR.E-value分类法,Bao等人提出用同源信息和结构信息训练支持向量机和随机森林分类方法。尽管这些方法能够识别致病SNPs,但是它们在准确度、灵敏度等指标上还不够理想,有待进一步改善。因此,本文在研究变异位点进化信息和结构信息的基础上,针对Bao等人用同源信息和结构信息的分类方法,提出改善预测准确度、灵敏度等指标的方法。   本文主要在以下几个方面展开工作:   首先,选取比对工具。介绍序列比对的意义及常用工具,并选取适合本文蛋白质序列分析的比对软件,主要是为下文对包含非同义变异的蛋白质序列的同源序列搜索与序列比对选择合适的工具。   其次,对于蛋白质序列上的变异,本文参考Parepro(Predicting the amino acidreplacement probability)方法构造向量,每个向量含有95个分量,每个分量代表一个特征。这些特征对于最终分类结果提供了大量的信息,对于提高最终预测效果有很大帮助。   再次,研究利用了最常用的分类模型支持向量机(SVM)模型。为了达到更好的模型训练效果,在SVM的训练和结果的预测上根据预测效果选择径向基核函数,并训练选择适当的交叉比对次数。此外,在Parepro构造出的向量第95个属性值后面,加入新的表型预测因子--变异容忍度值SIFT Score作为第96个分量,更好地将不影响表型的普通变异和致癌变异两类数据分开。   最后,把新的预测结果与Bao等人结合结构信息和进化信息的支持向量机预测方法结果以及SIFT。预测结果在预测准确率,灵敏度,特异性和马修相关系数四个方面进行比较,表明本文的方法在几个方面都有所提高。  
其他文献
随着计算机技术的发展和各种电子信息交互活动在现实生活中的不断深入,计算机犯罪的类型和领域也在增加和扩大,电子证据正悄然走近司法领域。与传统证据相比,由于电子证据极容易
随着计算机技术的发展和各种电子信息交互活动在现实生活中的不断深入,计算机犯罪的类型和领域也在增加和扩大。目前大规模的数字取证调查至少存在两个基本挑战。第一是如何满
位置管理是蜂窝通信网中的一个重要问题,随着移动用户数量的快速增加,移动用户的漫游将导致巨大的系统资源消耗,因此对现有的移动性管理算法进行调整和优化是十分重要的。  
伴随着互联网数据爆炸式地增长,各种类型的数据以流的形式源源不断产生。静态数据上的挖掘技术已不能满足现实问题分析的需要,应运而生了各种数据流挖掘技术,同时数据流挖掘
随着网络技术的飞速发展,信息快速增长与人们个性化需求的矛盾在不断地增加,而Web用户访问路径聚类正是解决这一矛盾的有效手段之一。通过对Web用户访问路径聚类,可以发现用户兴
随着计算机技术的飞速发展,计算机信息安全问题越来越受关注。无论是电子商务、电子政务、企业信息平台都存在来自系统内外的安全威胁。信息安全已经成为信息时代高度受关注的
模式识别方法已经成功地应用到大量的目标识别任务中,其中人脸识别已成为模式识别和计算机视觉领域的一大研究方向。近年来的研究成果表明,人脸图像很可能位于一个非线性流形上
科学技术和工业生产的发展,对质量要求越来越高。五十年代以来,火箭、人造卫星、宇宙飞船等大型、复杂、精密的产品出现,对产品的安全性、可靠性、经济性等要求越来越高,因此产品
随着计算机网络通信技术和多媒体技术的飞速发展,新型的人机交互(Human Computer Interaction,HCI)技术已成为当前计算机科学领域一个十分活跃的研究课题。针对移动地理信息系
网格是继Internet和Web技术之后又一次重大的科技变革。在网格计算环境中,任务调度是影响系统性能和服务质量的关键问题之一,已经被证明是一个NP完全问题,所以它引起了众多学