论文部分内容阅读
定位候选策略是目前发现疾病基因的主要方法,其关键问题之一是如何对采用连锁分析等方法定位的疾病区间中数以百计的候选基因进行致病风险评估。有效解决这一问题对于缩短疾病基因发现周期、减少花费等都具有重要意义。越来越多的疾病基因被发现,使得采用计算机方法从已知疾病基因中获取知识以帮助发现未知疾病基因成为可能。但是,目前基于表达信息、基因功能以及疾病基因统计特征的三种方法都不能很好地解决这一问题。因为基于表达信息和基因功能的方法的效果严重依赖于表达与功能信息的完整性与准确性,而目前基于疾病基因序列特征的方法仅仅考虑所有疾病基因和正常基因的序列特征在统计水平的差异,没有对不同的疾病区别对待。为了更好地解决这一问题,发现不同疾病的致病基因所特有的序列特征是一种新的途径。密码子使用特征因为其蕴涵的丰富的生物学意义而被选作本研究重点挖掘的特征。一种新的方法被用来提取疾病基因中密码子的使用特征,结果发现导致同一种疾病的致病基因的密码子使用常常表现出疾病特异性,即同种疾病的致病基因之间密码子使用非常相似,而与其他基因则存在显著差别。基于这种疾病特异的密码子使用特征,设计了一种新的预测疾病基因的方法。对46种已知疾病基因个数不小于3、显著性P值小于0.1的疾病的致病基因进行leave-one-out交叉验证的结果表明,该方法能够从数以百计的候选基因中把15%的疾病基因预测为最高优先级,约1/3的疾病基因位于前3,2/3的疾病基因位于前15。该方法的显著特点在于其只需要知道候选基因的编码序列,因而可以对任何一个候选基因进行分析,无论其功能与表达信息是否已知,而且该方法针对疾病进行特征挖掘,其预测结果更具有针对性,假阳性结果更少。在此基础上,结合新基因预测技术、功能预测技术和疾病基因预测技术设计了一个发现特定疾病相关新基因的分析系统,并以心血管疾病为例进行了大规模的分析,取得了一批有参考价值的结果,可通过http://infosci.hust.edu.cn访问。