论文部分内容阅读
选择性剪接是指从一个mRNA前体中通过不同的剪接方式(选择不同的剪接位点组合)产生不同的mRNA剪接异构体的过程。选择性剪接在高等真核生物中广泛存在,是调节基因表达和产生蛋白质组多样性的重要机制。选择性外显子是选择性剪接的一种模式,某些选择性外显子与人类疾病相关。因此选择性外显子的识别研究具有重要意义。
选择性外显子又叫做盒式外显子,可以分为跳跃型和隐藏型两类。基于支持向量机(SVM),本文提出了一种识别隐藏型外显子和跳跃型外显子的方法,并对该方法进行了改进。
(1)隐藏型外显子的识别。该方法从待分类的序列的特征来预测它是否为隐藏型外显子,由两个前后相继的步骤组成,每个步骤都是通过SVM分类器来实现的。通过第一个分类器判断该序列是否为假的外显子,然后通过第二个分类器判断该序列是否为隐藏型外显子。这种方法在两个步骤中可以实现的准确率分别是94.25%和69.75%。由于没有使用表达序列标签(EST)信息和不同物种之间的序列保守性信息,所以该方法具有适用范围广的优点。
(2)应用这种方法进行了跳跃型外显子的识别。与隐藏型外显子的识别不同,第二个分类器判断该序列是否为跳跃型外显子。在识别跳跃型外显子时,两个步骤可以实现的准确率分别为94.25%和60.20%。
(3)最后提出了两种方法来改进原来的识别方法:应用特征选择和加入SR蛋白质结合位点特征。使用特征选择方法可以使识别率提高1.48%。通过SR蛋白质结合位点的研究,发现SC35和SF2/ASF结合位点特征能够使识别率提高1.27%,而加入SRp55和SRp40结合位点反而降低了识别准确率。