论文部分内容阅读
生物序列分析是生物信息学的主要研究领域,其任务是从浩瀚的生物序列数据中发掘知识和揭示生命的奥秘。生物序列分析的主要研究内容包括序列比对、蛋白质结构预测、基因组序列分析等。本论文着重研究了双序列比对算法和蛋白质二级结构的预测方法。首先,论文详细研究了序列比对方法,其中包括Needleman等人的动态规划(DP)比对算法、Smith-Waterman算法、以及部分多序列比对算法,并比较了各自的优缺点。然后提出一种基于频繁子序列SAFSS (Sequence Alignment based Frequent Sub-Sequences)的比对方法。虽然DP算法通过复杂的数学计算可以获得最优或近似最优的精确比对结果,但有可能忽略掉序列本身的生物意义。SAFSS尝试从序列的生物学意义入手,比对中主要考察序列的高频子序列而不是分离的单个字符,易于发现隐藏于序列之中的富含生物学意义的序列模式。与DP算法相比,SAFSS显著降低了算法的空间复杂度,减少了计算量,具有较好的性能。论文的另一个研究主题是蛋白质二级结构的预测方法。在已有的算法中,重点研究了基于BP神经网络的预测方法并进行了测试。研究中把对BP神经网络的一些常用改进算法,如附加动量法、自适应学习率调整策略以及遗传算法用于BP神经网络中,这些算法的应用既避免了网络陷入局部极小,同时还提高了系统的收敛速度和预测精度。其次,在蛋白质二级结构预测中采用了序列模式挖掘方法。在数据预处理中,主要考虑了氨基酸之间疏水特性邻接关系进行特征提取,因而提取的特征更能反映生物序列本身的特性,这样使得基于序列模式挖掘的预测方法具有较好的性能。本文的研究内容是生物序列分析中两个重要课题,研究中提出的SAFSS比对方法和基于序列模式挖掘的蛋白质二级结构预测方法具有一定的研究意义,为作者进一步进行序列分析研究奠定了基础。