生物信息学中的多序列比对与模体识别问题研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lynxmao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组计划的实施,使序列数据激增,序列分析成为生物信息学的首要任务。序列比对与序列模体(motif)识别是进行生物序列分析的两个主要方法。本论文主要针对多序列比对问题和模体识别问题进行了方法上的研究。本文的主要工作和创新点如下:1、针对生物序列分析中的多序列比对问题,设计了求解多序列比对问题的混合遗传算法。首先采用SP记分函数作为个体的适应度函数,设计了4种遗传算子,对BAliBASE中Ref.1进行了测试,其结果表明该算法对等距蛋白质序列比对是有效的,其中部分比对结果优于ClustalX。2、为了进一步提高算法求解问题的范围及求解的精度,算法改用COFFEE函数作为个体的适应度函数,与之相应的软件称为PHGA-COFFEE,构造了6种遗传算子,特别是设计了2种新颖的变异算子,其中一种变异算子基于COFFEE的一致性信息设计,以改善算法的整体搜索能力;另一种变异算子基于动态规划方法设计,以增强其局部搜索能力。最后,通过对BAliBASE中144个测试例的测试,证明PHGA-COFFEE是有效的,与已有的算法相比,该算法对处于朦胧区和具有N/C末端延伸的序列比对问题有更强的问题求解能力。同时通过对算法并行化,其运行时间显著缩短。3、针对多序列比对中的Profile HMM的参数优化问题,提出了遗传算法与Baum-Welch(BW)算法相结合的混合遗传算法。通过实验分析,证明经过混合遗传算法的训练而得到的Profile HMM能更好地描述多序列比对,从而得到更加准确的比对结果。4、针对生物序列模体的识别问题,提出了一个新的混合Gibbs抽样识别算法。算法基于混合模体模型学习,采用贪心策略,通过似然度最大化,逐次将新的模体加入到混合模型中。算法中设计了位点抽样和模体抽样两种抽样方法,这两种抽样方法交替进行。为了加速搜索过程,对输入数据集采用了基于kd-trees的分层划分策略。实验结果表明,该算法对序列家族大量模体特征的识别具有显著优势,并且可建立更具统计特征的模体模型,从而提高序列分类的准确性。
其他文献
目的:探讨手术室心理护理在口腔种植手术患者中的应用效果。方法:选取2017年1月~2018年1月收治的行口腔种植术治疗的患者50例,按照随机数字表法分为对照组和观察组各25例。对
<正>学习贯彻党的十九大精神,是当前和今后一个时期的首要政治任务。新乡供电公司把十九大精神与企业职责使命结合起来,坚持学深、学透党的十九大会议精神,认真落实国家电网
以2008年苏州城乡老年空巢家庭养老状况的调查资料为基础,对城乡空巢老人的养老意愿及其影响因素进行了分析。超过半数的空巢老人不愿意与子女共同居住,而机构养老也并非空巢
固液相变材料具有储热密度高、相变过程温度几乎不变且体积变化小、熔点分布广、化学性质稳定等优点,在可再生能源储热、工业余热利用以及电子器件热管理等领域获得了广泛应
支持向量机(Support Vector Machine,SVM)是由学者Vapnik提出的一种基于统计学习理论(Statistical learning theory,SLT)的机器学习方法。Vapnik等学者利用结构风险误差最小化原则替代传统的经验风险误差构造SVM模型。自SVM被提出以来,就受到海内外学者的广泛关注与研究,在SVM模型的基础上,引申发展出来多种改进模型:孪生支持向量机(Twi
引入层次分析法,解决大口径油气管道河流穿越的方案选择问题.介绍了层次分析法的基本原理,详细论述了用层次分析法进行大口径油气管道河流穿越方案选择的步骤,以施工周期、河
介绍了苯胺生产中先进的硝化技术、还原技术;阐述了国内外苯胺的生产情况。
现如今工业摄像头及家用摄像头已取得巨大的应用及发展,其采集的视频与图像的清晰度越来越高、分辨率越来越大,从而对视频、图像内容的存储和网络传输带来了更大的挑战。传统
现阶段,居住区景观设计已成为建筑环境设计的主要趋势,服务性景观小品作为其重要组成部分更有着不可替代的地位。本文诠释服务性景观小品的内容及其在居住区景观设计中的作用
目的:观察祛风活血丸对实验性自身免疫性葡萄膜炎(experimental autoimmune uveitis,EAU)大鼠血清白细胞介素-4(IL-4)、白细胞介素-15(IL-15)、干扰素-γ(IFN-γ)的影响。方法:将80只(160眼)雄性Lewis大鼠根据随机数字表法随机抽取16只作为空白组(A),对其余64只大鼠分别注入视网膜光感受器间维生素A类结合蛋白(inter-photorec