论文部分内容阅读
研究目的:本研究使用隐马尔可夫模型,对大肠杆菌编码序列进行识别,并分析识别结果的影响因素,旨在深入学习隐马尔可夫理论,并为其在挖掘生物信息,发现致病位点中的应用提供研究基础。研究方法:模型的建立是利用隐马尔可夫模型的Baum-Welch算法对训练集数据进行训练建模,本研究共建立三个模型,分别为100次迭代的编码区隐马尔可夫模型(100次HMM-gene),10次迭代的编码区隐马尔可夫模型(10次HMM-gene)以及100次迭代的非编码区隐马尔可夫模型(100次HMM-nogene),训练数据集是来源于美国国家生物信息技术中心(NCBI),从共享资源中下载到己标识出编码区和非编码区的大肠杆菌全基因组序列,剔除了序列长度大于20000bp以及小于80bp的生物序列后,随机选取的2/3的编码区序列以及2/3的非编码区序列。判断迭代次数对识别结果影响的方法是:通过比较在不同迭代次数的HMM-gene模型下,利用Viterbi算法模拟出序列的最佳状态后,通过计算核苷酸识别正确率来判断,测试数据是从余下1/3编码序列中随机选取的50条编码序列。编码区序列识别的方法是通过比较建立的100次迭代的HMM-gene模型和HMM-nogene模型下每条序列识别为编码区状态的核苷酸与识别为非编码状态的核苷酸的比值差与1的关系来进行识别的。测试序列是从余下1/3序列中随机选取180条编码序列以及180条非编码序列。采用特异度、灵敏度以及精确度对识别结果进行评价,并用Logistic回归分析序列长度和CG含量对识别结果的影响。研究结果:通过模拟试验发现,对核苷酸的识别,100次迭代识别结果较稳健,波动性较差,识别正确率中位数为65.15%,10次迭代结果波动性较大,区分度不是很好,10次迭代识别正确率中位数为49.89%。利于本试验的方法识别编码序列的灵敏度为73.33%,特异度为67.78%,精确度为70.56%。进一步分析影响识别结果的因素发现,序列长度和CG含量对是影响序列识别准确性的因素。研究结论:利用隐马尔可夫模型识别原核生物编码序列时,充分迭代是十分有必要的,序列长度大于1000bp且CG含量较高的序列识别的准确率较高。同时发现本次试验研究还需要进一步完善,对训练数据的修饰,判断方法的仍需进一步完善。