基于优化的支持向量机识别真核生物基因启动子

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:zkry123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
启动子是调节基因表达的重要元件,启动子的研究对基因转录调控机制的建立具有重要意义,其识别问题是计算生物信息学研究的重要内容之一。本文第一章介绍了启动子相关知识,综述了当前启动子识别方法的研究进展,第二章引进和提出一些高效特征提取方法,第三章介绍了主要的机器学习方法,并提出了采用粒子群和遗传算法优化的支持向量机进行启动子识别的PSO-SVM和GA-SVM算法,第四章阐述了相关的数据库和结果评价方法,第五章使用机器学习方法进行模拟实验,并对实验结果进行对比分析。本文的主要工作可以概括为两部分。一、高效的特征提取方法。本文选取了组分似然得分,保守位点关联权重矩阵得分,序列物理结构特异性指数,PZ曲线生物特异性指数等高效的特征提取方法。提取的特征涵盖了序列基于内容、信号、空间和图形的信息,共同反映了 DNA序列不同功能片段之间的差异。二、优化的支持向量机算法。针对支持向量机在参数选取上存在的不足,采用粒子群和遗传算法对其进行优化。极限学习机、随机森林、支持向量机是常用的机器学习算法。选取大量DNA序列数据进行模拟实验,对比优化的支持向量机算法与上述几种常用机器学习算法的的启动子识别结果。实验结果表明,PSO优化的SVM方法能更有效地识别真核生物基因启动子。启动子-外显子、启动子-内含子和启动子-基因间序列的五折交叉分类准确率均在96%以上,马修斯相关系数均在0.93以上。
其他文献
一般来说,水电站会采用设备比较先进、自动化程度较高的贯流式机组电站,以此来保障其运转的高效性。对于水电站的电气控制而言,有很多方面的作用影响着它,同时它的设计在其中也占
期刊
摘要:洪都大桥北主桥辅助通航孔5×64m等截面连续箱梁施工,着重介绍了箱梁0#块支架现浇施工和箱梁悬臂施工。  关键词:支架现浇 三角挂篮 悬浇 施工  Pick to: exist issues now days the main bridge over the north auxiliary navigation hole 5 x 64 m section continuous box con
期刊
探讨了灰砂砖的含水率以及对灰砂砖砌筑施工质量的影响,提出了改进灰砂砖砌筑质量的一些措施。
期刊