机器学习方法及其在生物信息学领域中的应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:ZHAOTAON
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是八十年代末随着人类基因组计划的启动而兴起的一门新兴交叉学科,它是当今生命科学和自然科学的重大前沿领域之一,是生物学与计算机科学以及应用数学等学科交叉而成。利用生物信息学方法能够处理大规模数据,抽取出所需信息,从而更好的认识生命,揭示生物界的奥秘。随着基因组项目的不断完成,大量有待于分析和解释的数据呈指数级增长。数据量之大,研究之深入,以及基因组数据本身的复杂性之高,对理论、算法和软件的发展都提出了迫切的需求。而机器学习方法例如遗传算法和决策树等正适合于处理这种数据量大、含有噪声并且缺乏统一理论的领域。本文对机器学习方法及其在生物信息学中的应用进行了一定的研究,主要工作有以下四个方面:1.提出一种基于变精度粗糙集的决策树构造方法。提出了变精度明确区和变精度非明确区的概念。并给出基本的基于变精度粗糙集理论选取决策树分支属性的算法。利用UCI国际开放数据库中的19个数据集作为测试集对提出的方法进行测试,并将结果与较流行的决策树生成算法C4.5所得到的结果进行比较研究。2.提出一种基于多方法引导的遗传算法的操纵子预测方法。应用不同的方法来评价不同的基因组数据以充分发挥各自的生物特点。提出了一种局部熵最小化的方法来评价基因间距离。实验结果显示基于多属性信息的预测能力高于基于单个属性的预测能力,也证明了E. coli的基于局部熵最小化得到的基因间距离区间得分可用于其它基因组操纵子预测。3.提出基于变精度粗糙集的决策树构造的操纵子预测方法。使用基因间距离、COG功能、代谢pathway、微阵列表达数据、系统进化谱和保守基因对六种基因组数据进行操纵子预测。在E. coli、B. subtilis和P. aeruginosa三个基因组上进行测试,并与C4.5进行了比较,实验结果表明这是一种有效的操纵子预测方法。4.提出一种基于信息熵的改进k-TSP癌症分类预测方法,首先使用信息熵的方法来选取特征基因,然后使用k-TSP方法进行癌症分类预测。将公开的二类基因表达谱数据集作为实验数据集,采用留一交叉校验法来计算实验中预测的准确率,并将此方法与其他7种机器学习方法进行比较,取得了较好的效果。
其他文献
阐述了如何针对社会教育、家庭教育、学校教育的特点有效运用相关激励理论,实现对青少年的有效激励的问题。
<正>如何克服与防止腐败,保持国家机关的廉洁,几年来一直是许多人议论的热点话题,也是能否有力遏制经济上错误倾向的一个难点,关系到党和国家能否继续取信于民、乃至整个国家
目的探讨重型颅脑损伤致昏迷患者家属的最佳健康教育方法。方法将126例重型颅脑损伤致昏迷的患者家属作为实验组,按照临床护理路径的方法进行健康教育指导,其模式依次为:确定
近年来,在我国刑法、民法、行政法领域,出现了一种"打擦边球"的特殊取证方式,即刑事中的诱惑侦查、民事中的陷阱取证、行政执法中的钓鱼执法。这些取证方式因为存在合法与非
国有企业的办公室既是行政枢纽,也是业务节点,做好办公室工作需要正确态度、综合素质和管理技能。围绕着办公室工作人员素质的提升,要抓好知识储备、管理历练、职业道德和创
本文提出一种快速连通域分析算法,它对像素的行程进行操作,并将标号作为行程及连通域的特征之一,特征通过数据结构的指针与行程及连通域相联系。该算法运用了两个关键技术,一
目的:探讨LA与认知功能障碍的关系:1.分析LA是否可引起认知功能障碍;2.引起何种程度和类型的认知功能障碍;3.对LA程度进行分级,判断LA的轻重与认知功能障碍严重性的关系;4.分
对于长距离输水管线来说,当管线中的流量发生变化,或管线在输水的过程中发生事故时,长距离输水管线中的水流流动的稳态条件即被破坏,管道内水流的状态将由稳态流态变成非稳态
<正>用"乱花渐欲迷人眼"来形容时下我国家具业的现状,或许最为贴切不过了。在2000多亿元的家具消费市场的巨大诱惑下,上万家厂商奋力搏杀,竞争的激烈程度可见一斑。在家具行
以多普勒超声仪测定涩脉患者及滑脉孕妇寸口脉的血流量(F)、血流速度(V)及寸口脉管腔内径(D)的变化,并分别设健康对照组作对比,结果,与健康人相比,涩脉患者F、V、D值均明显减