【摘 要】
:
生物信息学是运用信息学手段对生物数据进行整理、分析和提取的一门新兴交叉学科,蛋白质组学的研究是其中非常重要的方面。而计算机科学中的数据挖掘技术是对大量数据进行分
论文部分内容阅读
生物信息学是运用信息学手段对生物数据进行整理、分析和提取的一门新兴交叉学科,蛋白质组学的研究是其中非常重要的方面。而计算机科学中的数据挖掘技术是对大量数据进行分析的一个行之有效的手段。本文将数据挖掘技术中被广泛使用的决策树方法运用到蛋白质组学的研究中,在搜集的大量关于模式生物酿酒酵母的原始数据基础上,用决策树方法对任意一对酿酒酵母蛋白是否构成蛋白质复合物进行预测。在单棵决策树的基础上本文构造了由多棵独立的决策树所组成的决策林(Decision Forest)系统,本文还利用已有的软件包生成了支持向量机(Support Vector Machine: SVM)系统,用同样的训练数据构造上述三种系统并对同样的测试数据进行分类预测,将三种方法的预测结果进行了比较和分析。最后本文对预测结果从生物学意义进行分析,阐述了这个方法对于酵母蛋白质复合物的进一步研究所具有的理论价值。本文主要采用JAVA语言实现了全部的自动批量预测程序,经过实验证明,本文所采用的决策树方法在预测酵母蛋白质复合物上具有比较高的准确率,为酵母蛋白质复合物的进一步研究提供了实用工具,其结果也为进一步生物学研究提供了思路和方向,本文的工作是对于数据挖掘技术在生物信息学领域中应用的一次有益探索。
其他文献
在以构建业务流程为主旨的信息系统开发中,工作流管理系统已经成为一个重要的系统部件和开发平台。运用工作流技术,可以使信息系统的业务流程与具体的应用相分离,降低了软件复杂
本论文主要研究远程访问ST系统的Web服务的体系结构,希望通过目前广泛使用的基于WEB的开发应用模式——Web服务来构建一种远程访问ST系统的结构模型。论文使用ST系统作为
随着Intrenet的迅速发展,信息安全问题显得日益重要。但由于计算机的计算能力逐步强大,因此必须有更安全、更有效率的加密算法才能保证数据安全。椭圆曲线加密系统与其他公钥
近年来,计算机科学与信息技术在医学领域得到了飞速的发展,随着国家对医疗卫生事业信息化的不断投入,已使其成为临床、科研、医学教育、医院管理的重要组成部分。计算机硬件的改
移动自组网是由移动主机组成的一种多跳步无线网络,网络中不存在任何固定的通信基础设施,移动主机之间协同工作,在共享无线介质中以多跳步方式传输数据,每个主机既是终端又是
网络视频应用中的流媒体数据对网络扰动有着较高的敏感性,尽管随着技术的发展,网络的性能正在逐渐提高,但是丢包等错误仍然不可避免。因此需要对错误发生后得到的受损视频流进行
在开发研制基于Nios的列车轴温光纤传输传感探测系统中,涉及到随机信号的处理问题。这项研究按照向量ARMA(Autoregressive Moving Average自回归滑动平均)模型,把基于状态空
随着社会信息化的发展,信息管理系统推陈出新,出现了各式各样不同结构、功能更强大的数据库管理系统,而旧的数据源因为包含有重要的历史数据,或者存在不可变更的因素,不能单纯地抛
半导体工业作为众多领域的支柱产业,其市场需求在不断加大。但目前国内中小型企业的半导体芯片后工序中超声焊接机器基本上是手工操作,工作效率低下,产品质量很不稳定,而全自
近年来,随着计算机技术的快速发展,分布式计算作为现代新技术的产物,得到了快速的发展。当分布式系统环境大规模出现在军事、航天、灾难救援等需要相互协作共同完成某个目标