基于机器学习的生物序列分析方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhangjunfeng_1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物信息学领域,基于机器学习处理生物序列分析问题通常基于以下三个主要步骤:生物序列特征提取,基于机器学习方法构造分类器以及分类器性能评估。然而对非计算机专业的相关研究人员来说,提出一个分析方法代价较大,而现有的一些序列分析工具又各具有局限性。为了解决这些问题,本课题研究了基于机器学习的生物序列分析方法并基于相关方法理论研究提出了用于解决三个实际序列分析问题的可行方法。最后设计实现了基于机器学习的生物序列分析平台以提供一个方便实用功能全面的序列分析工具。  针对生物序列分析问题,本课题研究了基于机器学习解决生物序列分析问题的主要步骤。深入研究了当前常用的生物序列特征提取方法,研究了序列分析领域常用的机器学习方法以及用于评估利用机器学习方法构造分类器性能的常用方法和评价指标。通过对三个步骤的研究,明确了解决一个生物序列分析问题的关键步骤,作为针对具体序列分析问题提出可行的序列分析方法以及实现生物序列分析工具的理论基础。  基于对生物序列分析问题的研究,本课题对三个具体的序列分析实际问题提出了相应的序列分析方法。针对 DNase I超敏感位点识别问题,提出了基于多特征融合的方法,该方法在特征向量生成过程中融合三种特征提取方法,对最终的特征向量基于特征选择方法去除冗余特征,基于支持向量机构造分类器并进行性能评估。针对微小RNA前体识别问题,提出了基于多类特征集成的方法,该方法基于三种不同的特征提取方法分别构造分类器然后将三个分类器集成以取得更好的结果。针对 DNA 结合蛋白识别问题,提出了基于集成学习的方法,本课题首先对基于缩减字母表的距离对方法进行了改进,利用频率谱加入了进化信息,从而提升了方法性能,之后将其与另一种序列信息相关的方法进行集成学习。分析实验结果表明本课题提出的三个方法在问题研究中均有不错的性能,相比领域内前沿方法在预测结果上均有提升,取得了较优的预测结果。表明了三个方法在相关研究中的应用前景,同时也展现了序列分析方法研究在解决实际序列分析问题应用中的重要作用。  将理论研究转化为实用的工具是能够解决生物序列分析问题的关键,本课题基于对生物序列分析方法的研究实现了通用的基于机器学习的生物序列分析平台。该序列分析平台包含了多种常用的生物序列特征提取方法以及生物序列分析领域常用的机器学习算法,同时加入了多种分类器评估方法。此外,还包含了特征选择和对数据集样本不平衡问题的解决方法。该平台是一个功能全面且通用的生物序列分析平台,可以用来解决多种不同的生物序列分析问题。
其他文献
近几十年来,人脸识别始终是计算机视觉及人工智能研究中最重要的难题之一,其吸引了无数研究工作人员的研究兴趣。随着视频监控、流媒体、访问控制等应用的普及,视频人脸识别技术
近几年来,随着网络技术的飞速发展,XML(Extensible Markup Language)已经成为因特网上数据表示和数据交换的新标准,受到越来越多的关注。XML是一种半结构化数据,和传统数据库
  本文介绍了随着小卫星技术的发展,卫星的功能密度越来越大,这对星载计算机的性能提出了更高的要求,传统CPU越来越难以胜任现代小卫星繁重的飞行任务。而ARM微处理器具有性能
本文主要研究如何将数据挖掘技术引入到电信连锁经营业务当中,并为其经营管理提供决策支持信息。  随着信息技术的发展,数据挖掘作为知识开发和创新的工具在国际上正在广泛地
随着电力事业的发展和人民生活水平的提高,对于供电质量和服务水平的要求日益提高。电量抄收是电力营销系统中的重要环节,其数据的准确性与实时性,不仅直接影响到工矿、企业、居民的用电情况,还影响到电力企业整个配网配电工作,是关乎国计民生的重要事项。传统的抄收工作通常采用人工采集,费时费力,且准确性、实时性差,而以往采用的有线和无线方案都存在一定的弊端。因此,采用高效而准确的电量抄收及监测系统变得尤为重要。
本文从半自主机器人足球比赛系统入手,介绍了机器人足球系统的硬件系统和逻辑结构,详细描述了比赛软件的研究设计,尤其是视觉子系统和决策子系统的设计,阐述了这两个子系统对
针对目前Web信息检索中存在的各种问题,该文对其中的一些关键问题,如智能化Web信息评价、资源价值标定、分布式图结构索引等Web信息挖掘的模型和算法方面进行了深入研究,把智
随着嵌入式系统与网络技术的日益结合,在嵌入式系统中引入TCP/IP协议栈,以支持嵌入式设备接入网络,成为嵌入式领域重要的研究方向。 TCP/IP是Internet的基本协议,以其实用
数字水印作为多媒体信息版权保护和完整性验证有效技术,随着宽带网络的使用和多媒体信息在网络大规模地流通,得到学术界和产业界越来越多的重视。到目前为止数字水印领域已经
入侵检测系统(IDS)的主要任务是依照一定的策略,对网络的运行状况进行监视,尽可能发现各种攻击行为,以保证网络系统资源的机密性、完整性和可用性。 从响应机制划分,入侵