基因表达与功能相关算法研究及并行优化实现

来源 :中国科学院计算机网络信息中心 | 被引量 : 0次 | 上传用户:fgjfg111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物种基因组测序的完成,揭示基因组序列所包含和隐藏的生物信息,乃是一段时间内生物学领域关注的焦点。其中,对基因表达及其功能的探索和研究是至关重要的一步。那么,各种相关的计算和优化方法的出现,也是为了解决这些生物信息学问题。   众所周知,二十一世纪的生物学已经从纯粹的实验科学阶段进入了信息科学阶段。全世界许多研究机构,每天都制造大量的生物数据,对如此海量数据的存储、处理、分析和解释无疑需要并行计算机和计算技术的支持。   本文涉及的所有生物信息学问题都属于基因表达与功能研究领域,而用来解决问题的算法、软件以及优化方法是本文研讨的重点。首先,论文深入全基因组表达研究的嵌合芯片技术(Tiling Array),为了析出基因组上表达并可能具有生物功能的特征区域,本文建立了数据挖掘流程“表达保守区域采集分析系统”ecrEAS,并针对ecrEAS的完善需求,提出并实现了一种基于组合分类器的表达信号识别算法LBC-TSI,其中涉及的大规模比对计算也是通过并行处理,才极大减少了计算耗时。而后,根据实际计算需求,本文从算法和软件并行优化的角度,对两种已有较为成熟、用来分析基因表达与结构功能的软件,实现了加速并行化方案。   本文的创新性工作主要包括如下几个方面:   1.建立表达保守区域采集分析系统ecrEAS:对嵌合芯片表达保守区域建立提取与分析系统,并对析出产物进行多种可能性的过滤与分析。实际上ecrEAS是一个由很多数据挖掘算法形成的流程系统;   2.提出并实现了基于组合分类器的信号识别算法LBC-TSI:针对ecrEAS的完善需求,提出并实现了基于Boosting-CART的信号识别方法,由于其预处理数据规模巨大,所以需要并行计算支撑。另外,算法可以针对某个组织或细胞株(cell line)识别表达,同时在识别过程中过滤被交叉杂交噪声污染的探针,并能析出表达量较低的探针。   3.完成两个软件的并行优化设计与实现:   (1)基因电子克隆算法的并行优化:通过分割序列数据库,并行处理大规模序列比对与序列延伸,对新基因发现软件SiClone实现了并行优化;   (2)分子空间结构叠合算法的优化与并行化:通过“均匀设计”实验方法,对分子空间结构叠合算法实现了全局部点优化。同时采用子任务部署策略,对优化的串行算法实现了并行处理。
其他文献
近年来,随着计算机硬件技术的不断进步,特别是内存价格的不断下降、容量不断增大以及64位处理器的出现使得计算机可使用超过4GB的内存。这些技术的发展和应用,大大增加了内存数
古树名木具有十分重要的生态、经济和社会价值,被誉为“活化石”。由于生态环境的急剧恶化以及许多急功近利的原因,导致古树名木被盗、被焚、被毁的现象频繁发生。本文提出将
企业资源计划ERP系统集信息技术与先进的管理思想于一身,是现代企业的运行模式,反映时代对企业合理调配资源,最大化地创造社会财富的要求,成为企业在信息时代生存、发展的基
随着互联网技术的蓬勃发展和相关应用的迅速普及,尤其随着Web2.0技术的发展,每个人不再仅仅是信息的消费者,更是信息的生产者,网民可以借助于电脑,手机等网络终端,随时随地在微博、
在高校的日常管理工作中,排课系统管理是其中的重要组成部分,是学校教学管理中最重要、最繁重的工作之一。排课表问题普遍存在于大中小各级学校中,这些学校,无论规模大小、学科多
随着科学技术的不断进步,社会发展步入知识经济时代。信息技术的深入发展和广泛应用,一方面使得海量的信息资源广泛存储于计算机和互联网当中,形成潜在知识宝库;另一方面,巨大的
飞行课目的仿真与飞行数据的智能评估预测在国内外的飞行训练中应用的越来越广泛,本文采用DirectX技术,在飞行训练智能评估系统的基础上,建立某型飞机3D模型,设计实现了某型飞机
现代信息技术的发展和社会信息化水平的提高对于软件功能、性能的要求越来越高,如何利用非常有限的时间和资源保证软件质量成为企业关注的重点。软件测试做为保证软件质量的关
随着各种信息处理技术的发展,人们可以访问的数字资源越来越多,如何从海量数据中方便快捷地得到人们所需要的信息成为人们非常关心的问题。  目前的信息服务还处于一种基于关
Deep Web是Web数据管理研究面临的一个新的领域,集成系统将收集不同Web数据源返回的查询结果并加以集成,以提供给用户一个统一的视图。为了保证集成后的查询结果具有很高的用户