论文部分内容阅读
随着分子生物学的发展,分子生物数据爆炸式增长,出现了众多的公共分子生物数据源。研究者可以通过这些公共数据源平台获取来自不同数据源的分子生物数据,对数据进一步利用,探寻其中所包含的生物学意义。而来自不同数据源的数据,往往存在着格式上的异构,需要研究者花费大量时间和精力对数据进行预处理,从而给研究工作造成了很大的挑战,是当前急需解决的重要问题。 基因表达数据是分子生物数据的重要组成部分, GEO(Gene ExpressionOmnibus)和ArrayExpress是目前国际上最主要的两个基因表达公共数据库,分别采用SOFT和MAGE-TAB格式来存储海量的基因表达数据。然而,SOFT与MAGE-TAB之间存在数据格式定义上的较大差别,使研究人员难以同时利用来自GEO和ArrayExpress的数据进行进一步的数据分析和生物医学研究。 针对上述问题,本论文的目标是研究基因表达数据的融合方法。2001年FGED组织建立了微阵列实验最小信息集MIAME(Minimum Information About aMicroarray Experiment),用于规范基因表达数据所需包含的基本内容。根据SOFT和MAGE-TAB格式均遵循MIAME规范这一基本情况,论文的主要研究思路是基于MIAME标准,建立针对多种基因表达数据格式的映射关系,实现不同格式的基因表达数据之间的转换,具体工作如下: 剖析MIAME标准、SOFT格式、MAGE-TAB格式,分析基因表达数据的实验信息和原始数据两个部分的特点。建立实验信息的融合方法,确立MAGE-TAB为实验信息的融合标准,建立SOFT到MAGE-TAB之间的映射关系。建立raw data的融合方法,确立以Agilent格式为主体,GenePix和Affymetrix为补充的raw data融合标准,并建立三种芯片数据格式到融合标准的映射关系。根据本论文建立的融合方法,开发数据转换工具,实现不同格式基因表达数据转换。 本论文通过真实数据进行数据转换,证明了融合方法的有效性,为基因表达数据融合提供了一种可行的方案。