论文部分内容阅读
数据的高维度和复杂度是当前生物数据分析所面临的主要挑战之一。本文总结现有生物数据网络拓扑结构分析方法,分析其优点和存在的主要问题,并探索弥散小波分析方法在揭示生物数据网络拓扑结构中的用处。通过对高通量基因微阵列表达谱数据的分析,我们发现该方法提供了比其它典型分析技术更深层的信息。基因芯片技术目前应用广泛,既应用于各种基础生物科学问题的研究中,也为癌症等疾病诊断和分型提供依据,是海量生物数据主要来源之一。本文即以基因芯片数据为研究对象,采用弥散小波方法分析基于基因芯片数据构建的生物网络拓扑结构,并应用于癌症亚型分类中。但基因芯片数据庞大,所以前期的数据预处理需要进行合理筛选。首先,我们利用DSGA模型建立正常样本与病变样本之间的对照关系,通过主成分分析法进行降维处理和有效筛选,该步骤不同于传统的数学统计分析方法,它能将更符合我们研究要求的特征数据筛选出来,从而有效提高处理效率。进一步,我们提出一种基于多尺度嵌入方法的弥散模型,用于构建近似多尺度空间里的标准正交基,并介绍了一种有效的尺度函数和小波变换方法。在某一尺度,我们可以确定与我们任务较相关的类型,保存最有价值的信息,并舍弃没有价值的数据。最后,通过拓扑映射我们还提供了一个简单的图像结果,可以直观形象地呈现出数据的网络拓扑结构。我们研究分析了来自不同数据库的多组胃癌和乳腺癌基因芯片数据,发现胃癌可分为3种亚型,通过分析深层基因信息可以将这三种亚型总结为增殖、代谢与间质型。另外,本研究发现提高精度参数可将乳腺癌细分为10种亚型,该结果提示我们乳腺癌可能存在10种新亚型,而不仅仅是传统的4种分型。癌症的精确分型将有助于今后为不同亚型的癌症“量身定做”治疗方法。虽然该方法可以适用于很宽范围的高通量数据类型,本文主要用于分析基因芯片微阵列数据,并为拓展至磁共振数据分析大脑网络提供了新的方法和理论基础,也为今后生命科学领域的发展提出进一步研究的思路。