生物数据网络拓扑结构分析方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:gsdx2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的高维度和复杂度是当前生物数据分析所面临的主要挑战之一。本文总结现有生物数据网络拓扑结构分析方法,分析其优点和存在的主要问题,并探索弥散小波分析方法在揭示生物数据网络拓扑结构中的用处。通过对高通量基因微阵列表达谱数据的分析,我们发现该方法提供了比其它典型分析技术更深层的信息。基因芯片技术目前应用广泛,既应用于各种基础生物科学问题的研究中,也为癌症等疾病诊断和分型提供依据,是海量生物数据主要来源之一。本文即以基因芯片数据为研究对象,采用弥散小波方法分析基于基因芯片数据构建的生物网络拓扑结构,并应用于癌症亚型分类中。但基因芯片数据庞大,所以前期的数据预处理需要进行合理筛选。首先,我们利用DSGA模型建立正常样本与病变样本之间的对照关系,通过主成分分析法进行降维处理和有效筛选,该步骤不同于传统的数学统计分析方法,它能将更符合我们研究要求的特征数据筛选出来,从而有效提高处理效率。进一步,我们提出一种基于多尺度嵌入方法的弥散模型,用于构建近似多尺度空间里的标准正交基,并介绍了一种有效的尺度函数和小波变换方法。在某一尺度,我们可以确定与我们任务较相关的类型,保存最有价值的信息,并舍弃没有价值的数据。最后,通过拓扑映射我们还提供了一个简单的图像结果,可以直观形象地呈现出数据的网络拓扑结构。我们研究分析了来自不同数据库的多组胃癌和乳腺癌基因芯片数据,发现胃癌可分为3种亚型,通过分析深层基因信息可以将这三种亚型总结为增殖、代谢与间质型。另外,本研究发现提高精度参数可将乳腺癌细分为10种亚型,该结果提示我们乳腺癌可能存在10种新亚型,而不仅仅是传统的4种分型。癌症的精确分型将有助于今后为不同亚型的癌症“量身定做”治疗方法。虽然该方法可以适用于很宽范围的高通量数据类型,本文主要用于分析基因芯片微阵列数据,并为拓展至磁共振数据分析大脑网络提供了新的方法和理论基础,也为今后生命科学领域的发展提出进一步研究的思路。
其他文献
与病毒载体相比,质粒DNA具有安全性好、毒性和免疫原性较低以及易于生产等诸多优势,在临床上已被广泛用于基因治疗和DNA疫苗。氨基酸亲和色谱是利用小分子氨基酸作为亲和配基,基于氨基酸和超螺旋质粒DNA之间的特异性相互作用进行质粒纯化的色谱方法,具有操作简便、成本低廉等优势。有研究表明,精氨酸亲和色谱对超螺旋质粒DNA具有很好的选择性,且色谱纯化的条件温和、操作简便。本研究以精氨酸作为亲和配基,考察了
脊椎动物的颅面骨结构极其多变且具有物种特异性,尤其是鸟类的喙。鸟类喙型的变异被认为是“生态力”作用的产物,每个物种喙的形态对其生活方式和生存模式都至关重要。神经嵴细
本文根据高炉/转炉钢铁生产流程的特点,确定出碳排放强度的计算边界和计算方法,并以某500万吨钢生产基地的碳排放强度进行了计算。由计算结果可看出:高炉/转炉钢铁生产流程碳