微阵列数据挖掘技术的研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:new37143
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微阵列作为一种新的分子生物学技术,可以同时测量生物样本在几千个基因中的表达水平。从这一实验手段可以得到全基因组的基因表达数据,为获取内在、未知而有意义的生物学知识提供了可能。这一领域研究的主要挑战在于开发生物信息学工具来搜集分析数据。 本论文研究了有关微阵列数据挖掘所涉及的几个主要问题,包括基因选择,组织分类和通过基因表达数据的调控网络重建等。本文主要的工作归纳如下: 常用的排列法从微阵列数据中选择的基因集合往往会包含相关性较高的基因,这会影响分类器的性能。为了去除这些冗余基因(特征),提出了无监督的特征选择算法。算法主要包含两步:将原始特征集划分为一组相似的子集(聚类);从每个聚类中选择代表性特征。特征的划分采用特征间的相关性作为测度以k近邻原则来完成。算法无需指定聚类数量,时间复杂度低。真实的生物学数据实验证明该算法可显著提高分类器的分类准确性。 采用微阵列数据进行组织样本有监督分类所面临的主要挑战在于基因数量远多于样本数量。为此提出了采用人工神经网络集成的分类方法,该方法使用Wilcoxon测试选择用于分类的重要基因,神经网络集成中各个体通过凸伪数据法产生的数据来训练,用简单平均法结合网络个体的测试结果。实际的生物学数据实验表明该方法性能优于单个神经网络,最近邻法和决策树。 贝叶斯网络是一种表示多变量联合概率分布的图模型,它可以获得变量之间的条件独立关系。由于可以用来表示基因表达的复杂随机过程而受到关注。本文比较了爬山法和马尔可夫蒙特卡洛(MCMC)两种贝叶斯网络学习方法在模拟微阵列数据情况下的性能。结果表明MCMC法要优于爬山法。但是在实际的微阵列数据条件下,贝叶斯网络只能随机确定基因对之间的关系。 通过微阵列数据挖掘为发现基因调控途径中因果关系提供了可能。提出了基于约束条件的因果关系发现方法,以此来搜索基因之间潜在的因果关系。这一搜索采用Hughes等人已公开的酵母基因组300个表达谱,得到了多个因果关系。粗略分析表明有些关系显示了生物学意义,其他的则有待进一步研究。这一结果表明该方法具有可行性,并且可找到有意义的因果结构。
其他文献
本研究于2006、2007、2008、2009年冬季在南京北郊(南京信息工程大学)、南京城区开展了四期长江三角洲地区冬季雾外场综合观测试验,内容包括雾的边界层结构、雾滴谱微观结构
本文从宝鸡市凉泉村汉墓所处地理位置、汉代统治者的行为、地域性设畤祭祀习俗等方面,对墓地出土玉人的原因进行了初步分析,认为其原属秦汉时期的祭祀礼器,所代表的真实身份
随着“中国制造2025”战略的实施,制造业改革转型升级的进程不断在推进,科技服务业与制造业之间的关系愈加紧密,相互之间的影响和作用力也逐步增强。作为黑龙江省国民经济的
为了进一步提高公路建设的投资效益,在分析高速公路沥青路面耐久性和寿命周期关系的基础上,建立了沥青路面全寿命周期费用模型,该模型综合考虑了投资方案的初始修建费、未来
PPP模式被认为是当前国内建筑行业领域建设中所采取的一种重要项目管理模式,该模式受多种因素的共同影响,税收政策是对其影响作用较为明显的因素之一。本文重点围绕PPP模式在
目的:探讨气阴两虚型胸痹患者应用中药配方颗粒与中药饮片治疗的效果对比及对患者QOL评分的影响。方法:选取自我院2017年1月―2017年6月收治患有气阴两虚型胸痹的患者200例。
以云南烤烟K326为研究对象,用气相色谱/质谱法(GC-MS)对9种不同醇化时间和不同等级烟叶中的主要致香成分(醇类、醛类、酮类、酸类、酯类)进行检测。结果表明:9种醇化烟叶中的
随着养殖业的快速发展,养殖场废弃物已成为农业面源污染的主要来源,对其合理处置是当前亟待解决的问题。厌氧发酵是处理养殖场废弃物的重要方式,可通过多种功能微生物协同作
地图在很长一段时间以来被广泛的使用在各个国家和地区,尤其是早期的地形图,为研究地形地貌变化、人类活动变化、人类迁移等提供了宝贵的不可或缺的信息。由于这些历史性的信
为解决花生组培再生苗及转基因苗驯化移栽成活率低的难题,本试验以花生实生苗作为砧木,对花生嫁接技术进行了研究。试验结果表明:超净台内无菌嫁接效果较好,以再生苗或实生苗