基于生成树基因表达数据聚类方法分析

来源 :东北大学 | 被引量 : 0次 | 上传用户:qq462283910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片的发明使得同时比较和研究大量基因的特性成为可能,随之产生大量的基因表达数据。在分析基因表达数据时最先采用的是聚类分析技术。所谓聚类就是按照事物的某些属性将事物聚成类,使类间的相似性尽量小,类内的相似性尽量大。如何利用计算机科学中的分析技术,以发现基因表达数据中对生物学试验有指导意义的信息或知识成为当前生物信息学研究的新课题。 我们对Dong Xu,Victor Olman等人提出的将最小生成树理论用于基因表达数据的清除MST长边聚类算法和全局最优算法进行了分析和研究,发现可以将其改进,提出了直接聚类算法、局部最优聚类算法和最大生成树模糊聚类算法。新算法主要采用了直接分类和递推计算的手段,简化中间计算过程,提高程序运行效率,进而达到缩短运行时间的目的。我们通过实验对比分析,发现新算法比原算法运行快,可以达到线性的运行时间。同时,文中也介绍了我们正在开发中的用于基因表达数据的生成树聚类软件系统MST-Cluster,该系统能够把输入的基因数据依据指定的算法进行分类,以及对己分类的两组基因进行比对。 本文主要研究了基于生成树理论用于基因的聚类算法——最小生成树聚类算法,得到了一些新算法。第一章对基因表达数据聚类的现状进行了概述;第二章介绍了与研究有关的定义和公式;第三章研究了基于最小生成树基因表达数据的聚类算法,并提出了自己的新算法,以及新算法与原算法的实验结果对比分析;第四章介绍了本人开发的用于基因表达数据的生成树聚类软件系统MST-Cluster;第五章作了总结与展望。
其他文献
运用有限时域差分方法,研究了两椭圆柱银纳米线之间的光力及其物理机制,并且分析了椭圆柱银纳米线的尺寸以及相对位置对光力的影响.结果表明:椭圆柱银纳米线的尺寸以及相对位
针对QM(1,1)模型预测条件的局限性,提出一种新的公路客运量预测模型——残差修正DOM模型,并利用该模型和QM(1,1)模型对1999年全国公路客运量进行预测,结果表明所建模型较之QM(1,1)模型有
设计了一种以半导体材料InGaAsP作为核心结构的器件表面蒸镀二氧化硅膜层,在其上蒸镀金膜层,构成金属电介质半导体微盘激光器结构,盘面的厚度为2μm,盘面半径为6 μm ,盘壁侧
上海虹桥国际机场扩建工程西航站楼的建设分两期实施,均涉及到航空旅客在航站楼内部的交通出行问题,是否建设旅客捷运系统是一个规划控制因素以及服务水平的关键。建设航站楼
分析了阳泉市的暴雨洪水特征及其危害性,从阳泉市防洪排涝现状出发,提出了要树立“给洪水以出路”的理念及实现人与洪水和谐共处的观念。
初中是学生加强知识储备,掌握学习方法的黄金时期,为有效提高初中阶段学生的英语知识学习水平,老师在实际的课堂教学过程中,要注重将英语学科的核心素养与实际的英语阅读课教学进
给学生布置一定量的体育课外作业,作为课堂教学的延伸,能帮助学生提高已掌握的运动技术和技能,并养成终身体育的意识和习惯。本文就如何提高体育课课外作业有效性提出一定的
水资源条件是影响经济空间和经济区位的重要因素,经济空间概念涉及居住形态和经济发展的区位问题,区位理论是关于人类经济活动的空间分布及空间相互关系的学说,对全国范围的水路
在两气东输工程的建设中,我国首次采用大口径1016mm、高强度X70管线钢管铺设,在整个工程上用于改变管道走向的弯管有4000多个.这也是国内企业首次采用热煨工艺生产X70弯管,相
随着计算机与网络在各行各业的广泛应用,收集管理数据变得越来越容易,数据的规模也在成倍的增长。在分析决策、人工智能等领域,这些规模庞大的数据发挥着日益重要的作用。机