基于数据挖掘聚类算法的基因芯片数据分析

来源 :复旦大学 | 被引量 : 0次 | 上传用户:rilson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文探讨了基因芯片数据分析目的和困难、分析了数据处理的步骤、从理论和应用上对多种常用算法进行了比较,并在以往研究的基础上给出了方法和理论上的创新。   第一章首先介绍了课题研究的背景知识;第二章介绍和分析了基因芯片数据的生成、处理、理解等步骤的过程、需要解决的问题,以及面临的困难,并对表达谱数据的高维、高噪声、非线性以及维数的差异进行了分析;第三章详细介绍了聚类算法的基本原理,与表达谱数据分析的关系,以及常用算法在表达谱数据分析上的应用与研究。   第四章中,为了解决大多数算法都需要人为给出一些先验参数的问题,本文提出了一种迭代的、可适应的聚类算法:首先用主集方法对原有基因进行重新排序,使高度相似的基因排列在特定区域,然后按照某种规则从排序后的数据集中划分出一个类。文中从多个方面分析了该算法的性能,理论分析和实验结果都表明该算法是实用的、有效的并且有很好的抗噪性能。   为了解决表达谱数据的维数差异给后续分析带来的困难,本文第五章研究了表达谱数据的降维问题。与使用常规的线性降维方法对基因表达谱进行降维不同,针对处理高维非线性基因芯片数据的困难,本文引入了一种新的非线性降维方法LTSA。本文从算法原理的角度讨论了该方法在芯片数据处理中的适用性,并给出了该方法的误差判定标准,实验结果表明经LTSA降维后得到的低维投影可视化效果好、分类准确性高,且在目标维数判断上优于常用的PCA算法。   本文的主要创新点在于:针对基因芯片数据聚类常用算法的缺点,提出了一种可适应的表达谱聚类的实用算法;提出了使用非线性降维方法进行表达谱降维分析,提高了表达谱可视化的能力,显示了非线性降维技术在生物数据分析中应用的前景。
其他文献
XML(eXtensible Markup Language)是继HTML之后发展起来的一个重要的Internet技术。已经成为Internet上数据表示和交换的新标准。随着Web应用的迅猛发展,XML数据量与日俱增。
人工神经网络(ArtificialNeuralNetworks,ANN)是一个高复杂度的非线性系统,虽然从形式上模拟了人脑的学习结构,但由于所依赖的生物学理论基础尚不完善,因此人工神经网络不仅功能
随着并发程序日益广泛的使用,并发程序的调试也变得越发的重要。传统的循环调试技术主要是设置断点,多次执行源程序,逐步定位错误位置。因为顺序程序的执行结果主要取决于程
视频压缩是多媒体通信中的核心技术,它不但关系到通信带宽,也关系到通信过程中的图像质量。随着多媒体技术在Internet网络上的广泛应用,视频压缩技术越加显得重要。对视频压缩技
本文详细首先讨论了NAT-PT技术中的地址转换技术和协议转换技术。为了节省IPv4地址资源的采用了NAPT技术,协议转换根据SIIT中定义的IPv4/IPv6报头翻译和ICMP4/ICMP6的转换
随着人们对网络带宽的要求和以太网技术的发展,以太网技术越来越多的被应用于宽带驻地网的建设。这对以介质共享为基础的以太网技术,在可运营和可管理方面提出了新的要求,对
视频中所含的文字为描述和指示视频内容提供了十分丰富的信息。在一些情况下这些信息在多媒体载体中是独一无二的。视频文字信息抽取能够应用于基于高层语义的视频检索和浏览
计算机硬件的处理能力的不断增强以及网络带宽逐年的扩容,使人们在网络上在线收看视频甚至是高清视频成为现实。网络视频开始逐渐取代了传统电视的地位,成为人们观看视频的第一
本文针对网格虚拟组织中GIS网格服务应用集成中的服务查找发现问题,结合语义网技术,提出了一个基于语义推理的GIS网格服务元数据发布模型和服务匹配机制。主要的创新点有以
  本文对高可用技术的理论基础和关键问题进行了较为详细的阐述,提出了切实可行的高可用性集群模型和实现方案,并对数据复制技术的引入和插件编程机制的应用进行了重点介绍,介