论文部分内容阅读
本论文探讨了基因芯片数据分析目的和困难、分析了数据处理的步骤、从理论和应用上对多种常用算法进行了比较,并在以往研究的基础上给出了方法和理论上的创新。
第一章首先介绍了课题研究的背景知识;第二章介绍和分析了基因芯片数据的生成、处理、理解等步骤的过程、需要解决的问题,以及面临的困难,并对表达谱数据的高维、高噪声、非线性以及维数的差异进行了分析;第三章详细介绍了聚类算法的基本原理,与表达谱数据分析的关系,以及常用算法在表达谱数据分析上的应用与研究。
第四章中,为了解决大多数算法都需要人为给出一些先验参数的问题,本文提出了一种迭代的、可适应的聚类算法:首先用主集方法对原有基因进行重新排序,使高度相似的基因排列在特定区域,然后按照某种规则从排序后的数据集中划分出一个类。文中从多个方面分析了该算法的性能,理论分析和实验结果都表明该算法是实用的、有效的并且有很好的抗噪性能。
为了解决表达谱数据的维数差异给后续分析带来的困难,本文第五章研究了表达谱数据的降维问题。与使用常规的线性降维方法对基因表达谱进行降维不同,针对处理高维非线性基因芯片数据的困难,本文引入了一种新的非线性降维方法LTSA。本文从算法原理的角度讨论了该方法在芯片数据处理中的适用性,并给出了该方法的误差判定标准,实验结果表明经LTSA降维后得到的低维投影可视化效果好、分类准确性高,且在目标维数判断上优于常用的PCA算法。
本文的主要创新点在于:针对基因芯片数据聚类常用算法的缺点,提出了一种可适应的表达谱聚类的实用算法;提出了使用非线性降维方法进行表达谱降维分析,提高了表达谱可视化的能力,显示了非线性降维技术在生物数据分析中应用的前景。