论文部分内容阅读
高通量生物测序技术的迭代革新和广泛使用为基因组学和分子生物学研究带来了革命性变化,产生了海量高通量基因表达数据。借助高性能计算,科研人员得以挖掘大规模基因表达数据中蕴含的生物学意义,并结合相似病例信息确定目标患者的疾病状态和发展阶段,加快对患者精准医疗方案的制定。但高通量基因数据维度高,不仅增加了问题分析的计算开销,而且特征间存在相互调控关系并包含大量冗余特征,易对问题研究造成干扰。考虑到基因分析中的可解释性,如何选择合适的特征选择降维方法对相关疾病的高通量基因数据进行维数简约并进一步分析用以辅助快速诊断就成为一项具有研究意义的课题。为了更好地分析患者的高通量基因表达数据中与疾病相关的有效信息,我们提出了特征选择方法与相关降维技术结合的组合降维方法,并在4个高通量基因公开数据集上进行了实验探究,比较了若干组合降维方法下数据分类F1分数和计算耗时。实验证明,不同数据集上各个组合方法性能表现不尽相同,基于随机森林特征重要性的特征选择与主成分分析法的组合降维方法较其它方法性能表现更稳定,具有一定普适性。此后,我们采用不同相似度测度的层次聚类和K均值聚类算法对低维高通量基因数据进行分析,并引入批量处理的思想对K均值聚类算法进行改进。此外,通过比较我们采用轮廓系数法作为数据样本类别未知情况下最佳k值选择的方法。实验证明,以欧几里得距离为相似性测度的层次聚类算法具有最佳聚类性能;相较于传统K均值聚类算法,基于批量处理的K均值聚类算法尽管存在一定程度的聚类性能的牺牲,但却可以大幅提升算法运行时间。最后,本课题提出了基于高通量基因数据的可视化在线辅助诊断工具,对聚类结果进行不同形式的可视化展示,结合多种交互手段,协助医疗人员以不同视角寻找与目标患者的相似病例并筛选相关临床信息进行综合分析,更高效地进行精准化医疗方案的制定。