癌症基因数据的降维算法研究与应用

来源 :苏州大学 | 被引量 : 0次 | 上传用户:yan19891989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症仍然是最困扰人类的疾病之一。得益于基因芯片技术的迅猛发展,研究人员获得了海量的癌症基因表达数据。利用基因表达数据来分析诊断病症,已成为后基因组时代的热点之一。基因表达数据的分类是针对具体功能基因表达的分析,其准确分类有助于提高疾病诊断的效率。但是,基因表达数据普遍具有样本数量少、单个样本维数极高、数据非线性等特征。针对基因表达数据的基本特征,本文采用支持向量机(Support Vector Machine,SVM)对基因表达样本进行分类。SVM是一种基于统计学学习理论的机器学习理论,可应用于变量数目远大于样本数目的数据。不同于经验风险最小化原则,它采用结构化风险最小化的原则,寻求泛化能力好的决策函数,有效避免了局部最优解。在有限的训练样本下,运用SVM得到的决策规则对独立的测试集分类能够得到较好的效果。虽然SVM的样本训练策略很好的避免了局部最优,但是,样本数过少的现实对决策规则的训练有着无法避免的影响。为了得到更加精确的训练结果,本文考虑使用数据降维算法,对基因表达数据进行降维处理,利用较低维度的数据进行训练,已取得更好的分类准确率。文中使用到的降维算法有主成分分析算法(Principle ComponentAnalysis), PCA多维度标度算法(Multi-Dimensional Scaling, MDS),拉普拉斯特征值映射算法(Laplacian Eigenmaps)等。本文侧重基于SVM分类方法的数据降维算法对数据分类优化的研究。采用常用的Lung和DLBCL数据进行试验分析。实验结果表明,数据降维算法结合SVM分类方法,对数据分类准确率有显著的优化作用。相比较传统分析方法,基于SVM分类的数据降维算法的应用,使高维数据的分析有了新的突破。
其他文献
近年来,随着导弹、卫星、航空、航天技术的快速发展,姿态测试技术已成为飞行载体导航的核心技术。准确的获取姿态信息可为新型武器的研发、机动性、精确打击能力等提供决策性依
作为一种新型储氢体系,铝氢类配位氢化物储氢材料由于其高的质量储氢密度和体积储氢密度吸引了人们广泛的研究兴趣。动力学性能差及可逆条件苛刻是限制该类储氢材料广泛应用的
作为电子测量基本仪器的一种,频谱分析仪在国防电子、无线监测、RFID以及民用通信测量领域有着广泛的应用。近年来,随着射频技术的高速发展,传统的频谱分析仪的局限性愈加明显,实时频谱分析仪应运而生。得益于强大的数据处理能力和多样化的图形显示功能,实时频谱分析仪可以应对诸多随时间变化的射频信号测量的挑战。论文在实时频谱分析系统的架构基础上,面向现代宽带通信信号的测试提出了软件实现多种调制信号的高精度解调
束流负载等效电路理论由于其简洁性和准确性而成为了目前束流负载效应分析的主流理论。为保持束流功率的一致性,本章在束流负载等效电路理论中引入了考虑渡越时间效应的束流等
旋转部件作为实施动力传动的关键部件,在整个动力机械传动系统中具有重要作用。对旋转部件的转速、扭矩等动态参数进行测量,进而对动力系统输出能量在各传动环节的分配以及功率