肿瘤基因表达谱维数约减与聚类集成

来源 :福州大学 | 被引量 : 1次 | 上传用户:sz_yaoli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,肿瘤以近乎疯狂的速度侵蚀着人类的健康,与此同时基因芯片技术的不断完善推动着肿瘤基因表达谱数据呈爆炸式增长。虽然肿瘤基因表达谱数据为研究人员以新的角度探索肿瘤的奥秘提供了契机,但是这些数据普遍具有维数高、样本少、噪声高、类分布不平衡的问题,给研究工作的顺利开展带来巨大的挑战。如何有效地处理与研究此类数据已引起大量学者的兴趣。研究有效的算法选取核心的致病基因或者隐含变量进行维数约减以及研究稳定可信的聚类算法发现新的肿瘤亚型是当前肿瘤基因表达谱的两个研究重点。本文正是针对这两个方面进行研究,完成工作如下:1、本文首次将近邻成分分析法NCA应用于肿瘤基因表达谱中的分类问题。同时,针对近邻成分分析法NCA初始矩阵设置的随机性和盲目性,提出利用样本矩阵SVD分解得到的右奇异矩阵的标准化形式作为NCA算法的初始值,使得初始矩阵包含尽可能多的信息。实验结果表明,改进后的NCA算法INCA可以有效地提取分类信息,提高肿瘤分类识别率。2、针对肿瘤基因表达谱维数较高的特点,提出一种结合fisher特征选择和Pearson相关系数的特征基因选择新方法。传统fisher算法所定义的fisher指标在量化基因重要度时没有考虑不同类样本之间方差的差异,导致均值相同但方差不同的基因由于fisher指标为0而被错误地去除。本文提出的改进算法Vfisher引入新的基因重要度指标Vfisher,一定程度上弥补了这一缺陷。此外,在不影响分类准确率的情况下,利用Pearson相关系数法去除Vfisher值较小的冗余基因,可以进一步压缩数据。3、由于基因表达谱数据高维小样本的特性,使得许多常见的聚类算法用于基因谱数据都难以取得较好的聚类效果。聚类集成可在一定程度上克服单一聚类准确率低、稳定性差的不足。传统聚类集成算法侧重于对共识函数和聚类成员的研究,而忽视簇标记统一基准的选择。本文提出MSA聚类集成算法引入Silhouette指标并以Silhouette指标值最大的聚类成员作为统一的基准。在与现有的多种聚类集成算法比较时,MSA算法均具有一定的优越性。
其他文献
纯红细胞再生障碍性贫血(PRCA)是骨髓红系细胞造血衰竭所导致的一类贫血,T淋巴细胞介导的自身免疫破坏机制被认为是PRCA的主要机制之一。T细胞型大颗粒淋巴细胞白血病(T-LGLL)常
2017年11月2日至3日,由俄罗斯联邦共产党主办的第十九次共产党和工人党国际会议在俄罗斯圣彼得堡市召开。这次会议的主题是:“伟大的十月社会主义革命100周年:共产主义运动的
目的:探讨靶向干扰高尔基体蛋白73 (Golgi glycoprotein 73, GP73)基因对肝癌细胞系SMMC-7721和Bel-7404侵袭、转移能力的影响及对EMT及通路相关分子的影响。方法:用脂质体介导
利用高兴、生气、难过、害怕四种基本情绪语料,对104名视障学生的语调情绪识别能力进行测试。结果发现,视障学生对四种基本语调情绪的识别存在显著差异,由高到低依次为:高兴>
目的探讨奥沙利铂(L-OHP)体外对人结肠癌细胞SW480和SW620增殖和凋亡的影响及其可能机制。方法1.MTT比色法检测用不同质量浓度(2、4、8、16、32和64μg/m L)L-OHP与SW480和SW
在竞争激烈的全媒体时代,播音节目要想达到吸引受众的目的,需要播音员具备高超的播音主持艺术。从播音的艺术个性以及基本素质出发分析了齐越播音的艺术魅力,从播音员定位、
随着我国社会主义市场经济的不断发展 ,加快完善社会保障体系 ,建立健全社会保障制度已成为人们日益关注的重大社会问题 ,建立并推广适合我国国情的养老金会计 ,是需要认真研
为了提高建筑黏滞耗能支撑结构加固的稳定性,提出一种基于数值分析的建筑黏滞耗能支撑结构加固方法。构建建筑黏滞耗能支撑结构的力学分布结构模型,在等效加固区采用Hoek-Bro
档案信息控制权是指档案形成者和档案管理部门对档案信息拥有支配的权力。具体说,档案形成者对档案拥有信息所有权,并保护其知识产权不受损害的权力。档案馆对档案拥有实体
目的:探讨1.5T磁共振表观扩散系数(ADC值)在早期监测肺腺癌患者靶向治疗疗效中的临床应用价值。材料和方法:收集经我院病理证实的并接受分子靶向治疗的中晚期肺腺癌患者32例,分