基于多组学数据的聚类方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zhoujiayan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人类基因组计划业已完成的当下,随着测定技术不断发展而产生的海量多组学数据为我们认识生命提供了崭新的视角。利用多组学数据进行整合分析,既是为了增加对同一研究问题的证据来源,更是因为单一组学难以准确描述精细复杂的生命活动。聚类是数据挖掘的主要技术之一,利用多组学数据进行聚类分析,在疾病分型、精准医疗、药物研究等方面具有非常重要的现实意义。物以类聚,样本之间的相似度对于聚类算法的性能表现至关重要。本文从多组学下相似度的度量与融合这两个不同的角度入手,研究基于多组学数据的聚类算法。主要工作如下:第一,提出了基于度量学习的多组学聚类方法MMEC。首先通过在多组学数据上进行集成聚类,获取可信度较高的初步聚类结果。然后基于此结果在各组学上分别进行距离度量学习,优化样本间的距离关系表示。最后,利用优化后的距离表示,对多组学数据再次进行集成聚类,以得到最终结果。第二,提出了基于证据理论的相似度信念融合的聚类方法SBF。首先将从不同组学数据中获取的相似度,转化为对相似关系的信念程度,再利用证据理论将这些来自不同数据来源的信念加以融合,得到综合考虑多组学信息的相似度矩阵。最后应用谱聚类算法得到最终聚类结果。在公共数据集上的实验结果表明,所提出的两种方法较之现有方法能够取得更具临床显著性的聚类结果。对癌症案例的分析表明,使用两种方法进行聚类划分的不同亚型人群之间临床指标区分明显。本文所提出的两种方法分别着眼于相似度的度量与融合,体现为多组学数据分析的后期整合与中期整合。MMEC方法相比于现有方法能够取得更优的结果,而SBF方法在多种癌症上均表现良好,并且计算复杂度远低于MMEC。实验结果表明了基于多组学数据的聚类算法的有效性。
其他文献
20世纪30年代以来,日本发动侵华战争,中国大片国土沦丧,中华民族危机不断加深。在“救亡图存”的时代主题影响下,西北地区逐渐受到国人的重视,“开发西北”成为新浪潮。安汉就是在这种浪潮中开启了他的西北考察之路。从民国二十年(1931)夏至民国二十七年(1938)秋,他多次深入西北大陆,足迹遍及陕、甘、宁、青等省,实地考察了西北地区的农、林、牧、副等业,搜集了大量详实的统计数据。在此基础上安汉认识到开
三维场景重建问题旨在通过设备或者学习的方式从二维图像中恢复三维场景结构。该问题目前也是计算机视觉的一个热点研究问题;同时,三维重建技术在环境感知、机器人导航、场景
长期以来,对于汉高帝刘邦即位之初迟迟未大封功臣为列侯,以致于诸将相聚私语,几致谋反的意外情况,我们大多或认为如同留侯张良所说的一样,这是刘邦气量狭小,借机诛杀与之有嫌
最近几年,我国频繁出现大范围大雾天气,已经严重影响人们日常生活与工作。雾天会导致目标图像中的对比度降低,饱和度下降以及颜色退化,从而造成图像识别系统识别效果下降,如
【研究背景】原发性开角型青光眼(primary open-angle glaucoma,POAG)是临床常见的青光眼类型之一。房角小梁网细胞(trabecular meshwork cells,TMCs)功能及组织结构变化所导致的
单晶硅片、K9光学玻璃等电子信息材料被广泛的应用于电子工业、智能装备的控制系统等领域中,这些材料的表面质量在很大的程度上影响了半导体等核心部件的稳定性、使用寿命、
汉赋是赋体文学最具代表性的一种文学样式。论文从辞义关系的角度来展开对于汉赋的研究,以揭示辞义关系对汉赋的作用和影响,进而分析赋体文学的本质特征与盛衰原因。全文分为
自改革开放以后,我国经济发展一直以高能耗、高污染的模式为主,以致土地资源的供需矛盾日益突出。在城镇化进程中,在“保经济发展”和“保耕地红线”的对立中,当前我国违法用
面对以发展学生核心素养为教育价值取向的时代背景下,《普通高中生物学课程标准(2017年版)》指出课程的实施追求“少而精”的原则,内容聚焦大概念,精简容量,突出重点,发展学
随着近期移动端数码产品的快速发展,不仅是用于工业科研的设备,目前许多消费者级别的移动端设备都具有了较强的计算处理能力,可以快速处理些简单的三维扫描数据。硬件的设备