基于高通量基因数据的可视化在线诊断工具

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:iezhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量生物测序技术的迭代革新和广泛使用为基因组学和分子生物学研究带来了革命性变化,产生了海量高通量基因表达数据。借助高性能计算,科研人员得以挖掘大规模基因表达数据中蕴含的生物学意义,并结合相似病例信息确定目标患者的疾病状态和发展阶段,加快对患者精准医疗方案的制定。但高通量基因数据维度高,不仅增加了问题分析的计算开销,而且特征间存在相互调控关系并包含大量冗余特征,易对问题研究造成干扰。考虑到基因分析中的可解释性,如何选择合适的特征选择降维方法对相关疾病的高通量基因数据进行维数简约并进一步分析用以辅助快速诊断就成为一项具有研究意义的课题。为了更好地分析患者的高通量基因表达数据中与疾病相关的有效信息,我们提出了特征选择方法与相关降维技术结合的组合降维方法,并在4个高通量基因公开数据集上进行了实验探究,比较了若干组合降维方法下数据分类F1分数和计算耗时。实验证明,不同数据集上各个组合方法性能表现不尽相同,基于随机森林特征重要性的特征选择与主成分分析法的组合降维方法较其它方法性能表现更稳定,具有一定普适性。此后,我们采用不同相似度测度的层次聚类和K均值聚类算法对低维高通量基因数据进行分析,并引入批量处理的思想对K均值聚类算法进行改进。此外,通过比较我们采用轮廓系数法作为数据样本类别未知情况下最佳k值选择的方法。实验证明,以欧几里得距离为相似性测度的层次聚类算法具有最佳聚类性能;相较于传统K均值聚类算法,基于批量处理的K均值聚类算法尽管存在一定程度的聚类性能的牺牲,但却可以大幅提升算法运行时间。最后,本课题提出了基于高通量基因数据的可视化在线辅助诊断工具,对聚类结果进行不同形式的可视化展示,结合多种交互手段,协助医疗人员以不同视角寻找与目标患者的相似病例并筛选相关临床信息进行综合分析,更高效地进行精准化医疗方案的制定。
其他文献
目的研究分析Ces5a基因在大鼠睾丸发育过程中的表达情况,探究该基因在精子发生过程中可能起的作用,为男性不育相关疾病的研究提供一定的理论基础,为今后对该基因的研究提供相应的数据支持。方法(1)取出生后2-65日龄,共21个时间点的雄性Wistar大鼠,每个时间点分别取四只不同窝别的大鼠,睾丸组织提取总mRNA和总蛋白;(2)将总mRNA反转录成cDNA,采用Real-time PCR方法检测不同时
随着中国大陆市场的迅猛发展,跨国公司塔海尔集团(Tuthill Corp.)决定将东北亚地区总部从香港转移到上海,2003年10月塔海尔集团上海代表处在上海正式成立,代表塔海尔集团下属
写作是英语学习中的一项基本技能,是英语学习者综合语言运用能力的一个具体体现,是整个英语教学环节的重要组成部分。英语写作作为英语教学中强调的一个核心技能,由于受种种
<正> 海带 含丰富的牛黄酸,可降低血压及胆汁中的胆固醇;含食物纤维褐藻酸,也可以抑制胆固醇的吸收,促进排泄。 玉米 含丰富的钙、磷、硒和卵磷脂、维生素E等,均具有降低血清
介绍宽V带无级变速传动机的基本原理,其关键构件无级变速传动胶带的有关技术要求及机构的设计要点,并介绍宽带无级变速器的情况.
“诗苑译林”丛书的序跋信息量大,可作为诸多研究的第一手文献资料,不仅流露出中国知识分子在1980年代这一特殊历史时期对精神养料的渴望,也反映出西方文艺思想、文学作品的
张家港市的合作医疗创办于1969年.合作医疗作为当时一种“新生事物”.在短短半年时间里.全县铺开,管理形式属“村办村管”。
本文通过对西王集团多元化发展历程的分析研究,概括其发展的成功经验及存在的不足,提出改进策略和优化方案,进而对国内即将或正在实施多元化发展战略的企业提供有益建议。论
九叶诗派是二十世纪中国诗坛的一个重要流派。他们举起现代主义的大旗,高呼诗歌的智性化、戏剧化,利用象征的手法和玄学的技巧将内心最隐秘的声音用客观对应物表现出来。他们的诗歌文体自由,具有很强的哲理性,在不失幽默的表达下写尽了战乱中的凄凉景象。他们重视诗歌的理论建设,注重从西方诗艺中吸取养分。他们的诗歌视野广阔,内容丰富。其中既有对人民疾苦的悲悯抒写,也有对城市生活的深度思考。在他们智性的诗句中处处体现
新疆某矿井外排水工程将上游矿井废水经处理后的中水通过管道运至末端中水库,从而为下游村镇提供绿化用水。根据末端中水库坝址区地形、地质条件,从工程施工、工程运行管理、