基因表达分析中双聚类算法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:camisado
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的发展,大规模基因表达数据的积累速度越来越快。如何借助数学方法从海量的表达数据中挖掘有效信息成为了一个极大的挑战。表达数据中一个至关重要的信息就是基因表达的相关关系。它可以帮助我们实现对未知基因的功能注释,理解基因间的调控关系,从而更好地了解复杂疾病的机制。这对发现癌症亚型、预测致病基因、药物筛选等有着极为重要的意义。但是不同于一般的数据,基因表达数据中参与同一调控机制的基因只会在某些特定的条件(比如属于同一组织的细胞)下具有相关的表达量,而在其他条件下不具有相关性。也就是说只有部分基因在部分条件下是相关的。传统聚类分析方法无法有效的识别基因的这种局部相关性。作为对传统聚类方法的改进,双聚类方法被广泛应用于识别表达数据中的这种基因的局部相关性。但是由于双聚类问题本身至少是NP-难的,目前的算法都有着各自的局限性。无论是算法可以识别的双聚类种类还是算法的准确度都不甚理想。本研究基于基因表达数据分析的双聚类问题,以应对复杂的双聚类类型、提高识别双聚类的准确率、优化算法的时间复杂度为主要目标,提出了两种全新的双聚类算法,解决了目前的双聚类算法所存在的只能识别部分类型的双聚类、得到的双聚类质量差、算法时间复杂度高等问题。本文的主要工作如下:第一,提出了全新的基于列的种子扩充策略的双聚类算法RecBic。该方法通过识别定义最一般的趋势一致的双聚类,实现了识别多种类型的双聚类的目标,得到了更有生物意义的双聚类;通过全新的种子选取策略,保证了该算法具有较高的准确率;同时该方法针对一般的基因表达数据具有行数远大于列数的特点,以列为种子,从而保证了算法对行只有线性时间的复杂度,极大的缩小了算法的运行时间。我们分别在模拟数据和真实数据上测试了 RecBic和其他八种双聚类算法。RecBic在不同类型的模拟数据集上的准确率均明显优于其他算法。而且根据在来自不同物种不同组织的八组表达数据上的测试结果,RecBic的平均双聚类富集率比排名第二的算法高出了 12%左右。第二,我们开发了全新的基于图优化的算法BicGO。该算法对表达矩阵定义了一个全新的有向无环图模型,将表达数据中寻找趋势一致双聚类的过程转换为在一系列有向无环图中寻找最长路的过程。这个全新的模型比UniBic的最长公共子序列模型更为契合趋势一致双聚类的定义,完美的解决了我们之前开发的UniBic无法很好的找到趋势一致的双聚类的问题。BicGO采用了以行为种子的策略,在列的复杂度上比RecBic低,因此更适用于表达数据中列维度高的情形。针对于当前双聚类算法得到的共表达基因假阳率过高的问题,我们在BicGO中加入了一个全新的目标函数。我们在模拟数据和真实数据上比较了 BicGO与其他七种主流算法,BicGO在模拟数据上明显优于其他的算法。且在五组不同物种的表达数据上的比较表明BicGO得到了比其他算法高29%的F1得分(F1得分为基因富集率和双聚类富集率的调和平均值)。尽管这两个算法的结合在表达数据上表现很好,但是它们仍然存在着一些不足。一方面是随着单细胞测序的发展,已经出现了几万行几十万列的基因表达数据。我们以及众多的双聚类算法都无法应对如此大规模的基因表达数据。另一方面单细胞表达数据中,有着非常多的缺省值,我们的双聚类算法在应对缺省值多的数据时,也没有很好的解决方案。如何将双聚类算法有效的应用到单细胞数据集上,有待后续的工作去解决这个问题。RecBic为开源软件,由C++实现,下载地址为:https://github.com/holyzews/RecBic/tree/master/RecBic/BicGO将在论文发表后开源,目前可以在Github上联系RecBic作者获得。
其他文献
研究背景随着全球人口老龄化,骨质疏松性椎体压缩骨折(Osteoporotic vertebral compression fracture,OVCF)患病率不断上升,2015年我国50岁以上人群中,新发OVCF患者约为127万例,预计到2050年,将高达300万例。OVCF有多种负面影响,如脊柱后凸、背痛、活动量减少和死亡率增加,已成为影响我国老年人群的三大疾病之一。目前对OVCF的诊断主要依据临
研究背景心血管疾病是人类死亡的主要原因,各种危险因素导致的血管重构和动脉粥样硬化是常见的病理基础。临床和病理研究表明,动脉粥样硬化病变主要发生在血管分叉、弯曲以及狭窄区域,高血压可引起血管壁细胞增殖、血管壁增厚,介入治疗术后异常血流可引起血管增生和再狭窄。这些因素提示血管力学因素是血管重塑和动脉粥样硬化形成的重要诱因。血管重塑主要表现为血管平滑肌细胞(VSMCs)的异常增殖、凋亡和迁移。血管内皮细
很多家实验观测到宇宙线全粒子谱能谱在几个PeV处有“膝”的结构,原初宇宙射线全粒子能谱膝区的物理特征对于研究宇宙线的起源、加速和传播机制非常重要。高能宇宙射线的质量组分是解释宇宙中这些高能粒子的起源、加速和传播机制的关键之一。我国科学家提出的高海拔宇宙线观测站(LHAASO)项目,目标是探索高能宇宙线起源、开展北天区伽马源扫描搜索等,膝区宇宙线成分测量是该项目的重要研究内容。LHAASO建设在中国
有机半导体包括有机小分子和高分子,因其质轻、柔性、制备简单等优势,在传感器、激光器、光开关和太阳能电池等方面具有广泛的应用。与无机半导体不同,有机半导体具有较强的电子-晶格相互作用,这导致掺杂的电子和空穴能够使晶格畸变,从而形成自陷的元激发,如孤子、极化子和双极化子。另外,通过光或者电激发形成的中性激发态,如激子和双激子,除了存在电子和空穴之间的库仑相互作用外也会受到局域晶格势场的束缚。这些独特之
本论文主要研究R2n中P对称紧凸超曲面上的闭特征问题,P为辛矩阵且满足P-I2n可逆以及存在正整数m>1使得Pm=I2n。本文包含三个方面:闭特征多重性问题,稳定性问题以及共振恒等式(即闭特征之间的关系)。对于多重性问题,本文主要应用M aslov-型指标迭代理论以及M aslov指标理论证明了如果P满足Pm=I2n且辛相似于R(-θ)◇n-[n/2]◇R(θ)◇[n/2],则任意的P对称紧凸超曲
随着大数据时代的快速发展,各式各样的数据不断产生,数据成为了重要的战略资源。如何高效而精确地处理这些规模庞大、种类繁杂并且快速增长的数据是各个行业在激烈的竞争中抢占先机的关键因素。但是,很多经济实力薄弱的用户无力承担购买和维护数据处理设备的高额成本,因此,这些用户会因不具备处理复杂数据的计算能力而失去竞争优势。此外,在物联网、车联网以及可穿戴医疗设备等新兴技术中,终端设备为了做出精确的响应,需要对
随机图理论起源于Erdos和Renyi在1959-1968年间发表的一系列论文。该理论经过几十年的发展目前已成为一个独立且发展迅猛的离散数学分支,位于图论、组合论和概率论的交汇处,在理论计算机科学、自然科学和社会科学中有着广泛的应用。随机扰动(超)图是近年来引入的一种图模型,其目的在于研究少量随机(超)边扰动的情况下对于图性质的影响。在第二章和第三章,我们研究了哈密尔顿圈的幂、完美匹配以及因子在该
众所周知,博弈论是对多个主体制定策略的研究。从控制论的角度来说,我们可以把它看作是一个高维最优控制问题。博弈问题中的数学模型有很多种,例如,按参与者之间的关系来划分,可以是合作关系,也可以是冲突(非合作)关系,它在金融市场、管理科学、计算机科学、物理、化学等领域有着广泛的应用。最早的研究是关于零和博弈的,即所有参与者的总利润是等于他们的总损失的。这是非合作博弈的一个特例,现在我们把纳什均衡策略称为
水汽虽然占总的中性大气含量不足4%,但它却是地球中性大气的重要组成部分。一方面,它是大气能量传递的基础,水在低纬度地区被蒸发吸收热量,水汽被输送到高纬度地区凝结,释放出大量的热量。另一方面,水汽也是地球上最重要的温室气体之一,对全球气候变化有着重要影响。此外,水汽在大气水文循环中也起着关键作用,在风的作用下,水汽围绕地球移动,为云层和降水的形成提供水源。因此,了解水汽的变化对于气候特征和气象监测研
发达国家50岁以上人群里,每年患有不同类型骨骼疾病的人数逐步增多,社会人口逐渐呈现老龄化的趋势,因各种原因造成的关节损伤人数也在不断增加,人工植入体的需求日益增多。近等原子比的NiTi合金因其优异的形状记忆效应和超弹性、良好的机械性能、较好的耐腐蚀性和生物相容性,在医疗植入领域得以广泛应用。本文以Ni50.8at%Ti形状记忆合金为研究对象,提出铣削-电化学抛光加工工艺,揭示铣削加工表面完整性的影