微生物水平基因转移预测与生物序列聚类研究

来源 :福建师范大学 | 被引量 : 0次 | 上传用户:szw_jlcc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着测序技术的发展,产生的序列数据量越来越多,如何从海量生物数据中挖掘有利信息,是生物学研究面临的一个挑战。用低维、核心特征来表示序列,有利于提高计算效率,是解决上述问题的一种有效手段。本文研究了生物序列的特征提取和特征选择技术,将它们应用于微生物水平基因转移预测和生物序列聚类领域中,主要围绕以下3个方面开展工作:1.针对其他水平基因转移预测方法计算准确度不高的问题,提出了一种基于降噪自编码器、集成多组预测结果的DAE-HGT模型。该模型首先分别应用PCA算法、降噪自编码器以及结合PCA算法和降噪自编码器这三种方法提取序列特征,然后根据提取的特征进行水平基因转移的预测,最后集成三个分类器的预测结果判别是否发生了水平基因转移。实验结果表明,与当前业界常用的四个模型——曼哈顿距离、欧式距离、d2距离和基于背景自适应的d2*(4,1)距离相比,DAE-HGT模型预测精度最高,计算时间最短,验证了DAE-HGT模型的有效性。2.提出一种基于二部图的序列特征选择模型——Kmer Rank。该模型将序列和特征kmer作为图中两种类型的节点,将序列中kmer的频度作为边权重,构建两类节点之间的二部图关系,计算了kmer节点权重。权重越大,代表kmer特征越重要。针对原始算法计算效率低的问题,开展优化工作,通过根据频度大小将kmer特征排序之后再计算权重,将时间复杂度从O(M*N2)降至O(M*N*log N),提高了计算效率。3.在Kmer Rank模型的基础上,本文提出一种新的生物序列聚类算法,验证了Kmer Rank模型在序列特征选择上的有效性。首先,应用Kmer Rank算法计算kmer权重,筛选权重大的kmer作为重要特征。然后,计算重要kmer的相关性,过滤冗余特征,得到候选特征集。最后,应用Kmeans算法进行序列聚类。与现有方法相比,本文提出的基于Kmer Rank的聚类模型有效地提取了序列特征,对聚类准确度和计算效率的提高都有较大贡献。在微生物水平基因转移预测研究中,提出三种特征提取方法,减少计算时间,提高预测精度,验证了提取的特征对于水平基因转移预测是有效的。在生物序列聚类的研究中,根据Kmer Rank权重计算模型筛选重要特征,在保证聚类准确度的同时提高了计算效率,是一种有效的特征选择方法。
其他文献
三角褐指藻(Phaeodactylum tricornutum)是一种无异味、易于培养、繁殖快且二十碳五烯酸(EPA)含量丰富的海洋微藻,而EPA在增强人体免疫力、降低血脂、血压等方面有着显著的作用,因此以高产EPA的三角褐指藻作为工业藻株是未来工业发展的新趋势。本研究希望通过分子生物学的方法及常压室温等离子体诱变(ARTP)的方式筛选出高产EPA的三角褐指藻藻株,为工业化提取EPA提供科学依据和
丝状真菌降解植物细胞壁的分子机制是木质纤维素降解和植物病害防治领域的重要科学问题。丝状真菌中,纤维素酶基因的表达受葡萄糖、蔗糖等简单碳源的阻遏,受纤维素诱导,这一过程主要在转录水平进行调控。植物细胞壁降解酶基因的关键转录调控因子xyr1和clr-2几乎存在于所有腐生丝状真菌中,研究发现,xyr1和clr-2的同源基因在不同的物种中有着不同的调控方式。转录因子xyr1是里氏木霉中最主要的纤维素酶、半
过氧乙酸是一种重要的化工原料。传统的化学合成法,存在易爆、产品质量不稳定等诸多缺陷,发展酶法催化合成工艺是实现安全生产的重要途径之一。过水解催化活性目前普遍认为是α/β水解酶折叠家族酶蛋白在进化过程中保留下来的催化活性,属于该族酶蛋白的多功能催化活性(Promiscuous activity)。发现和挖掘具有过水解催化活性的酶蛋白,对发展绿色合成过氧乙酸工艺,具有积极意义。通过调研已有的专利和文献
龟足(Capitulum mitella Linnaeus)属于甲壳动物亚门,蔓足下纲,围胸目,指茗荷科,是我国重要的潮间带经济物种,因其具有独特的生态地位,也是进化生物学及生态学研究的重要物种。本文对龟足变态发育过程中幼虫形态结构的变化进行形态学描述,并结合龟足全基因组和转录组数据,利用生物信息学的方法,鉴定得到1个HMGR基因,4个CaMs基因,7个CthDs基因。对其中的CmHMGR、CmC
β-桶外膜蛋白是革兰氏阴性大肠杆菌外膜的重要组成部分,参与细菌的多种生物学过程,如营养物质的摄取与代谢废物的排泄、细菌的黏附作用以及免疫逃逸等,对细菌的生命活动发挥重要的作用。然而,外膜蛋白的生成却是很复杂的过程,新生肽链需要穿过内膜,跨过没有能量的亲水性的膜间质空间,再插入细菌外膜,在整个过程中需要多种细胞因子与质量控制因子的协助。本研究根据外膜蛋白新生肽链在膜间质的转运过程设计开发了一种新型的
在全球范围内,随着抗生素滥用现象越来越严重,越来越多的致病菌表现出多种耐药性。因耐药细菌感染而导致死亡的人数在逐年攀升,迫切需要研究出新型抗菌制剂。噬菌体及其裂解酶因高效且专一的杀菌能力,使其在新型抗菌试剂的研发中展现出非凡活力。粪肠球菌(Enterococcus faecalis,简称E.faecalis)属于革兰氏阳性菌,又名粪链球菌,是一种普遍存在于人或动物肠道、口腔及生殖道内的正常菌群,当
河北昌黎东部沿海地区分布大规模的海岸沙丘群,是我国海岸沙丘典型分布区域之一。本文选取昌黎黄金海岸沙丘作为研究对象,在野外考察的基础上,借助国家基准气象站的风力观测资料,结合多期高分辨率卫星图像的对比分析,探讨海岸风沙动力和海岸沙丘分布格局的关系;在海岸风沙沉积剖面OSL测年建立的年代标尺基础上,以粒度参数作为过去海岸风动力环境的代用指标,重建近三百年来研究区风沙环境的演变历史;依据典型沙丘剖面地质
DNA甲基转移酶2(DNA methyltransferase 2,DNMT2)是核酸修饰酶家族的成员,催化甲基从辅因子S-腺苷甲硫氨酸(SAM)转移到胞嘧啶残基的第五个碳位点上形成5m C。DNMT2是高度保守的甲基转移酶,能催化DNA和RNA甲基化,最近研究发现DNMT2的DNA甲基化作用很小,而是一种高度特异的t RNAAsp甲基转移酶。细胞衰老是一种应激引起的细胞周期停滞,通过抑制细胞生长
嗜肺军团菌通过其特有的ⅣB型(Dot/Icm)分泌系统将约330种效应因子转运到宿主细胞内,逃逸宿主免疫系统的监测、完成自身增殖,同时引发严重的军团菌病。本论文的研究对象Lem23(另称为lpg2406)是嗜肺军团菌经Dot/Icm分泌系统转运到宿主细胞内的一种效应蛋白。为了探索Lem23在嗜肺军团菌入侵宿主细胞过程中的功能,以及寻找其在宿主细胞内的作用靶点,我们解析了Lem23的结构,并对其功能
长链多不饱和脂肪酸在人类健康中起着重要作用。特别是二十碳五烯酸(EPA)和二十碳六烯酸(DHA)对脑功能发育和心血管疾病有显著的作用。三角褐指藻(Phaeodactylum tricornutum)是一种无异味、易于培养、繁殖快且EPA含量丰富的海洋硅藻,也是研究EPA合成的理想模式生物。从分子生物学角度探究三角褐指藻积累EPA和DHA合成的分子机制,借助相关分子遗传育种手段提高EPA和DHA产量