新一代测序技术下海量宏基因组数据分类研究

来源 :西南大学 | 被引量 : 0次 | 上传用户：rgzgjh

【摘要】

：

宏基因组学直接从环境样品中获取全部微生物的DNA,无需经历人工纯培养阶段,在微生物的研究中发挥了不可替代的作用,给微生物领域的研究带来了新的发现。由于直接从环境样本中

【作者】

：

江源

【出处】

：

西南大学

【发表日期】

：

2004年期

【关键词】

：

宏基因组支持向量机 BLAST 集成聚类密码子

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

宏基因组学直接从环境样品中获取全部微生物的DNA,无需经历人工纯培养阶段,在微生物的研究中发挥了不可替代的作用,给微生物领域的研究带来了新的发现。由于直接从环境样本中获得全部微生物的DNA,所有微生物的DNA序列信息是混在一起的,因此宏基因组学的任务之一便是在生物意义上确定DNA序列的类别。随着下一代测序技术的快速发展,宏基因组数据量越来越大,宏基因组分类也越来越困难。宏基因组分类直接影响着宏基因学后续的研究,因而如何高效地从这些数据中对DNA序列进行分类,已经成为了宏基因组学相关研究中的关键问题。宏基因组分类(又称宏基因组装仓)可以分为有监督的和无监督的两大类,本文针对宏基因组分类研究的主要工作如下:(1)针对有监督的宏基因组分类问题,本文提出了一种基于集成SVM与BLAST的有监督宏基因组分类方法--EnSVMB来更准确地完成宏基因分类。EnSVMB首先利用不同的k-mer训练多个线性SVM分类器并对它们进行集成,然后根据集成分类的结果将宏基因组序列分为可信任的集合和不可信任的集合。实验结果显示,可信任的集合中的序列由于获得了较多一致的分类结果,因而分类准确率要远高于不可信任集合的序列。其中可信任数据集中的accuracy,sensitivity与specicificity分别超过了95%、90%和97%,但是在不可信任数据集中分别低于88%、60%和75%。为了进一步提升不可信任集合上序列的分类结果,EnSVMB使用序列比对工具BLAST来对它们进行深入的比对分析。实验结果显示,EnSVMB不但能够准确地将序列分为可信任数据集和不可信任数据集,同时利用这种分而治之的思想,在与其他对比方法的比较中,EnSVMB保证分类速度的同时,也获得了最高的accuracy,sensitivity以及true positives。(2)针对无监督的宏基因组分类(又称宏基因组聚类)问题,本文提出了一种基于集成k-means与图分割的宏基因组分类方法--BMC3C,并探索引入了一种全新的特征--密码子使用模式。BMC3C首先自动地探索聚类个数,并利用不同的初始化信息重复地执行多次k-means对序列进行多次聚类。然后根据这些聚类结果构建一个权重图,其中每一个节点代表一个序列,而节点之间的权重代表聚类结果中两个序列之间的关联性。如果两条序列频繁地被聚类到一个类簇中,那么它们之间的权重就大,反之则小。最后,BMC3C利用图分割的方法将权重图分割为多个子图,每一个子图代表一个类。在模拟数据集以及真实数据集上的实验结果显示,BMC3C的实验效果显著好于其他对比算法。BMC3C是第一次将密码子使用模式与集成聚类引入无监督宏基因组分类,实验验证了集成算法在BMC3C中的有效性,同时实验还探究并且验证了新引入的密码子特征在宏基因组分类中的有效性。

其他文献

基于听觉皮层拓扑分化的频率选择性功能连接

功能连接的频率选择性可以反映神经元频率调谐的相似性,频率调谐相似性越高的神经元其功能连接强度越强,神经元之间的功能交互程度也就越高。此前的研究已经证实人脑听觉皮层

学位

分层组织模式频率选择性静息态-功能连接人类听觉皮层功能磁共振

网络编码辅助D2D通信中的中继选择算法研究

无线技术迅速发展使移动设备数量呈爆炸式增长,为减轻基站负担和提高资源利用率,提出了设备到设备通信(Device-to-Device Communication,D2D通信)。但是直接D2D通信更适用于

学位

D2D通信网络编码中继选择系统容量

基于宽度学习的船舶目标跟踪算法的改进研究

随着世界贸易不断加深,航运业发展壮大,船舶逐渐向大型化、快速化转型。传统的利用巡航船开展巡航的模式受到了制约,视野范围小、反应速度慢,无法统合全局信息,无法持续有效

学位

宽度学习目标跟踪特征融合目标分类

基于光混沌的彩色图像加密与传输研究

在如今数字图像作为流行的信息传播形态之一,所具有的直观、形象和生动等特点使其被各行业所广泛的应用。尤其是在政治、经济和教育等行业,多媒体数字信息作为信息传递的载体

学位

光混沌混沌同步半导体激光器图像加密

基于分层子空间的分布式随机森林算法优化

如何高效地挖掘数据中的价值信息是大数据时代需要重视和解决的问题。随着各种新事物如云计算和物联网技术等信息传播方法的不断出现兴起,数据规模以每两年增长两倍的速度持

学位

随机森林算法并行与分布式Spark大数据特征选择

视神经乳头SDOCT视网膜图像的分割与研究

光谱域光学相干层析成像技术被广泛的应用于视网膜组织的三维成像中,准确地分割视网膜组织的层次结构可以为各类视网膜疾病的诊断提供依据。针对视网膜组织分层的研究大多集

学位

视神经乳头自适应平滑约束三维图搜索分割

马叙伦思想政治教育理论与实践研究

中国共产党始终高度重视思想政治教育,这既是我党政治优势,也是我党的优良传统。随着时代的发展,获取信息的途径不断增加,人们的思想、文化、意识等多呈现出多元化多样性。因

学位

马叙伦思想政治教育理论与实践当代启示

清末民国多边格局下康区精英的主体性研究

自元朝起,康区一直由土司和寺庙维系当地的秩序。1906年至1911年,赵尔丰及其继任者傅嵩炑相继在康区实施改土归流,将土司和寺庙的特权一并取缔,康区社会动荡不宁之际,辛亥革

学位

康区西康微观因素主体性能动性康藏纠纷康人自治土司复辟

对新课程理念下初高中化学教学衔接的探讨

作为一门非常注重实践和理论结合的学科,化学需要从不同的角度和阶段为出发点,引入化学的知识进行教学才能够有效的提高化学教学工作目的。实施高中化学课程的新课改要求首先

会议

化学教学教学衔接初高中

导向基团辅助的铜催化C-H键的酰氧化研究

过去二十年里,过渡金属催化或者促进C–H键的转化作为一种步骤简单、原子经济的方法被广泛地应用于有机复杂分子的合成中。与传统的交叉偶联相比,导向基团辅助的C–H键活化以

学位

C–H键活化导向基团酰氧化铜催化

新一代测序技术下海量宏基因组数据分类研究

与本文相关的学术论文