基于概率话题模型的微生物菌群结构研究

来源 :中国科学:生命科学 | 被引量 : 0次 | 上传用户:lanshuye6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微生物菌群结构的异质性在影响宿主健康与疾病等方面有着十分重要的作用.对于菌群结构的时间与空间尺度异质性研究主要有非监督学习算法以及监督学习算法.由于菌群数据特性与文本数据特性之间的相似性,本文采用非监督学习的LDA概率话题模型对菌群结构的时间异质性进行研究,并与系统聚类和K-Means聚类这两种方法进行比较.采用LDA模型折叠Gibbs抽样的蒙特卡洛算法对两种数据源北平顶猴(Macaca leonina)阴道菌群(MVB)和轻微型肝性脑病(MHE)菌群的时间异质性OTUs数据集进行了分析.用LDA模型分别将MVB和MHE数据源中的27个样本和77个样本的OTUs数据集分为6个Topic和4个Topic.这与系统聚类和K-Means聚类划分成的簇数目(分别为5,3与4,3)有所不同.此外,实验表明结合MVB样本间生理数据-pH和MHE中样本α多样性,pH和α值的分类相似性更能与LDA模型的样本分类特性保持一致.因此,LDA在样本的聚集程度上更能精确地对OTUs数据集进行分类.更为重要的是,LDA模型还可以鉴定出每个Topic中具有代表性的OTUs.与系统聚类和K-Means聚类方法相比较,LDA模型不仅能更为有效地量化菌群结构的异质性,还能鉴定出相对应影响异质性的OTUs. The heterogeneity of microbial community structure plays an important role in affecting host health and disease, etc. The study on scale and space scale heterogeneity mainly includes unsupervised learning algorithm and supervised learning algorithm.Because the data of the flora And the characteristics of text data. In this paper, LDA probabilistic topic model of unsupervised learning is used to study the time heterogeneity of bacterial population structure and compared with the two methods of system clustering and K-Means clustering . Monte Carlo Algorithm for Folding Gibbs Sampling with LDA Model The temporal heterogeneity OTUs datasets from two data sources, Macaca leonina vaginal flora (MVB) and mild hepatic encephalopathy (MHE) The LDA model was used to divide 27 OTUs and 77 OTUs from MVB and MHE data sources into 6 topics and 4 topics respectively.This is related to the clustering of system clustering and K-Means clustering The number of clusters (5, 3 and 4, 3, respectively) is different.In addition, the experimental results show that the classification similarity of pH and alpha values ​​can be better correlated with the LDA model The sample classification characteristics are consistent , LDA classifies the OTUs dataset more accurately in terms of the degree of aggregation of the samples.More importantly, the LDA model can also identify the representative OTUs in each Topic.Compared with clustering and K-Means clustering The LDA model can not only quantify the heterogeneity of bacterial flora more effectively, but also identify the corresponding OTUs that affect heterogeneity.
其他文献
日前,本编辑部收到我刊忠实的热心读者,唐山安秀扬先生馈赠的书法题词四幅,分别书有“祝贺中国科学院科技翻译工作者协会成立三十五周年”“奋斗追梦,繁花硕果”“翻译世界,同心和谐”及“热烈庆祝国际翻译日”。我部特此对安先生的支持表示衷心的感谢!
位于江西省东北部的乐平市,是镶嵌在南昌、九江、景德镇“金三角”地带的一颗明珠,面积1973平方公里,总人口80万人。境内有皖赣铁路、206国道和3条省道与外界相连,市区距景德
时间:2015年12月12日9:00一11:30地点:上海音乐学院教学楼贵宾室其他参与者:来自上海音乐学院的博士、硕士及本科生。第八届“大音讲堂”于2015年12月11日至12日在上海音乐学
《党政论坛》2006年第8期推进循环经济的立法进程改革开放以来,我国工业化脚步加快,社会经济得到飞速发展,然而,我国的生态环境与自然资源在承载着最庞大的人口进行经济建设
本文报道经纤维支气管镜诊治支气管异物25例,21例术前误诊,误诊率84%。25例支气管异物中,除了3例因并呼衰等共发症不能耐受取异物术外,其余22例经纤支镜取出异物,成功率88%。并就支
MRL-Lpr/Lpr鼠可发生快速进展的系统性红斑狼疮(SLE)样综合症,12~20周开始死亡,95%动物死于进行性肾小球肾炎。选用6周龄的雌性MRL-LPr/LPr鼠,测试其ABR(用4、8、12、16、20和24kHZ的短音
根尖周炎引起同侧突发性耳聋1例姜兵患者张某某,男,24岁,工人。主诉:右上磨牙胀痛伴右侧耳鸣、耳聋6天。于1994年4月26日来我科就诊。现病史:6天前,患者自觉右上磨牙隐痛,咬不适。并渐加剧,患牙
本文对甘肃黑山含铜镍硫化物岩体的地质构造,金属元素的含量及富集程度做分析,进而推断出黑山岩体的原始岩浆是由活动大陆边缘的交代地幔形成,并且与俯冲板片拆离,软流圈地慢上涌有关。
两年前,一个响亮的声音——“自主创新”,如春雷掠过大地,响彻神州上空,经久不衰,深入人心。从企业到政府,从基层到中央,不约而同地以高集中度、高频率、高强度地呼唤、强调